在人工智能技術(shù)飛速發(fā)展的當(dāng)下,推理模型作為前沿成果,展現(xiàn)出強(qiáng)大的多步驟邏輯推理與復(fù)雜問(wèn)題解決能力。無(wú)論是規(guī)劃多城市旅行時(shí)對(duì)交通、預(yù)算、時(shí)間表的綜合考量,還是處理其他需要細(xì)致拆解與迭代構(gòu)建解決方案的任務(wù),這些模型都能憑借“推理”能力應(yīng)對(duì)自如。然而,當(dāng)前行業(yè)在應(yīng)用這些模型時(shí),卻面臨著一個(gè)亟待解決的效率難題。
一個(gè)令人驚訝的現(xiàn)象是,即便是最先進(jìn)的推理模型,在面對(duì)“1 + 1等于多少”這類簡(jiǎn)單問(wèn)題時(shí),也會(huì)花費(fèi)十幾秒進(jìn)行思考。這并非模型不具備解決基本數(shù)學(xué)方程的能力,而是反映出它在區(qū)分不同類型查詢需求上的不足。當(dāng)前,許多推理模型在訓(xùn)練目標(biāo)的驅(qū)動(dòng)下,對(duì)每個(gè)回應(yīng)都進(jìn)行深度思考,無(wú)論查詢是否真正需要。這種不加區(qū)分的部署方式,導(dǎo)致在處理大量簡(jiǎn)單查詢時(shí),出現(xiàn)嚴(yán)重的資源浪費(fèi)。
不必要的推理循環(huán)帶來(lái)諸多實(shí)際后果。每一次多余的推理都會(huì)增加延遲,讓用戶等待更長(zhǎng)時(shí)間才能得到答案;同時(shí),也會(huì)推高基礎(chǔ)設(shè)施成本,增加能源消耗。有分析表明,僅僅是不必要的提示冗長(zhǎng),每年就會(huì)造成數(shù)千萬(wàn)美元的額外計(jì)算成本。當(dāng)模型自動(dòng)對(duì)簡(jiǎn)單查詢應(yīng)用深度推理時(shí),成本與推理Token數(shù)量呈線性增長(zhǎng),在數(shù)十億次查詢的累積下,影響巨大,這種模式顯然難以持續(xù)。
為解決這一問(wèn)題,行業(yè)進(jìn)行了多種探索。混合推理模型是當(dāng)前的解決方案之一,它允許開(kāi)發(fā)者手動(dòng)切換模型的思維模式。但這種方式只是將決策負(fù)擔(dān)轉(zhuǎn)移給了人類,并未從根本上解決問(wèn)題。基于路由器的系統(tǒng)則有所改進(jìn),它為推理和非推理模式分別維護(hù)推理路徑,通過(guò)自動(dòng)路由器依據(jù)查詢特征決定調(diào)用哪種模式,消除了手動(dòng)配置的需求。不過(guò),這種系統(tǒng)也引入了架構(gòu)復(fù)雜性,還需要專門(mén)訓(xùn)練路由器。
亞馬遜正朝著一個(gè)更具創(chuàng)新性的方向努力,致力于實(shí)現(xiàn)真正的自適應(yīng)推理。其目標(biāo)是讓模型自主決定何時(shí)進(jìn)行深度思考能為任務(wù)增加價(jià)值。亞馬遜設(shè)想模型具備原生的元認(rèn)知能力,能夠?qū)崟r(shí)評(píng)估查詢復(fù)雜性,在快速回憶和深思熟慮的推理之間無(wú)縫切換,無(wú)需開(kāi)發(fā)者預(yù)先預(yù)測(cè)和配置推理需求。亞馬遜認(rèn)為,端到端訓(xùn)練的模型若能同時(shí)決定何時(shí)推理和如何推理,最終會(huì)比需要單獨(dú)路由基礎(chǔ)設(shè)施的方法更準(zhǔn)確、高效,這將推動(dòng)AI系統(tǒng)向真正自我調(diào)節(jié)的方向轉(zhuǎn)變,使其能夠動(dòng)態(tài)監(jiān)控和調(diào)整計(jì)算強(qiáng)度。
從生物學(xué)角度,人類認(rèn)知為AI效率優(yōu)化提供了寶貴借鑒。心理學(xué)家丹尼爾·卡尼曼將人類思維分為系統(tǒng)1(快速、自動(dòng)思維)和系統(tǒng)2(緩慢、深思熟慮的推理),人類能在兩種模式間無(wú)縫切換,為值得的問(wèn)題保留深度思考。而當(dāng)前推理模型雖模擬了系統(tǒng)2思維,卻缺乏識(shí)別何時(shí)不必要的元認(rèn)知能力,對(duì)每個(gè)查詢都進(jìn)行擴(kuò)展的思維鏈處理,導(dǎo)致在簡(jiǎn)單問(wèn)題上浪費(fèi)資源。例如,推理模型在簡(jiǎn)單任務(wù)上生成的非推理模型多7到10倍的Token,才能達(dá)到相當(dāng)?shù)臏?zhǔn)確性。像詢問(wèn)時(shí)間和天氣這類簡(jiǎn)單查詢,卻觸發(fā)與規(guī)劃復(fù)雜行程相同的推理過(guò)程,使得用戶體驗(yàn)變差,提供商計(jì)算成本大幅上升。
為構(gòu)建自我調(diào)節(jié)的模型,需先理解查詢復(fù)雜性的范圍。通過(guò)研究,識(shí)別出查詢復(fù)雜性光譜上的“關(guān)鍵拐點(diǎn)”:明顯不需要擴(kuò)展思考的任務(wù)、絕對(duì)需要它的任務(wù),以及介于兩者之間的灰色區(qū)域。基于此,建立了查詢復(fù)雜性分類框架:簡(jiǎn)單檢索類查詢,如“法國(guó)的首都是什么”,只需直接回憶,無(wú)需推理和解釋,模型應(yīng)立即回答;中等復(fù)雜性查詢,如“列出既是G7成員又有君主制的國(guó)家”,需檢索兩個(gè)信息片段并對(duì)其交集推理,可能需多跳推理或直接回憶,推理可能提高準(zhǔn)確性但非必需;高復(fù)雜性查詢,如“規(guī)劃一周的巴黎旅行,預(yù)算3000美元,包括博物館、素食餐廳和無(wú)障礙設(shè)施”,需多步驟規(guī)劃、跨多個(gè)變量約束滿足以及迭代推理優(yōu)化解決方案。
值得注意的是,在這個(gè)自適應(yīng)框架中,安全性是首要考慮因素,與任務(wù)復(fù)雜性獨(dú)立運(yùn)行。一個(gè)查詢可能在計(jì)算上簡(jiǎn)單,但出于安全考慮仍需深思熟慮。例如,模型可立即回答“1 + 1 = 2”,但對(duì)于“如何繞過(guò)安全系統(tǒng)”這類問(wèn)題,即便計(jì)算簡(jiǎn)單,也需擴(kuò)展思考以確保安全、適當(dāng)?shù)捻憫?yīng),避免效率優(yōu)化損害負(fù)責(zé)任的AI原則。這些分類為模型提供了識(shí)別計(jì)算需求的訓(xùn)練信號(hào),有助于模型發(fā)展元認(rèn)知能力,學(xué)會(huì)何時(shí)思考能為任務(wù)增加價(jià)值。
AI行業(yè)在提升原始智能、優(yōu)化準(zhǔn)確性、延遲和成本權(quán)衡方面已取得顯著進(jìn)步,但自適應(yīng)推理這一模型自主決定何時(shí)深度思考的領(lǐng)域,仍有待深入探索。亞馬遜在這一方向的研究,有望推動(dòng)AI效率提升,讓用戶不再為簡(jiǎn)單問(wèn)題的答案等待過(guò)長(zhǎng)時(shí)間。










