谷歌再次在人工智能領(lǐng)域投下一枚重磅炸彈,正式推出Gemini 3.1 Flash-Lite模型。這款新模型以驚人的輸出速度和極具競爭力的價(jià)格,在性能測試中全面超越同類產(chǎn)品,被業(yè)界稱為"性價(jià)比之王"。
在輸出速度方面,Gemini 3.1 Flash-Lite達(dá)到每秒363個(gè)token,與自家上一代2.5 Flash-Lite(366 token/s)幾乎持平,但遠(yuǎn)超Gemini 2.5 Flash的249 token/s。對比其他主流模型,GPT-5 mini僅71 token/s,Claude 4.5 Haiku為108 token/s,Grok 4.1 Fast稍快至145 token/s。這意味著Flash-Lite的速度是GPT-5 mini的5倍,Claude 4.5 Haiku的3.4倍。
價(jià)格方面,Gemini 3.1 Flash-Lite展現(xiàn)出巨大優(yōu)勢。其輸入成本為每百萬token 0.25美元,輸出成本1.50美元/百萬token。相比之下,GPT-5 mini輸出價(jià)格為2.00美元,Gemini 2.5 Flash為2.50美元,Claude 4.5 Haiku高達(dá)5.00美元。更令人驚訝的是,F(xiàn)lash-Lite比同系列的3.1 Pro便宜8倍,在保持高性能的同時(shí)將成本壓縮到極致。
在多項(xiàng)基準(zhǔn)測試中,Gemini 3.1 Flash-Lite表現(xiàn)出色。科學(xué)知識和推理能力測試GPQA Diamond上,它取得86.9%的高分,超越GPT-5 mini的82.3%、Claude 4.5 Haiku的73.0%,甚至超過體量更大的Gemini 2.5 Flash(82.8%)。多模態(tài)理解測試MMMU-Pro中,F(xiàn)lash-Lite以76.8%的成績領(lǐng)先,GPT-5 mini為74.1%,Gemini 2.5 Flash為66.7%。
事實(shí)準(zhǔn)確性測試SimpleQA Verified顯示,F(xiàn)lash-Lite準(zhǔn)確率達(dá)43.3%,而Gemini 2.5 Flash為28.1%,GPT-5 mini僅9.5%,Claude 4.5 Haiku更低至5.5%。多語言能力測試MMMLU中,F(xiàn)lash-Lite以88.9%登頂,超過Gemini 2.5 Flash的86.6%和GPT-5 mini的84.9%。視頻理解測試Video-MMMU中,它獲得84.8分,同樣領(lǐng)先同類產(chǎn)品。
盡管在代碼生成測試LiveCodeBench中,F(xiàn)lash-Lite得分72.0%,低于GPT-5 mini的80.4%和Grok 4.1 Fast的76.5%;在Humanity's Last Exam測試中,它獲得16.0分,與GPT-5 mini的16.7%接近,但Grok 4.1 Fast以17.6%領(lǐng)先。不過考慮到其價(jià)格優(yōu)勢,這些差距顯得微不足道。
在Chatbot Arena的文本競技場中,Gemini 3.1 Flash-Lite以1432的Elo分?jǐn)?shù)排名第36,與OpenAI的旗艦推理模型o3(1432分)和GPT-5 High(1434分)不相上下。代碼競技場中,它得分1261,排名并列35,與Claude Haiku 4.5(1308分)和DeepSeek V3.2(1321分)差距不大。Artificial Analysis評測確認(rèn),F(xiàn)lash-Lite在輸出速度和成本效益方面達(dá)到業(yè)界最佳水平。
Gemini 3.1 Flash-Lite的獨(dú)特優(yōu)勢在于其可調(diào)節(jié)的"思考深度"功能。開發(fā)者可以根據(jù)任務(wù)復(fù)雜度自由設(shè)定模型投入的推理資源:對于批量翻譯、內(nèi)容審核等簡單任務(wù),采用淺思考模式以最大化速度和降低成本;對于生成UI界面、構(gòu)建模擬環(huán)境等復(fù)雜任務(wù),則切換到深度推理模式,效果可與大模型媲美。
實(shí)際應(yīng)用測試進(jìn)一步驗(yàn)證了Flash-Lite的強(qiáng)大能力。在電商場景中,它能在幾秒內(nèi)用數(shù)十個(gè)品類、數(shù)百款商品自動(dòng)填充整個(gè)電商界面原型,包括名稱、價(jià)格、分類和圖片占位,這項(xiàng)工作以往需要設(shè)計(jì)師花費(fèi)半天時(shí)間手動(dòng)完成。在實(shí)時(shí)數(shù)據(jù)看板方面,F(xiàn)lash-Lite可結(jié)合最新天氣預(yù)報(bào)接口和歷史數(shù)據(jù),快速生成動(dòng)態(tài)可視化天氣數(shù)據(jù)面板,相當(dāng)于省去一個(gè)前端工程師的工作量。
對于企業(yè)用戶,F(xiàn)lash-Lite在構(gòu)建SaaS智能體方面表現(xiàn)突出。它能夠處理多步驟靈活任務(wù),如自動(dòng)化客戶工單處理和訂單跟蹤等流程,其低延遲和低成本特性使其成為高頻調(diào)用場景的理想選擇。面對海量非結(jié)構(gòu)化內(nèi)容,如圖片、文檔和用戶評論,F(xiàn)lash-Lite還能快速完成分析、標(biāo)簽化和歸類整理。
Gemini 3.1 Flash-Lite的發(fā)布標(biāo)志著AI競爭進(jìn)入新階段。過去各家大模型主要比拼性能極限,而Flash-Lite的出現(xiàn)將戰(zhàn)場轉(zhuǎn)向性價(jià)比維度。這款模型用幾分之一的價(jià)格實(shí)現(xiàn)旗艦級效果,以5倍速度碾壓競品,在事實(shí)準(zhǔn)確性上取得斷崖式領(lǐng)先,證明谷歌在性價(jià)比賽道上已占據(jù)領(lǐng)先地位。對于全球開發(fā)者而言,這可能是目前最值得關(guān)注的模型之一,畢竟在真實(shí)產(chǎn)品場景中,成本和速度往往比單純跑分更重要。







