滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

龍蝦最佳適配模型，OpenClaw之父給出了推薦

時間：2026-03-10 11:37:43 來源：量子位編輯：快訊 IP：北京 發表評論無障礙通道

一水發自凹非寺

量子位 | 公眾號 QbitAI

龍蝦太火，所有人都想一試。但真到了上手環節就會迎來第一道“攔路虎”——

急急急，究竟哪個模型最適合OpenClaw啊？？

知道你急，龍蝦之父親自趕來支招了：可以關注這個因吹斯汀的榜單。

榜單名為PinchBench，專為龍蝦而生，從成功率、速度、價格等維度評估全球大模型對OpenClaw的適配程度。（劃重點，還是實時更新那種）

這個榜單其實今年2月底就出現了，但現在卻更火了——

這里面不止有龍蝦之父推薦的功勞，更重要的原因是咱中國模型的表現確實出色。（老外一看，嗯？？）

前排國產模型含量好高啊

熟悉龍蝦的朋友都知道，這選模型可是一件大事。

畢竟龍蝦這玩意兒一吃token耗錢，二又不能太慢影響用戶體驗。

換言之，人人都在價格和速度之間艱難走鋼絲。

而PinchBench要做的，就是直接告訴你答案——它按照成功率、速度、價格這三個基本維度對全球模型進行排名，所以哪個模型更擅長什么基本都一目了然。

截至本文發稿前，榜單具體情況如下——

整體而言，中國模型在成功率和速度方面都有不俗表現，價格方面則稍遜。

比成功率，除了第一名谷歌Gemini 3 Flash，第二、第三名都出自國內。

第一名（Gemini 3 Flash）：成功率95.1%

第二名（MiniMax M2.1）：成功率93.6%

第三名（Kimi K2.5）：成功率93.4%

而且注意沒，MiniMax用的還不是它家最新模型MiniMax M2.5。

比速度，國產模型MiniMax M2.5更是一舉超越Gemini、Llama等模型，登上榜首。

當時發布時，MiniMax M2.5就在SWE-Bench Verified測試中，完成任務的速度較上一代M2.1提升了37%，端到端運行時間縮短至22.8分鐘，與Claude Opus 4.6持平。

而Claude Opus 4.6的最新排名是30（M2.1是第22）。

不過在價格方面，國產模型和OpenAI、谷歌模型相比則缺乏優勢。

排第一的GPT-5-nano（專為輕量級、高性價比場景設計），輸入價格低至0.05美元/百萬tokens，輸出價格低至0.40美元/百萬tokens。

而國產模型中最便宜的MiniMax M2.1，輸入價格為2.1元/百萬tokens（約0.3美元/百萬tokens），輸出價格為8.4元/百萬tokens（約1.2美元/百萬tokens）。

平均下來，后者的價格幾乎是前者的3倍。

綜合來看，如果要在成功率和價格之間取得最佳平衡，下面這張圖可以作為參考。

左上角的方框已經圈選出了還不錯的模型——一共8個，其中有4個還都是中國模型。

Anyway，在這份專為龍蝦而生的Benchmark中，國產模型的含量確實很高，而且在某些單項上表現出色。

那么問題來了，這榜單靠譜嗎？背后的篩選機制又是什么？

來看PinchBench的介紹。

誰是PinchBench？

簡單來說，PinchBench并不是某家大廠推出的標準Benchmark，而是來自一支做Agent基礎設施的創業團隊。

團隊名為Kilo AI，由GitLab前聯合創始人兼CEO Sid Sijbrandij投資并參與創立，曾推出爆火“氛圍編程”工具Kilo Code。

年初龍蝦爆火后，他們又順勢推出了基于OpenClaw構建的全托管智能體平臺KiloClaw。

而隨著KiloClaw一起發布的，就有PinchBench這個智能體框架評測工具。

PinchBench主要被用來測試不同大模型在真實工作流中的執行能力，和傳統大模型Benchmark（比如知識問答、數學推理）不同，其定位更接近“Agent能力測試”——

不只看模型會不會回答問題，而是看模型能不能完成一整件事。

目前它大約包含23個真實任務的測試，包括但不限于：

查詢并整理資料

寫郵件或生成報告

調用API完成操作

……

在評分機制上，PinchBench采用的是自動化檢查+LLM評審的組合方式：

一部分任務有明確的自動檢查腳本，例如是否生成正確文件、是否完成指定操作等；另一部分任務則會由LLM Judge來判斷結果質量。

最終統計的核心指標就是我們上面提到的Success Rate（任務完成率）、Speed（完成速度）、Cost（推理成本）。

由于評測方式偏向真實任務流程，值得注意的是，在PinchBench的排行榜上，你會看到一個有意思的現象——

更大的模型并非總是制勝之道。

換言之，那些偏Agent優化或推理效率更高的模型，排名反而比傳統主流大模型更靠前。

這一點也是PinchBench最近在圈子里被頻繁討論的原因之一。

BTW，PinchBench目前還是完全開源的，用戶也可以在平臺上自行運行或添加新任務。

如果以后不知道怎么選模型，不妨自己動手一試。

PinchBench開源地址：

https://github.com/pinchbench/skill

參考鏈接：

[1]https://x.com/steipete/status/2030312187915309311

[2]https://pinchbench.com/about?utm_source=chatgpt.com

更多>同類資訊

AI進展拖慢產品節奏，蘋果推遲智能家用顯示器發布

03-10

新浪微博官宣接入KimiClaw：手機私信即可下發指令

03-10

消息稱蘋果首款智能家居屏9月隨iOS 27亮相

03-10

英偉達計劃推出名為“NemoClaw”的開源AI智能體平臺

03-10

消息稱英偉達版“小龍蝦”NemoClaw下周登場：已接洽谷歌等巨頭打造“數字員工”

03-10

iPhone 17e明天首銷：4499元起第三方平臺已提前破發

03-10

7999元起！小米17 Ultra徠卡版黑銀色今日開售：徠卡設計師親自操刀

03-10

支楞起來的小破站，苦盡甘來？

03-10

2026年中國旗艦手機市場：蘋果iPhone 17系列銷量一騎絕塵，國產緊追

03-10

2025年東南亞智能手機市場：三星領跑，小米份額升至17%，OV出貨量下滑

03-10

英偉達下周將推NemoClaw開源AI平臺已與谷歌等多家科技巨頭探討合作

03-10

朱嘯虎盛贊OpenClaw：開源生態強大，或一年后成新流量入口

03-10

阿里版OpenClaw“無影JVS”更名JVS Claw，已開啟內測或為上線做準備

03-10

OpenAI再落一子：收購Promptfoo強化AI代理安全，加速產業布局拓展

03-10

iPhone 17e明日開售：4499元起售存儲升級+雙卡技術成入門新寵

03-10

點擊查看更多 +

全站最新

英偉達下周將推NemoClaw開源AI平臺已與谷歌等多家科技巨頭探討合作

阿里版OpenClaw“無影JVS”更名JVS Claw，已開啟內測或為上線做準備

中東警報解除！韓國芯片巨頭“報復性”反彈，南方兩倍做多海力士(7709.HK)暴漲23%

港股異動丨發盈警，普華和順一度大跌超23%

24小時環球政經要聞全覽 | 3月10日

日股漲幅擴大至3%

熱門內容

本欄最新

B站盈利與用戶增長背后：創作者與用戶深度關系構筑獨特生態位

抖音小游戲2026：生態賦能規模躍升，技術驅動行業邁向精品化新階段

三款熱門助聽器深度實測：從平價到高端，哪款更適合家中長輩？

借勢引流還是自毀前程？尚界Z7“模仿”小米SU7能否走出長遠之路？

星途瑤光全系OTA煥新來襲！新增功能+深度優化，開啟智能出行新境界

星途瑤光全系OTA煥新來襲！駐車保電+應用商店，解鎖智慧出行新體驗

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

龍蝦最佳適配模型，OpenClaw之父給出了推薦