Anthropic公司近日推出其最新人工智能模型Claude Sonnet 4.6,在編程、計算機操作、長上下文推理等多個領域展現出顯著進步。這款新模型不僅在性能上接近其高端系列Opus,還在成本方面更具優勢,引發業界廣泛關注。
根據Anthropic公布的基準測試數據,Claude Sonnet 4.6在金融分析、辦公任務和視覺推理等關鍵指標上已超越其2月6日發布的Opus 4.6版本。該模型支持100萬token的上下文窗口,能夠處理更復雜的任務場景。對于免費和Pro訂閱用戶,Sonnet 4.6已成為claude.ai和Claude Cowork平臺的默認模型,并新增文件創建、連接器、專業技能與內容壓縮等功能。
在定價策略上,Sonnet 4.6保持與前代版本相同的水平,每百萬token輸入價格為3美元,輸出價格為15美元。這種高性價比特性使其在發布后迅速獲得市場認可,導致美股軟件板塊出現波動。截至美東時間周二收盤,Intuit股價下跌超過5%,甲骨文、Applovin跌幅超過3%,Salesforce、Atlassian等公司股價也有不同程度下滑。
開發者社區對Sonnet 4.6的反響熱烈。多位開發者在社交平臺分享使用體驗,展示該模型在代碼重構、多文件修改等任務中的出色表現。有開發者表示,Sonnet 4.6僅通過一次調用就完成了整個代碼庫的重構工作,新增3000多行代碼并創建12個新文件。其百萬token上下文窗口功能尤其受到稱贊,用戶可以導入整個代碼庫而無需擔心信息丟失。
在視覺推理能力方面,Sonnet 4.6也有顯著提升。測試顯示,該模型在生成SVG代碼創建Xbox控制器圖像的任務中,展現出比前代更強的立體感和細節處理能力。這種進步使其在與Gemini和ChatGPT等模型的競爭中更具優勢。
Anthropic特別強調Sonnet 4.6在計算機使用方面的突破。該模型在OSWorld基準測試中表現出色,能夠像人類一樣操作Chrome、LibreOffice等真實軟件環境。早期用戶反饋顯示,Sonnet 4.6在處理復雜表格、填寫多步驟網頁表單等任務中已接近人類水平,顯著提高了辦公效率。
在開發模式上,Sonnet 4.6提供"擴展思維"和"自適應思維"兩種選擇。開發者可以根據任務需求調整模型的推理強度,這種靈活性使其能夠適應不同場景的應用需求。在Vending-Bench Arena商業模擬測試中,Sonnet 4.6展現出卓越的戰略規劃能力,通過前期投資和后期盈利的平衡策略,最終取得領先成績。
盡管Sonnet 4.6在多個領域表現優異,但Anthropic承認,對于需要深度推理的復雜任務,Opus 4.6仍是首選方案。特別是在代碼庫重構、多Agent協同工作等場景中,Opus系列仍保持著技術優勢。這種分層產品策略使Anthropic能夠滿足不同用戶群體的需求。
安全評估顯示,Sonnet 4.6在多語言場景下均能保持穩定表現。研究人員使用普通話、阿拉伯語、英語等七種語言測試模型的信息提供意愿和違規請求響應能力,結果顯示該模型在各種語言環境下都能有效識別并拒絕潛在有害請求。










