Anthropic公司近日推出中檔AI模型Claude Sonnet 4.6,在保持與前代相同定價策略的同時,實現了性能的顯著提升。該模型每百萬token輸入定價3美元、輸出15美元,卻能在多項基準測試中比肩甚至超越價格高出五倍的旗艦產品Opus 4.6,引發行業廣泛關注。
在真實軟件編碼能力測試SWE-bench Verified中,Sonnet 4.6以79.6%的得分緊追Opus 4.6的80.8%,同時領先OpenAI的GPT-5.2。在代理式金融分析任務中,該模型以63.3%的準確率超越所有競爭對手,包括Opus 4.6的60.1%和GPT-5.2的59.0%。辦公任務評估GDPval-AA Elo評分顯示,Sonnet 4.6以1633分超越Opus 4.6的1606分和GPT-5.2的1462分。
盡管在終端編碼任務Terminal-Bench 2.0、代理式搜索BrowseComp和新穎問題解決測試ARC-AGI-2等高復雜度領域,Opus 4.6仍保持領先優勢,但Sonnet 4.6在計算機使用能力方面展現出突破性進展。OSWorld-Verified基準測試中,該模型得分72.5%,較前代提升11.1個百分點,遠超GPT-5.2的38.2%。這種能力使AI能夠通過模擬人類操作完成復雜任務,為企業應用開辟了新場景。
保險科技公司Pace的測試顯示,Sonnet 4.6在其保險計算機使用基準測試中達到94%的準確率,創下Claude系列模型新高。該模型還具備自我糾正能力,能夠分析失敗原因并調整策略。在安全防護方面,Sonnet 4.6對提示注入攻擊的抵御能力較前代有顯著提升,這對需要處理網頁交互的企業應用至關重要。
企業用戶反饋顯示,Sonnet 4.6在保持成本優勢的同時,性能表現接近旗艦模型。數據分析平臺Hex Technologies已將大部分流量遷移至該模型,其CTO指出,通過自適應思考和高努力模式配置,除最困難的分析任務外,其他工作均達到Opus級別性能。云存儲公司Box的測試表明,Sonnet 4.6在真實企業文檔處理中的表現較前代提升15個百分點。
該模型配備100萬token的超長上下文窗口,可處理完整代碼庫或法律文件等大型文檔。在Vending-Bench Arena企業運營模擬測試中,Sonnet 4.6展現出戰略決策能力:前十個模擬月大量投資產能,后期轉向盈利能力提升,最終模擬余額達5700美元,較前代提升171%。
業務拓展方面,Anthropic在發布Sonnet 4.6當日宣布與印度IT巨頭Infosys達成合作,將Claude模型集成至Topaz AI平臺,服務銀行、電信和制造業客戶。同時,該公司在班加羅爾設立首個印度辦事處,目前印度市場占Claude全球使用量的6%,僅次于美國。此舉引發資本市場波動,部分軟件企業股價出現調整。
為降低開發者使用門檻,Anthropic將免費層級默認升級至Sonnet 4.6,開發者可通過Claude API直接調用該模型。這一策略可能進一步改變AI市場競爭格局,特別是對成本敏感的企業用戶產生顯著影響。











