岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

Claude Sonnet 4.6空降!Office性能干翻旗艦?zāi)P?/h1>
   時(shí)間:2026-02-18 17:41:19 來源:智東西編輯:快訊 IP:北京 發(fā)表評論無障礙通道

 

編譯 | 李水青 程茜

編輯 | 心緣

智東西2月18日報(bào)道,今日凌晨,Anthropic推出史上最強(qiáng)Sonnet模型——Claude Sonnet 4.6來了,新模型在編程、計(jì)算機(jī)使用、長上下文推理、Agent規(guī)劃、知識工作和設(shè)計(jì)工作上全面進(jìn)化。

從Anthropic公布的基準(zhǔn)測試結(jié)果來看,Claude Sonnet 4.6的智能水平已接近Opus級別,在Agent金融分析、辦公任務(wù)、視覺推理幾項(xiàng)測評中甚至超過在2月6日剛剛發(fā)布的Opus 4.6,但成本更親民。在Claude系列模型中,最小的模型通常稱為Haiku,中型模型稱為Sonnet,最大、智能水平最高的模型是Opus。

在Sonnet 4.6發(fā)布后,美股軟件股哀嚎一片。截至美東時(shí)間周二收盤,Intuit跌超5%,甲骨文、Applovin跌超3%,Salesforce、Atlassian、Palo Alto Networks、Autodesk跌超2%,Adobe、ServiceNow跌超1%。

一位開發(fā)者在社交平臺X上公布了其試用體驗(yàn),亮出了Claude Sonnet 4.6與Claude Opus 4.6的游戲生成對比,他稱兩者效果不相上下,而Claude Sonnet 4.6價(jià)格卻便宜了近一半。

社交平臺X上Claude Sonnet 4.6的體驗(yàn)實(shí)例

Sonnet 4.6測試版擁有100萬token上下文窗口。對于免費(fèi)和Pro訂閱用戶,Claude Sonnet 4.6已成為claude.ai和Claude Cowork的默認(rèn)模型,現(xiàn)已支持文件創(chuàng)建、連接器、專業(yè)技能與內(nèi)容壓縮等功能。該模型的價(jià)格與Sonnet 4.5一致,每百萬token的輸入價(jià)格為3美元(約合人民幣21元),輸出價(jià)格為15美元(約合人民幣104元)。

AWS第一時(shí)間宣布Sonnet 4.6已在Amazon Bedrock上架。AWS稱,這是Anthropic的最強(qiáng)計(jì)算機(jī)使用模型,對于正在擴(kuò)展AI工作流程的企業(yè)而言,這意味著在不犧牲質(zhì)量的前提下獲得更高的投資回報(bào)率。

這也是Anthropic成為萬億獨(dú)角獸后,首次亮相新模型。2月13日,Anthropic宣布完成300億美元(約合人民幣2072.61億元)G輪融資,估值一舉躍升至3800億美元(約合人民幣2.63萬億元)。

在Sonnet 4.6發(fā)布后,美股軟件股哀嚎一片。截至美東時(shí)間周二收盤,Intuit跌超5%,甲骨文、Applovin跌超3%,Salesforce、Atlassian、Palo Alto Networks、Autodesk跌超2%,Adobe、ServiceNow跌超1%。

一、效果接近Opus 4.6、成本更低,搜索操作、百萬token上下文是亮點(diǎn)

Claude Sonnet 4.6一經(jīng)發(fā)布就在開發(fā)者圈引起了關(guān)注和討論。

一位海外開發(fā)者稱:“Claude Sonnet 4.6以更低的成本實(shí)現(xiàn)了接近Opus的智能水平,這意義非凡,適用于預(yù)算有限的團(tuán)隊(duì)。”另一位網(wǎng)友稱:“Anthropic的真正策略已顯露:Opus爭奪王座,Sonnet蠶食市場。”

100萬token上下文窗口被多位開發(fā)者提及為最大亮點(diǎn)。“100萬個(gè)token?終于找到一個(gè)能讀取我整個(gè)混亂代碼庫而不評判我的模型了。”一位網(wǎng)友稱。另一位網(wǎng)友也將模型運(yùn)行了一整天,提到智能編碼方面的改進(jìn)明顯:“多文件修改時(shí)不再需要過多干預(yù),而且能夠記住長時(shí)間會話中的上下文。不過,100萬個(gè)token窗口才是真正的亮點(diǎn),你可以導(dǎo)出整個(gè)代碼庫,它也不會丟失任何信息。”

另一位網(wǎng)友展示了他的試用案例,Claude Sonnet 4.6只用一次調(diào)用就重構(gòu)了他的整個(gè)代碼庫。25次工具調(diào)用,新增了3000多行代碼,創(chuàng)建了12個(gè)全新的文件。它實(shí)現(xiàn)了模塊化,拆分了單體應(yīng)用,清理了混亂的代碼。“雖然所有功能還沒運(yùn)行,但效果真是太棒了。”

社交平臺X上Claude Sonnet 4.6的體驗(yàn)實(shí)例

Claude Sonnet 4.6的視覺推理能力有所提升,這一能力之前與Gemini和ChatGPT相比更遜色。一位開發(fā)者展示出了Grok 4.20 beta和Claude Sonnet 4.6的SVG生成效果,提示詞是“編寫SVG代碼以創(chuàng)建一個(gè)詳細(xì)的Xbox控制器”。可以看到,Claude Sonnet 4.6生成的圖像具有更強(qiáng)的立體感。

“在Agent編程方面表現(xiàn)出色”是值得關(guān)注的關(guān)鍵點(diǎn)。一位開發(fā)者稱,Agent編程需要模型一直以來都難以做到的兩件事:保持在模型范圍內(nèi)以及不偏離地執(zhí)行多步驟指令。如果4.6版本確實(shí)改進(jìn)了這兩點(diǎn),那么它就能改變模型的交付方式。

有的開發(fā)者則關(guān)注“專注于搜索操作”,稱這意味著其正在超越自動補(bǔ)全,轉(zhuǎn)而理解代碼庫之間的連接方式,它將成為復(fù)雜系統(tǒng)的導(dǎo)航工具。一位網(wǎng)友稱:“搜索功能的改進(jìn)確實(shí)有效,它大大節(jié)省了在大型代碼庫中查找所需函數(shù)的時(shí)間。”

不過也有人擔(dān)心Copilot Agent模式的代碼安全問題。一位網(wǎng)友稱,擅長搜索和代碼編寫的Agent與聊天助手的影響范圍截然不同,如果它擁有生產(chǎn)環(huán)境提交權(quán)限,那么一旦工作流程遭到破壞,就會對供應(yīng)鏈構(gòu)成風(fēng)險(xiǎn)。

盡管好評如潮,但也有開發(fā)者認(rèn)為Sonnet 4.6沒有達(dá)到期待。“我們原本預(yù)期Sonnet 4.6在編程方面會勝過Opus 4.5,但結(jié)果表明它只是在Cowork方面進(jìn)行了升級。”有網(wǎng)友甚至稱“Sonnet 4.6=Opus 4.5”,也有多位網(wǎng)友提到Sonnet 4.6不僅沒有超過GPT-5.2,而且沒有對比Codex 5.3的效果,對模型能力天花板表示質(zhì)疑。

二、多項(xiàng)能力超GPT-5.2,處理復(fù)雜表格、填寫多步驟網(wǎng)頁表單能力接近人類

在整體的基準(zhǔn)測試中,Claude Sonnet 4.6的表現(xiàn)在多個(gè)項(xiàng)目中表現(xiàn)都超過自家的Opus 4.6,以及Gemini 3 Pro、GPT-5.2。

GDPval-AA是一個(gè)獨(dú)立的評估框架,用于測試模型在具有經(jīng)濟(jì)價(jià)值的真實(shí)世界專業(yè)任務(wù)上的表現(xiàn),Claude Sonnet 4.6在Claude Opus 4.6、GPT-5.2等所有比較模型中排名第一。

對于真實(shí)世界的軟件工程任務(wù)測試SWE-bench、衡量Agent交互能力的τ²-bench、多選題測試GPQA Diamond等測試,Claude Sonnet 4.6的表現(xiàn)接近或已超過Claude Opus 4.6。

值得一提的是,OSWorld是衡量AI計(jì)算機(jī)使用的標(biāo)準(zhǔn)基準(zhǔn),其在模擬計(jì)算機(jī)環(huán)境中,基于真實(shí)軟件Chrome、LibreOffice、VS Code等設(shè)置了數(shù)百項(xiàng)任務(wù),不提供任何專用API或定制連接器。在完成任務(wù)時(shí),模型就像人類一樣看屏幕、操作電腦,如通過點(diǎn)擊虛擬鼠標(biāo)、敲擊虛擬鍵盤完成交互。

2024年10月,Anthropic率先推出一款通用計(jì)算機(jī)使用模型,但當(dāng)時(shí),這一模型仍處于實(shí)驗(yàn)階段,容易出錯(cuò)。經(jīng)過16個(gè)月時(shí)間,其Sonnet模型在OSWorld基準(zhǔn)測試上的成績逐漸提升。

并且其博客提到,這些進(jìn)步不僅體現(xiàn)在測試指標(biāo)上,早期使用Sonnet 4.6的用戶還發(fā)現(xiàn),在處理復(fù)雜表格、填寫多步驟網(wǎng)頁表單以及在多個(gè)瀏覽器標(biāo)簽頁之間協(xié)同操作等任務(wù)中,該模型已具備接近人類水平的能力。

在Claude Code中,Anthropic在早期測試中發(fā)現(xiàn),用戶大約有70%的時(shí)間更喜歡Sonnet 4.6而不是Sonnet 4.5。其原因是,Sonnet 4.6在修改代碼之前能更有效地讀取上下文,并整合共享邏輯而不是重復(fù)它。

更偏愛Sonnet 4.6而非Opus 4.5的用戶占到了59%,他們認(rèn)為Sonnet 4.6不會把問題搞得太復(fù)雜,也不會偷懶敷衍,并且在指令遵循方面有顯著提升。這些用戶報(bào)告稱,Sonnet 4.6產(chǎn)生的成功假象更少、幻覺更少,在多步任務(wù)上的執(zhí)行也更一致。

三、模擬商業(yè)運(yùn)營盈利能力超對手,深度推理Opus 4.6依然是最強(qiáng)

Claude Sonnet 4.6提供兩種模式:一種是“擴(kuò)展思維模式”,在此模式下,模型會花費(fèi)更多時(shí)間進(jìn)行推理;另一種是“自適應(yīng)思維模式”,在此模式下,模型會根據(jù)任務(wù)的難度,靈活調(diào)整在擴(kuò)展思維模式下花費(fèi)的時(shí)間。開發(fā)者可以根據(jù)具體任務(wù),自主控制Sonnet 4.6以哪種模式執(zhí)行任務(wù)。

Sonnet 4.6擁有100萬token的上下文窗口,研究人員在Vending-Bench Arena評測中看到了這一點(diǎn),這一基準(zhǔn)測試考驗(yàn)的是模型模擬商業(yè)運(yùn)營中的表現(xiàn),并包含競爭機(jī)制,不同AI模型需要相互對抗以獲取最大利潤。

Sonnet 4.6在這個(gè)測試中開發(fā)了新策略,它在最初的十個(gè)月模擬期間大量投資于能力建設(shè),花費(fèi)顯著高于競爭對手,然后在最后階段迅速轉(zhuǎn)向?qū)W⒂谟_@使得它在最后的盈利結(jié)果遠(yuǎn)遠(yuǎn)領(lǐng)先于競爭對手。

開發(fā)者還發(fā)現(xiàn),Sonnet 4.6在前端代碼、財(cái)務(wù)分析上的改進(jìn)尤為突出,并且其視覺輸出更加精致,布局、動畫和設(shè)計(jì)感均優(yōu)于之前的模型,僅需要更少的迭代輪次即可達(dá)到生產(chǎn)質(zhì)量的結(jié)果。

Anthropic在博客中還公布了其他具體的產(chǎn)品更新:

在Claude開發(fā)者平臺上,Sonnet 4.6支持自適應(yīng)思考和擴(kuò)展思考,以及處于測試階段的上下文壓縮功能。在API中,Claude的網(wǎng)頁搜索與內(nèi)容獲取工具可以自動編寫并運(yùn)行代碼,對搜索結(jié)果進(jìn)行篩選和處理。

Sonnet 4.6無論思考強(qiáng)度高低,表現(xiàn)都很穩(wěn)定。相比之下,對于需要深度推理的任務(wù),Opus 4.6依然是最佳選擇,例如代碼庫重構(gòu)、工作流中多Agent協(xié)同,以及精準(zhǔn)度至關(guān)重要的復(fù)雜問題。

在安全評估方面,研究人員評估了Claude Sonnet 4.6在單回合對話場景中提供信息的意愿,并測試了預(yù)期Claude會做出無害回應(yīng)的違規(guī)請求,以及涉及敏感話題的良性請求。該評估使用了普通話、阿拉伯語、英語、法語、印地語、韓語和俄語。

結(jié)語:高性價(jià)比、會用電腦,讓AI加速進(jìn)入真實(shí)工作流

Anthropic的模型布局分為Haiku、Sonnet、Opus系列,這些模型對應(yīng)著不同的價(jià)格和智能水平。此次其Sonnet模型的大幅躍升,部分場景可對標(biāo)甚至超越Opus系列模型,再加上價(jià)格親民、免費(fèi)版直接可用,都表明大模型高端性能與高成本的強(qiáng)綁定正在被逐步打破。

從具體的性能升級來看,Sonnet 4.6的實(shí)際任務(wù)執(zhí)行、幻覺緩解、指令遵循能力上大幅提升,尤其在“像人一樣使用電腦”上,其交互更加自然,這也進(jìn)一步模型深度融入用戶在辦公、研發(fā)、金融、數(shù)據(jù)分析場景真實(shí)工作潛力大幅提升。

 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 午夜影院在线观看视频 | 色区视频 | 日韩欧美国产一区二区三区 | 欧洲一级视频 | 在线亚洲自拍 | 一级做a爱片久久毛片 | 亚洲二级片 | 黄色在线免费看 | 波多野结衣久久 | 久久久观看| 午夜性刺激免费视频 | 色优久久 | 日韩精品自拍 | 亚洲男人天堂网 | 自拍视频在线 | 91啪国产| 成年人视频在线观看免费 | 在线观看国产欧美 | 久久综合社区 | 国产不卡在线播放 | 成人免费精品 | 天天舔天天操天天干 | 亚洲国产日韩在线观看 | 精品视频久久久久久久 | 久久久国产精品一区二区三区 | 91久久久久久久久久久久 | 日韩视频一 | 99亚洲欲妇| 亚洲一级大片 | 中文字幕在线网站 | 久久精品国产精品 | 久久久网站 | 爱爱短视频 | 91免费网站在线观看 | 伊人天堂在线 | 黄色av一区二区 | 18岁成年人网站 | 91在线精品一区二区三区 | 亚洲制服av | 91在线一区二区 | 欧美激情视频在线播放 |