岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

AI預測專家修正判斷:AI進展超預期,年底研發自動化或成現實

   時間:2026-03-10 20:05:05 來源:互聯網編輯:快訊 IP:北京 發表評論無障礙通道
 

在人工智能發展領域,近期一則消息引發了廣泛關注。知名AI預測研究者Ajeya Cotra對其之前的預測進行了重大修正,原因是Anthropic推出的最新模型Claude Opus 4.6在權威評測機構METR的基準測試中表現驚人,遠超她此前的預期。

Cotra曾是全球最大AI安全資助機構之一Coefficient Giving的AI安全研究資助負責人,現就職于專注于AI能力評估的METR機構。今年1月14日,她基于2019年至2025年間時間跨度每年翻倍不到兩次的歷史趨勢,對2026年底最先進模型的軟件工程能力做出預測:50%成功率的時間跨度約為24小時,80百分位預測為40小時。然而,僅僅兩個月后,Opus 4.6就打破了這一預測,其軟件工程“時間跨度”達到約12小時。在METR的測試集中,19項預計人類需耗時超過8小時的軟件工程任務里,Opus 4.6至少能部分完成14項,還能穩定攻克其中4項。面對這一情況,Cotra承認,在距離2026年底還有整整十個月進展的情況下,AI代理在24小時任務上仍有一半時間失敗,這使得她之前的預測不再可信。

值得注意的是,當前對時間跨度的估算存在較大不確定性。Opus 4.6的95%置信區間為5.3小時至66小時,這主要是因為長任務數量稀少、人工完成時間多為估算,且基準測試本身已接近飽和。

隨著AI代理能力不斷逼近甚至超越數十小時的任務量級,傳統評估框架正面臨挑戰。Cotra認為,“時間跨度”這一概念的適用性受到質疑。她指出,任務的可分解性會隨著規模增長而顯著提升。例如,一小時的調試任務幾乎無法拆分并行,一天的開發任務勉強可分工但邊界模糊,而一個月乃至數月的項目則天然適合拆解為多個并行子任務。一旦AI代理能夠穩定完成80小時量級的任務,理論上就可以通過“管理層AI”分配任務、“執行層AI”并行推進的方式,持續推進任意規模的項目。

Cotra的同事Tom提出,以大型團隊完成任務所需的日歷時間,而非單人工時,作為衡量“內在難度”的更優指標。Cotra也認同這一觀點,她認為隨著AI進入新量級,“單人時間”指標可能開始呈現超指數增長,這使得年底前軟件工程能力的上限極難估算。不過,她也承認大規模任務分解在實踐中不會完美運作,項目參與者對全局背景的直覺性把握,難以被Jira工單或Asana任務完全替代,但對于相當大一類軟件項目而言,這種模式可能較為有效。

在眾多預測中,Cotra對“AI研發全面自動化”的概率判斷最受矚目。她將這一概率定義為AI系統完全承擔研究構想與實施工作,無需人類參與。在1月的預測中,她給出了10%的概率,發布后收到多位同行反饋,認為這一數字偏高。但Opus 4.6的表現出爐后,她表示10%再次處于合理區間。不過,Cotra也保持審慎態度。她指出,全面自動化AI研發不僅需要軟件工程能力,還需要在“研究判斷力”和“創造力”等方面取得突破,而這些恰恰是當前AI系統相對人類研究者明顯欠缺的領域。她認為,這一目標在未來三至五年內實現的可能性遠高于今年之內,但她的措辭已發生根本性轉變:“這是我第一次,找不到任何可以外推的穩固趨勢,來斷言它不會很快發生。”

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 久久久一区二区三区四区 | 92久久 | 佳佳黑色脚footjob调教 | xxx日本少妇 | 亚洲精品欧美日韩 | h片在线免费看 | 9.1成人看片| 久青草视频在线 | 四虎视屏 | 一区二区三区四区在线播放 | 超碰首页 | 日韩a毛片 | 婷婷伊人综合中文字幕 | 一级看片免费视频 | 国产最新精品 | www狠狠操| 丁香婷婷激情 | 一区二区视屏 | 欧洲色视频 | 国产婷婷精品 | 久久综合桃花网 | 中文字幕日韩一区二区 | 天天操网站| 久久久www成人免费毛片 | 日本黄色免费大片 | 天天操天天爱天天干 | 国产精品va| 亚洲色图欧美视频 | 欧洲精品在线观看 | 久久精品大片 | 国产一区二区精品在线 | 午夜在线观看视频网站 | 香蕉国产在线 | 午夜久久久久 | 国产一区二区免费 | 日韩一区二区三区四区 | 日本久久免费 | 欧美日a| 亚洲日本中文字幕在线 | 色欧美片视频在线观看 | 国产91福利 |