滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

AI輔助測試：從“新手實習生”到“專業程序員”還有多遠？

時間：2026-02-04 03:51:15 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

在軟件開發領域，單元測試維護一直是保障代碼質量的關鍵環節，但這項工作往往繁瑣且復雜。近期，一項由西伯利亞神經網絡公司牽頭，聯合T-Technologies和新西伯利亞國立大學共同完成的研究，為人工智能在這一領域的應用潛力提供了全新視角。研究團隊開發的TAM-eval評估體系，首次系統性地衡量了大型語言模型處理單元測試維護任務的真實能力，相關成果已發表于計算機科學領域權威期刊。

該研究以程序員日常工作中“數字大廈安全檢查”的類比展開：單元測試如同大廈的安全系統，需持續檢查每個功能模塊是否正常運轉。隨著軟件規模擴大，測試代碼的維護成本急劇上升——不僅要修復損壞的測試，還要為修改后的代碼更新測試方案，甚至為新增功能從頭編寫測試。研究團隊指出，盡管人工智能在生成新測試代碼方面已展現潛力，但在處理這些動態維護任務時仍顯稚嫩，類似“能按模板完成檢查流程，卻難以應對突發故障”的職場新人。

為精準評估人工智能的測試維護能力，研究團隊構建了覆蓋真實場景的“綜合技能考核”。考核分為三大環節：第一環節要求人工智能從零開始創建測試代碼，包括完全獨立設計、補充遺漏測試和恢復丟失測試三種任務；第二環節聚焦修復損壞測試，涵蓋語法錯誤、執行錯誤、覆蓋率不足和效率低下四類典型故障；第三環節則模擬代碼更新后的測試適配，需人工智能判斷哪些原有測試需保留、修改或重寫。這些任務均基于Python、Java和Go語言項目中提取的1539個真實測試樣本，確保評估貼近實際開發需求。

實驗結果顯示，人工智能在不同任務中的表現差異顯著。在創建測試環節，從零開始設計的任務成功率最高，因無需考慮與現有代碼的兼容性；而補充和恢復測試時，模型需分析已有代碼結構，準確率明顯下降。修復測試環節中，人工智能僅能較好處理語法錯誤（占故障4.07%），但對占比47.37%的執行錯誤（如缺少庫導入）和30.74%的效率問題（如遺漏關鍵驗證步驟）則力不從心。更新測試環節被證明最具挑戰性，即使最先進的模型也難以準確理解代碼變更邏輯，導致測試策略調整失誤。

評估標準的設計是該研究的另一創新點。團隊摒棄了傳統“對比標準答案”的方法，轉而采用三個實際效果指標：通過率（測試代碼能否運行）、測試覆蓋率改善（能否檢查更多代碼路徑）和突變測試覆蓋率改善（能否發現代碼中人為引入的錯誤）。數據顯示，最先進模型的通過率僅42.3%，突變測試覆蓋率改善普遍低于12%，表明生成的測試常流于表面，缺乏深度驗證能力。

實驗還揭示了編程語言對人工智能表現的影響。Go語言因語法簡潔、類型系統嚴格，成為模型最易處理的語言；Java雖在通過率上表現較好，但測試覆蓋率和突變測試覆蓋率改善較弱，反映“能運行”不等于“高質量”。不同模型在代碼風格上差異明顯——部分模型傾向生成簡潔測試，另一些則產出冗長套件，這與其訓練策略和優化目標密切相關。

研究團隊強調，該工作的核心價值在于建立了完全自動化的評估框架。傳統方法依賴專家準備標準答案，難以適應測試維護中“同一功能多種測試方式”的特點；而新框架通過測量實際執行效果，能更客觀地判斷測試質量。為確保數據代表性，團隊開發了自動化篩選流程，從開源項目中選取近期的測試樣本，避免模型因訓練數據泄露而“作弊”。這一模塊化框架還支持擴展新語言和評估指標，為后續研究奠定基礎。

盡管當前人工智能在測試維護中仍需人工干預，但研究已指出改進方向：通過增強代碼上下文理解、優化錯誤反饋機制和整合編譯器信息，模型有望提升復雜任務的處理能力。對于開發者而言，這意味著未來可能借助AI工具減輕重復性測試工作，集中精力解決核心邏輯問題；對于企業，研究提供的模型性能對比和失敗模式分析，可輔助選擇適合自身需求的測試維護方案。

在問答環節，研究團隊進一步解釋了TAM-eval的獨特性。該框架不僅包含大量真實項目樣本，還通過“沙箱環境”隔離測試任務，模擬真實開發中的多次嘗試機制，允許模型根據錯誤反饋優化結果。這種設計更貼近程序員實際工作流程，也解釋了為何模型表現隨嘗試次數增加而提升——它們確實在“從錯誤中學習”。

更多>同類資訊

獨立研究者攻克AI繪畫難題：自適應策略讓擴散模型更智能高效

02-04

耶魯大學新成果：AI教練賦能多智能體系統，開啟協作學習新篇章

02-04

傅里葉采樣新策略：解鎖擴散模型結構化文本生成新路徑

02-04

AI并非“乖乖牌”：從勒索到演戲，人類該如何應對智能挑戰？

02-04

華為哈勃等入股北京跨赴科技助力AI軟件領域再添新力量

松果財經訊，天眼查App顯示，近日，北京跨赴科技有限公司發生工商變更，新增華為旗下深圳哈勃科技投資合伙企業（有限合伙）、北京跨赴如是科技發展合伙企業（有限合伙）等為股東，同時，注冊資本由約27.6萬人民幣增至…

02-04

豆包APP新增方言功能 “溫柔桃子”聲線暢聊多地方言

02-04

宸境科技新品發布：打破常規，為機器人感知注入“工業級”新活力

宸境科技跳出了單一功能的展示，向行業呈上了一套經過工業級驗證的標準化感知方案，重磅發布“LooperRobotics”品牌體系和全棧技術矩陣：Insight自主空間智能相機、TinyNav神經導航算法庫以及…

02-04

冰雪黑科技！哈爾濱冰雪大世界智能冰雕機器人開啟毫米級精準搭建測試

2月3日，一款智能大型冰雕自動化搭建機器人在第二十七屆哈爾濱冰雪大世界的科技賦能冰雪實驗區進入測試階段。 2月3日，在第二十七屆哈爾濱冰雪大世界園區，智能大型冰雕自動化搭建機器人進行冰塊的提升、搬運與砌筑。…

02-04

從“動起來”到“用起來”：我國人形機器人高速發展邁向新征程

據央視新聞，2月2日，浙江大學杭州國際科創中心人形機器人創新研究院正式向全球發布首款峰值速度達到10米/秒的全尺寸人形機器人“Bolt”。據央視新聞，1月21日，國務院新聞辦公室舉行新聞發布會，介紹202…

02-04

春運新變化！成都東站“機器人”上崗，智能服務讓出行更便捷高效

2月2日，一名兒童在鐵路成都東站操作“列車查詢機器人”。在鐵路成都東站服務臺前，有個模樣方正的“列車查詢機器人”，只要旅客刷身份證或掃臉，它就能查詢到旅客當次車票的詳情。鐵路成都東站“游佳服務崗”品牌帶…

02-04

OpenAI發布macOS新應用：多智能體并行，AI助力軟件開發加速升級

"如果你真的想在復雜項目上做精細工作，5.2是目前最強大的模型，"首席執行官山姆·奧特曼在新聞電話會議上對記者說，"然而，它的使用門檻較高，因此將這種級別的模型能力放入更靈活的界面中，我們認為會產生相當大的…

02-04

浙江大學聯合發布！全球首款峰值速度10米/秒人形機器人“Bolt”亮相

2026年2月2日，浙江大學杭州國際科創中心人形機器人創新研究院聯合鏡識科技、凱爾達集團，正式向全球發布首款峰值速度達到10米/秒的全尺寸人形機器人“Bolt”，該機器人以10米/秒的奔跑時速，成為目前全球…

02-04

技鋼科技發布兩款企業級工作站主板，適配英特爾至強Xeon 600系列處理器

規格較低的 MW54-HP0 則采用 ATX 板型，內存方面是 4 通道 2DPC 共 8 根，支持 RDIMM 的同時保留對 MRDIMM的兼容。其提供 5 個 PCIe 5.0×16 插槽、3 個 …

02-04

軟銀英特爾強強聯合，下一代存儲技術助力AI算力邁向高效低耗新高度

智東西2月3日消息，據CNBC今日報道，軟銀集團宣布，其全資子公司Saimemory昨天與英特爾簽署合作協議，雙方將攜手推進下一代存儲技術Z-Angle Memory（ZAM）的商業化進程，以滿足AI和高性…

02-04

宸境科技新品發布：以創新硬件與算法，開啟機器人感知新紀元

宸境科技跳出了單一功能的展示，向行業呈上了一套經過工業級驗證的標準化感知方案，重磅發布“LooperRobotics”品牌體系和全棧技術矩陣：Insight自主空間智能相機、TinyNav神經導航算法庫以及…

02-04

點擊查看更多 +

全站最新

阿維塔與華為乾崑開啟2.0合作，阿維塔06T將首批搭載華為新一代激光雷達

東風固態電池下半年量產：續航超千公里還耐寒，但普及仍需跨過幾道坎

問界以智慧豪華雙驅動連續兩年量價齊升領跑高端新能源市場

小米YU7 Max在IVISTA測評中脫穎而出，獲四大分項“極優”成行業標桿

小米YU7 Max斬獲中國汽車健康指數最高評級環保設計守護用戶健康出行

新一代小米SU7流金粉實車亮相 22.99萬起售女性市場或迎新寵

熱門內容

本欄最新

極氪科技V4極充兆瓦樁首發即落地杭州引領新能源充電邁入單槍兆瓦新紀元

超寬溫域電池突破極限：從新能源汽車到商業航天的全場景突圍

浙江榮泰遞表港交所謀A+H上市 2025年前三季度凈利潤達2.05億

智己LS9 Hyper登場：三電機四驅加持，探照燈地暖打造豪華新體驗

華為開源生態新飛躍：鯤鵬引領超節點，昇騰CANN賦能AI新生態

Kimi海外收入反超國內新模型K2.5助力其向“Anthropic+Manus”目標邁進

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

AI輔助測試：從“新手實習生”到“專業程序員”還有多遠？