滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

MiniMax發布新一代Agent大模型M2.7，首次展示模型自我進化路徑

時間：2026-03-18 18:54:51 來源：IT之家編輯：快訊 IP：北京 發表評論無障礙通道

3 月 18 日消息，今日 MiniMax 稀宇科技發布新一代 Agent 旗艦大模型 M2.7，首次展示“模型自我進化”路徑。該模型通過構建 Agent Harness 體系，據稱能讓模型深度參與自身訓練與優化流程。公司稱，在部分研發場景中，M2.7 可承擔約 30%—50% 的工作量，并在內部評測集上實現約 30% 的效果提升。

在涵蓋多種編程語言的 SWE-Pro 中，M2.7 以 56.22% 的正確率追平 GPT-5.3-Codex；在 Repo 級代碼生成基準 VIBE-Pro 上，M2.7 得分 55.6%，幾乎與 Opus 4.6 持平。

附官方詳細介紹如下：

M2.7 能夠自行構建復雜 Agent Harness，并基于 Agent Teams、復雜 Skills、Tool Search tool 等能力，完成高度復雜的生產力任務。例如，在研發 M2.7 的過程中，我們基于模型構建強化學習 Harness 中的數十個復雜的 skills，更新自己的 memory，驅動模型自身的強化學習，并基于結果優化強化學習過程和 Harness，開啟模型的自我進化。

M2.7 在真實的軟件工程中有優異的表現，包括端到端的完整項目交付，分析日志排查 Bug、代碼安全，機器學習等。在基準測試 SWE-Pro 中，M2.7 得分 56.22%，幾乎接近 Opus 最好的水平。這一能力同樣延伸到了端到端的完整項目交付場景（VIBE-Pro 55.6%）以及對復雜工程系統的深層理解 Terminal Bench 2（57.0%）。

在專業辦公領域，我們提升了模型在各領域的專業知識和任務交付能力，在 GDPval-AA 的 ELO 得分是 1495，為開源最高。M2.7 對 Office 三件套 Excel / PPT / Word 的復雜編輯能力顯著提升，能更好地完成多輪修改和高保真的編輯。M2.7 具備與復雜環境交互的能力，M2.7 在 40 個復雜 skills (> 2000 Token) 的 case 上，仍能保持 97% 的 skills 遵循率。在 OpenClaw 的使用中，M2.7 相比于 M2.5 也有了顯著的提升，在 MM-Claw 的評測中接近 Sonnet 4.6。

M2.7 具備優秀的身份保持能力和情商，除了生產力使用外，給互動娛樂場景的創新也準備了空間。

基于上述能力，M2.7 也在顯著加速我們自身向一個 AI Native 組織的進化。

01、構建模型自我進化智能體

在最開始，我們分享一個我們內部讓 M2 系列模型自我進化的實踐，這也是對模型 Agent 能力邊界的探索。

Agent Harness 通常依賴復雜的 Skills、記憶系統和其他組件來提升模型對不同工作環境的適應能力。在此基礎上，我們在 M2 的早期版本中，將其引導為一個研究型 Agent 框架 —— 它能夠與不同的研究項目組進行交互和協作。該系統覆蓋了數據流水線、訓練環境、評測基礎設施、跨團隊協作、持久化記憶 —— 讓研究員可以驅動它來交付更好的模型。研究 Agent 驅動著產出下一代模型的迭代循環。研究員在每一層引導方向，模型在每一層負責構建。

以一個 RL 場景為例：研究員從一個實驗想法出發，與 Agent 展開討論。Agent 協助進行文獻調研，持續跟蹤預設的實驗規格，完成數據流水線及其他對接工作，并啟動實驗。實驗運行期間，它會自動監控和分析實驗狀態，并自動觸發日志讀取、問題排查、指標分析、代碼修復、合并請求以及冒煙測試，識別并配置那些細微但關鍵的變更。這些工作過去可能需要來自不同團隊的多位同事協作完成，而現在研究員只需在關鍵決策和討論時介入。這大幅加速了問題發現和實驗迭代，從而更快地交付模型。在這個場景下，M2.7 能夠勝任 30-50% 的工作流。

我們在迭代過程中也意識到，模型自主迭代 harness 的能力也至關重要。我們內部的 harness 會自主收集反饋，建立內部任務的評測集，并基于此不斷迭代自己的 Agent 架構、Skills / MCP 實現和記憶機制，來更好和更高效的完成任務。

舉個例子，我們讓 M2.7 優化一個內部腳手架上模型的軟件工程開發表現。M2.7 全程自主運行，執行“分析失敗軌跡 → 規劃改動 → 修改腳手架代碼 → 運行評測 → 對比結果 → 決定保留或回退”的迭代循環超過 100 輪。

這個過程中 M2.7 發現了針對模型的有效優化：系統性搜索溫度、頻率懲罰、存在懲罰等采樣參數的最優組合；為模型設計更具體的工作流指引（如修復后自動搜索其他文件中的相同 bug 模式）；在腳手架的 Agent Loop 中添加循環檢測等優化。最終在內部評測集上效果提升 30%。

我們相信，未來的 AI 自我進化會逐步向完全自動化過渡，包括完全自主的協調數據構建、模型訓練、推理架構、評測等等。我們用 M2.7 參與了 MLE Bench Lite 的 22 個機器學習任務測試，幾乎囊括了研發的所有環節。

我們設計和實現了一個簡易的腳手架來引導 Agent 進行自主優化，核心的模塊包括短時記憶、自反饋以及自優化三個模塊。具體來講，Agent 完成每輪迭代后會形成一個短時記憶文件，同時對當前輪次的結果進行自反饋，從而給下一輪次提供潛在的優化方向，下一輪次基于所有歷史輪次的記憶及自反饋鏈進行下一步的自優化。

我們總共測試三次，每次有 24 小時來迭代進化，從下圖中能夠看到 M2.7 隨時間不斷取得更高的性能。最好的一次取得 9 枚金牌，5 枚銀牌，1 枚銅牌。三次平均是 66.6% 的得牌率，此成績僅次于 Opus-4.6 (75.7%)、GPT-5.4 (71.2%)，和 Gemini-3.1 (66.6%) 持平。

02、真實的軟件工程

在編程等代碼生成類任務上，M2.7 更深入地打磨了真實軟件工程所需的編程能力，覆蓋日志分析與 Bug 定位、代碼重構、代碼安全、機器學習、安卓開發等方向。

以線上最常見的線上生產環境故障調試為例 —— 這類任務不僅需要生成代碼，還需要很強的綜合推理能力。面對我們實際的生產環境告警，M2.7 能關聯監控指標與部署時間線做因果推理，對軌跡采樣做統計分析并提出精準假設，主動連接數據庫執行驗證根因，定位到代碼倉庫中缺失的索引遷移文件，甚至知道用非阻塞建索引先止血，再提 MR。

從可觀測性分析、數據庫專業知識到 SRE 級別的決策判斷 —— 這不只是一個會寫代碼的模型，而是一個真正理解生產系統的模型。相比傳統的人工排障流程，基于 M2.7，我們已多次將線上生產系統故障的恢復時間縮短到三分鐘以內。

在單項編程能力上，M2.7 已具備國際一線模型水準。在涵蓋多種編程語言的 SWE-Pro 中，M2.7 以 56.22% 的正確率追平 GPT-5.3-Codex；而在更貼近真實工程場景的 SWE Multilingual（76.5）和 Multi SWE Bench（52.7）中展現出更顯著優勢。

這一能力同樣延伸到了端到端的完整項目交付場景。在 Repo 級代碼生成基準 VIBE-Pro 上，M2.7 得分 55.6%，幾乎與 Opus 4.6 持平 —— 這意味著無論是 Web、Android、iOS 還是 Simulation 類需求，都可以直接交給 M2.7 完成。

更值得關注的，是對復雜工程系統的深層理解。在對系統認知要求極高的 Terminal Bench 2（57.0%）和 NL2Repo（39.8%）中，M2.7 同樣表現穩健，進一步印證了它不只擅長代碼生成，更能深入理解軟件系統的運行邏輯與協作流程。

為了提升開發效率，一個比較重要的特性是原生的 Agent Teams （多智能體協作）。Agent Teams 對模型提出了范式級要求：角色邊界、對抗性推理、協議遵循、行為分化 —— 這些無法通過提示詞，必須內化為模型的原生能力。

Agent Teams 場景下，模型需要穩定錨定角色身份、主動挑戰隊友的邏輯與倫理盲區、在復雜狀態機中自主決策。下面是我們內部使用的一個做產品原型開發的 Agent Teams，里面包含了做產品原型的一個最小組織。

Agent Teams 協作模擬演示

03、專業辦公

除了軟件工程外，Agent 開始在辦公場景中變得越來越有用，我們認為這是兩個核心能力：

專業知識與任務交付能力。模型需要具備各領域的專業知識，理解用戶的需求。在衡量這一能力的 GDPval-AA 的評測中，M2.7 在 45 個模型中的 ELO 得分是 1500，僅次于 Opus 4.6、Sonnet 4.6 和 GPT5.4，超過了 GPT5.3。在最常見的辦公文件處理上，我們系統性地優化了模型處理 Word、Excel 和 PPT 的能力。M2.7 在各種 Agent Harness 上，既能夠基于模版和 skills 直接生成文件，也能夠遵從用戶的交互指令，對已有的文件做多輪的高保真編輯，最終給出可編輯的產物。

與復雜環境的交互能力。泛化的日常場景意味著模型需要靈活適應各類上下文、調用各種 skills 和工具、并在長程交互中保持穩定的指令遵循。M2.7 在這些方面有大幅提升。在 Toolathon 上，M2.7 的正確率 46.3%，達到了全球第一梯隊水平。真實工作場景中的 Agent Harness 往往也需要理解和調用大量復雜的 skills。在 MM-Claw 的測試中，M2.7 在 40 個復雜 skills (> 2000 Token) 的 case 上，仍能保持 97% 的 skills 遵循率。

我們測試了在 Finance 領域的專業水準，與上代模型相比，模型的能力提升顯著。例如，在 Finance 領域一個閱讀研報并建模公司未來營收的場景，M2.7 可以自主閱讀公司的年報與業績溝通會紀要，交叉比對多篇研報，獨立設計假設并構建營收預測模型，再基于模版產出 PPT 和研究報告 —— 像一個初級分析師一樣理解、判斷、輸出，并在多輪交互中自我修正。從業者的評價是：產出物已經可以作為初稿直接進入后續工作流程。

下面是一個關于臺積電的例子。

任務：基于臺積電年報和業績溝通會信息，構建臺積電的營收模型，讀取多個研報，設計對應的假設，基于最新的信息對臺積電營收建模，然后基于 PPT 模版產出 PPT ，并寫一個 Word 文檔研究報告和 Excel 圖表。

① PPT 報告演示

② Word 調研報告

最近 OpenClaw 爆火為代表的 Agent 社區蓬勃發展，我們很高興看到 M2 系列模型幫助到了社區的繁榮。我們基于 OpenClaw 中的常用任務，構建了一個評測集 MM-Claw，涵蓋個人學習規劃，到辦公文檔的處理與交付、定時的專業信息調研與投資建議、代碼開發與維護等工作與生活中形形色色的真實需求。M2.7 在這個測試中達到了接近 Sonnet 4.6 的水平，正確率是 62.7%。

04、互動娛樂

在 OpenClaw 等 Agent 腳手架的使用過程中，不少用戶在使用 Agent 完成工作的同時，還希望模型具備比較高的情商和復雜人設保持能力。在有人設的情況下，用戶不再只是讓模型機械完成任務，而是開始自然于與 Agent “相處”。這促使我們思考，產品與交互設計、內容創作、甚至娛樂體驗的構建，都可以被 AI 原生驅動的可能性。我們認為這會讓 Agentic 模型的使用從單純的生產力能進一步拓展到互動娛樂。為此，我們在 M2.7 中極大加強了人設保持和對話能力。

基于此，我們構建了一個 Agent 交互系統 OpenRoom，它將 AI 互動置入一個萬物皆可互動的 Web GUI 空間。在這里，對話即驅動，實時產生視覺反饋與場景交互，角色可以主動地與環境交互。我們認為這個框架擴展性較高，能夠隨著模型 Agentic 能力的提升和社區的共建持續進化，探索出更多人與 Agent 之間全新的交互方式。

更多>同類資訊

「推理之王」黃仁勛：你們都誤會了，1 萬億美元其實很保守

03-18

MiniMax發布新一代大模型M2.7

03-18

MiniMax港股漲超26％

03-18

汽車也有“最強大腦”！東風“太極大模型”正式通過國家備案

03-18

機器人租賃平臺“擎天租”獲億元級融資，跨界構建泛娛樂生態新版圖

03-18

化學AI領域新突破！清華AIR聯合水木分子開源“BioMedGPT-Mol”通用大模型

03-18

?Unsloth Studio 發布：首個本地可視化大模型微調平臺，顯存占用降低 70%

03-18

庫克呼吁：勿讓蘋果產品“綁架”生活，多親近自然與他人

03-18

啟境汽車攜AISTALAND亮相，GT7首發十項華為技術開啟智能出行新篇

03-18

網友用諾基亞N91與AI助力成功逆向工程0.85英寸全球最小機械硬盤并開源

03-18

三星或簽三至五年內存合約，應對漲價周期及AI芯片需求激增挑戰

03-18

科技新突破！Rubi公司“無細胞生物技術”將二氧化碳變服裝原材料

03-18

黃曉明杜華跨界入場！擎天租獲億元融資機器人租賃賽道再掀熱潮

03-18

北京開展“清朗京華·AI 向善”行動，整治AI領域五類突出網絡問題

03-18

蘋果LiTo大模型突破3D生成瓶頸：單圖重建高保真3D對象，光影一致性顯著提升

03-18

點擊查看更多 +

全站最新

魏建軍談固態電池：尚處研發驗證階段商用上車或需五年之久

小米HAD輔助駕駛全新升級！雷軍：2年發布3大版本，進步速度肉眼可見

雷軍談新一代SU7：成本壓力下或漲價，首銷期更重產銷平衡與用戶體驗

雷軍官宣：新一代SU7首發小米蛟龍底盤，駕控升級預售22.99萬起

雷軍力薦！新一代SU7全系搭載小米HAD輔助駕駛智能駕駛質感再升級

ETF風向標 | 兩大云巨頭雙雙提價！創業板人工智能ETF招商大漲6%，滬深300ETF華泰柏瑞單日“吸金”11億

熱門內容

本欄最新

理想汽車發布MindVLA-o1：從自動駕駛到物理AI，技術創新引領智能出行新未來

鴻蒙智行“五界”齊聚AWE，全棧賦能與生態協同引領智慧出行新未來

廣汽豐田鉑智3X上市周年迎OTA升級智駕接入大模型智艙新增AI智能體

理想汽車2025年業績承壓，2026年以三大支柱謀20%銷量增長新局

技術為翼，生態為基：探路如何以復用技術構建全場景出行新未來？

長安汽車2026年定下330萬輛銷量目標 2028年將實現人形機器人量產

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

MiniMax發布新一代Agent大模型M2.7，首次展示模型自我進化路徑