在人工智能領域,隨著Agent模型與應用的迅速崛起,如何高效精準地處理超長文本已成為行業面臨的關鍵挑戰。Agent不僅需要在海量上下文中實現穩定的檢索、推理和多輪規劃,還必須保證推理階段的響應速度,這使得“計算成本”問題愈發突出。當前,行業關注的焦點已從“能否實現計算”轉向“能否以可承受的成本完成計算”。
針對這一難題,小米MiMo大模型團隊近日推出了一項名為HySparse的創新技術架構。該架構采用“極少量全注意力(Full Attention)與稀疏注意力(Sparse Attention)相結合”的設計理念,為超長文本處理提供了兼具效果與效率的解決方案。這一突破不僅為Agent時代的大模型研究提供了新的技術路徑,也為實際場景中的落地應用奠定了基礎。
HySparse的核心優勢在于其獨特的混合稀疏結構。在80B-A3B MoE模型的實驗中,研究團隊僅保留了5層全注意力層,卻實現了模型能力的穩定提升甚至超越。實驗數據顯示,這種設計帶來了近10倍的KV Cache存儲優化,顯著降低了計算資源消耗。同時,在RULER長文測試中,即使全注意力層數量大幅減少,HySparse仍能保持對長距離關鍵信息的高效訪問,展現了其結構的魯棒性。
作為小米MiMo在混合注意力架構領域的又一次重要迭代,HySparse是對此前MiMo-V2-Flash中Hybrid SWA結構的全面升級。新架構通過引入全局重要token信息的補充機制,實現了與原有結構的兼容與互補。這一改進在提升性能的同時,未增加KV Cache存儲需求,也未顯著提高計算開銷,體現了技術優化的精準性。
在通用能力、數學推理、代碼生成和中文理解等多項評測中,HySparse在7B Dense和80B MoE兩種規模下均表現出穩定提升。這一成果驗證了其架構設計的普適性和有效性,為不同規模模型的優化提供了可復制的技術范式。
目前,小米MiMo團隊正計劃在更大規模的模型中進一步探索HySparse的潛力,重點研究如何進一步減少全注意力層數量,以實現更高效的超長上下文處理。這一研究方向不僅關乎技術極限的突破,也為學術界和工業界在混合稀疏注意力領域的研究提供了新的參考方向。









