2026年2月6日,小米MiMo大模型團隊宣布推出HySparse——一種面向 Agent 時代的混合稀疏注意力架構,創新使用“極少的全注意力(Full Attention)+ 稀疏注意力(Sparse Attention)”核心設計,為 Agent 時代的超長文本處理提供了高效精準的技術解決方案,也為大模型高效注意力結構的研究與落地提供了全新參考。
隨著 Agent 模型與應用的爆發式發展,精準高效處理超長文本正在成為模型必不可少的基礎能力。Agent時代的“富貴病”問題,已經變得極為突出。Agent 不僅需要在超長上下文中完成穩定的檢索、推理與多輪規劃,還必須在推理階段保持足夠快的響應速度,目前最大的挑戰已經不只是 “能不能算”,而是 “算不算得起”。
為此,小米MiMo提出了全新的HySparse架構,以解決上述行業難題。在多項通用、數學、代碼和中文評測中,HySparse 在 7B Dense 和 80B MoE 兩種規模均帶來穩定提升。其中,在總共 49 層的 80B-A3B MoE 模型實驗中,僅保留 5 層 Full Attention 仍能保持甚至提升模型能力,帶來了接近 10×的 KV Cache 存儲降低,實現效果與效率的兼顧;RULER 長文測試表明,HySparse 即便將 Full Attention 層壓到極少,也能穩定保持長距離關鍵信息訪問,充分展現了其混合稀疏結構的優勢。
HySparse的推出,標志著大模型在“能不能算”向“算不算得起”的關鍵轉變中,正邁出重要一步。
作為小米 MiMo 在混合注意力架構上的重要技術迭代,HySparse 是對 MiMo-V2-Flash 的 Hybrid SWA 結構的又一次全新升級。HySparse 可以視為在 Hybrid SWA 的基礎上,為 SWA 增加了全局的、更重要的 token 信息補充,實現 “兼容且互補”。這一改進不僅提升了性能,還沒有增加 KV Cache 存儲,也沒有顯著增加計算開銷。
小米MiMo表示,計劃在更大規模模型上進一步驗證HySparse的極限和潛力,并持續探索降低Full Attention層數量的可能性,讓超長上下文更高效,并為學術界和工業界在混合稀疏注意力方向的研究提供一些參考和啟發。











