在Agent模型與應(yīng)用迅猛發(fā)展的當(dāng)下,如何精準(zhǔn)且高效地處理超長文本,已成為大模型領(lǐng)域亟待攻克的關(guān)鍵難題。Agent不僅要能在超長上下文中完成穩(wěn)定的檢索、推理以及多輪規(guī)劃任務(wù),還需在推理階段保持足夠快的響應(yīng)速度。此時,最大的挑戰(zhàn)已從“能否計算”轉(zhuǎn)變?yōu)椤澳芊袼愕闷稹薄?/p>
面對這一挑戰(zhàn),小米MiMo大模型團(tuán)隊推出了HySparse架構(gòu),這是一種專為Agent時代打造的混合稀疏注意力架構(gòu)。該架構(gòu)采用“極少的全注意力(Full Attention)+ 稀疏注意力(Sparse Attention)”的核心設(shè)計理念,旨在實現(xiàn)效果與效率的完美平衡。
在多項通用、數(shù)學(xué)、代碼以及中文評測中,HySparse架構(gòu)展現(xiàn)出了卓越的性能。無論是7B Dense規(guī)模還是80B MoE規(guī)模,HySparse均能為模型帶來顯著提升。以80B - A3B MoE模型實驗為例,在總共49層的模型中,HySparse僅保留5層Full Attention,卻依然能夠保持甚至提升模型的整體能力。同時,KV Cache存儲降低至原來的1/11,真正做到了在保證效果的同時大幅提升效率。
RULER長文測試的結(jié)果進(jìn)一步證明了HySparse架構(gòu)的優(yōu)勢。即便將Full Attention層壓縮到極少數(shù),該架構(gòu)也能穩(wěn)定地保持對長距離關(guān)鍵信息的訪問能力,充分彰顯了其混合稀疏結(jié)構(gòu)的獨特魅力。
HySparse架構(gòu)的創(chuàng)新之處在于其采用了hybrid block結(jié)構(gòu)。每個hybrid block由1層Full Attention和N層Sparse Attention組成。在hybrid block內(nèi)部,Sparse Attention層不再獨立進(jìn)行token選擇和維護(hù)全量KV,而是直接復(fù)用前置Full Attention層生成的重要token索引和KV Cache。這一設(shè)計背后的邏輯在于,F(xiàn)ull Attention在完成自身計算的同時,已經(jīng)生成了KV Cache,并且計算出了最準(zhǔn)確的token重要性信息,后續(xù)的N個Sparse Attention層自然可以直接復(fù)用這些信息。
可以認(rèn)為,HySparse架構(gòu)是在MiMo - V2 - Flash的Hybrid SWA結(jié)構(gòu)基礎(chǔ)上進(jìn)行的優(yōu)化升級。它為SWA增加了全局的、更重要的token信息補充,這一改進(jìn)不僅提升了模型性能,而且沒有增加KV Cache存儲,也沒有顯著增加計算開銷。
目前,小米MiMo團(tuán)隊已計劃在更大規(guī)模的模型上進(jìn)一步驗證HySparse架構(gòu)的極限和潛力。同時,團(tuán)隊還將持續(xù)探索降低Full Attention層數(shù)量的可能性,力求讓超長上下文的處理變得更加高效。HySparse架構(gòu)為Agent時代的超長文本處理提供了高效精準(zhǔn)的技術(shù)解決方案,也為大模型高效注意力結(jié)構(gòu)的研究與落地提供了全新的參考范例。












