京東近日在人工智能領(lǐng)域邁出重要一步,于Hugging Face平臺(tái)正式開源了全新大模型JoyAI-LLM-Flash。該模型以30億激活參數(shù)與480億總參數(shù)的架構(gòu)設(shè)計(jì),在20萬億規(guī)模文本數(shù)據(jù)集上完成預(yù)訓(xùn)練,展現(xiàn)出在前沿知識(shí)理解、邏輯推理、代碼生成及智能體交互等領(lǐng)域的顯著優(yōu)勢。
技術(shù)架構(gòu)方面,該模型創(chuàng)新性地引入纖維叢理論框架FiberPO,將數(shù)學(xué)領(lǐng)域的拓?fù)浣Y(jié)構(gòu)與強(qiáng)化學(xué)習(xí)算法深度融合。訓(xùn)練過程中采用的Muon優(yōu)化器通過動(dòng)態(tài)調(diào)整梯度更新策略,配合稠密多Token預(yù)測(MTP)機(jī)制,有效解決了傳統(tǒng)大模型在參數(shù)規(guī)模擴(kuò)展時(shí)面臨的訓(xùn)練不穩(wěn)定問題。實(shí)驗(yàn)數(shù)據(jù)顯示,相比非MTP版本,模型吞吐量提升幅度達(dá)1.3至1.7倍。
在混合專家模型(MoE)設(shè)計(jì)上,研發(fā)團(tuán)隊(duì)構(gòu)建了包含256個(gè)專家的路由系統(tǒng),每個(gè)輸入Token可動(dòng)態(tài)激活8個(gè)專家模塊進(jìn)行并行處理。模型采用40層深度網(wǎng)絡(luò)結(jié)構(gòu),其中包含1層標(biāo)準(zhǔn)Dense層與39層混合專家層,注意力機(jī)制采用MLA架構(gòu),隱藏維度分別設(shè)置為2048(標(biāo)準(zhǔn)注意力)與768(專家網(wǎng)絡(luò)),配合32頭多頭注意力設(shè)計(jì),在保證計(jì)算效率的同時(shí)提升了特征提取能力。
基礎(chǔ)參數(shù)配置顯示,該模型支持128K tokens的上下文窗口,詞表規(guī)模達(dá)12.9萬,采用SwiGLU激活函數(shù)增強(qiáng)非線性表達(dá)能力。共享專家機(jī)制與動(dòng)態(tài)路由算法的結(jié)合,使得模型在保持30億激活參數(shù)規(guī)模下,實(shí)際可調(diào)用的計(jì)算資源達(dá)到480億參數(shù)量級(jí),這種設(shè)計(jì)顯著降低了推理階段的顯存占用,為邊緣設(shè)備部署提供了可能。








