京東近日在Hugging Face平臺正式推出其最新研發的大語言模型——JoyAI-LLM-Flash,標志著這家電商巨頭在人工智能領域邁出關鍵一步。該模型采用混合專家架構(MoE),總參數規模達48億,其中僅3億參數處于激活狀態,通過優化設計實現高效計算。在預訓練階段,模型處理了超過20萬億文本Token,展現出對前沿知識的深度理解能力、邏輯推理水平以及編程相關技能。
技術團隊創新性地引入纖維叢理論構建強化學習框架,開發出名為FiberPO的優化系統。該框架結合Muon優化器與稠密多Token預測技術,有效解決了傳統大模型在規模擴展時面臨的訓練不穩定問題。實驗數據顯示,采用新架構的模型吞吐量較非MTP版本提升1.3至1.7倍,顯著提高了訓練效率與工程應用潛力。
模型架構設計突破多項技術指標:40層深度網絡結構支持128K超長上下文窗口,詞表容量擴展至129K,能夠處理更復雜的語言任務。這種架構設計既保證了模型對長文本的連貫理解能力,又通過專家模塊的動態激活機制控制計算開銷。京東方面表示,該模型的開源將為學術界和產業界提供新的技術基準,推動大模型在電商、物流等垂直場景的落地應用。















