近日,人工智能領(lǐng)域傳來一則重磅消息:由智譜與華為攜手打造的開源圖像生成模型GLM-Image,在發(fā)布后不到24小時內(nèi)便登頂全球知名AI開源社區(qū)Hugging Face的榜單首位。這一突破標志著國產(chǎn)AI模型在國際競爭中首次實現(xiàn)端到端自主研發(fā)能力的領(lǐng)先,其訓(xùn)練全程完全依托國產(chǎn)芯片完成,為行業(yè)樹立了新的標桿。
據(jù)技術(shù)團隊介紹,GLM-Image的研發(fā)突破了傳統(tǒng)技術(shù)路徑的限制。該模型基于昇騰Atlas 800T A2設(shè)備與昇思MindSpore AI框架構(gòu)建,從數(shù)據(jù)預(yù)處理到模型訓(xùn)練的全流程均在國產(chǎn)硬件環(huán)境中完成。作為首個在國產(chǎn)芯片上實現(xiàn)全程訓(xùn)練的SOTA多模態(tài)模型,其成功驗證了國產(chǎn)AI生態(tài)的完整性與成熟度。
在架構(gòu)設(shè)計層面,研發(fā)團隊摒棄了開源社區(qū)常用的LDM方案,創(chuàng)新性地采用自回歸與擴散解碼器相結(jié)合的混合架構(gòu)。這種設(shè)計使模型既能精準理解全局指令,又能細致刻畫局部細節(jié),尤其在處理復(fù)雜視覺文本生成任務(wù)時表現(xiàn)出色。測試數(shù)據(jù)顯示,GLM-Image在CVTG-2K復(fù)雜視覺文本生成榜單和LongText-Bench長文本渲染榜單中均取得開源模型第一的成績。
該模型的核心優(yōu)勢體現(xiàn)在對中文場景的深度優(yōu)化。通過專項訓(xùn)練,GLM-Image能夠準確理解中文指令并生成高質(zhì)量圖像,在漢字生成任務(wù)中展現(xiàn)出顯著優(yōu)勢。其應(yīng)用場景覆蓋海報設(shè)計、PPT制作、科普圖生成等知識密集型領(lǐng)域,可有效提升內(nèi)容創(chuàng)作效率。技術(shù)團隊透露,某科普平臺使用該模型后,圖文內(nèi)容生產(chǎn)周期縮短了70%。
商業(yè)化落地方面,GLM-Image通過API調(diào)用模式將單張圖片生成成本降至0.1元。這一價格優(yōu)勢使其迅速獲得市場關(guān)注,多家設(shè)計平臺與教育機構(gòu)已啟動合作測試。行業(yè)分析師指出,低成本與高性能的結(jié)合將推動AI圖像生成技術(shù)從專業(yè)領(lǐng)域向大眾市場普及,可能引發(fā)內(nèi)容創(chuàng)作行業(yè)的變革。
技術(shù)文檔顯示,GLM-Image的訓(xùn)練數(shù)據(jù)集包含超過2億張中英文圖文對,通過動態(tài)權(quán)重調(diào)整機制實現(xiàn)了多語言場景的均衡優(yōu)化。模型參數(shù)規(guī)模達30億,在保持高效推理的同時支持實時編輯功能。目前,其開源代碼與預(yù)訓(xùn)練權(quán)重已在Hugging Face平臺開放下載,全球開發(fā)者均可參與二次開發(fā)。











