智譜與華為攜手宣布,正式開源新一代圖像生成模型GLM-Image。這一模型依托昇騰Atlas 800T A2設(shè)備與昇思MindSpore AI框架,實(shí)現(xiàn)了從數(shù)據(jù)處理到模型訓(xùn)練的全流程國產(chǎn)化,成為首個在國產(chǎn)芯片上完成全流程訓(xùn)練的SOTA多模態(tài)模型,為國產(chǎn)算力生態(tài)的構(gòu)建提供了重要實(shí)踐。
GLM-Image采用自回歸與擴(kuò)散解碼器相結(jié)合的混合架構(gòu),在兼顧全局指令理解的同時,能夠精準(zhǔn)刻畫局部細(xì)節(jié)。這一設(shè)計(jì)使其在處理海報、PPT、科普圖等知識密集型場景時表現(xiàn)突出,有效解決了復(fù)雜邏輯流程與文字說明的生成難題。尤其在漢字生成任務(wù)中,模型展現(xiàn)出顯著優(yōu)勢,為中文內(nèi)容創(chuàng)作提供了高效工具。
在性能評估方面,GLM-Image在CVTG-2K(復(fù)雜視覺文本生成)和LongText-Bench(長文本渲染)兩項(xiàng)國際權(quán)威榜單中均位列開源模型第一。其生成的圖像不僅風(fēng)格統(tǒng)一、主體連貫,在電商圖、漫畫等多格畫面中能保持高度一致性,更在文字準(zhǔn)確性上達(dá)到行業(yè)領(lǐng)先水平,為商業(yè)應(yīng)用提供了可靠保障。
該模型已開放API調(diào)用服務(wù),單張圖像生成成本低至0.1元,且速度優(yōu)化版本即將上線。這一舉措顯著降低了圖像生成的技術(shù)門檻,使中小企業(yè)及個人開發(fā)者能夠以低成本獲得高質(zhì)量的視覺內(nèi)容生產(chǎn)能力,推動AI技術(shù)在更廣泛領(lǐng)域的普及應(yīng)用。
實(shí)測案例顯示,GLM-Image在科普插畫領(lǐng)域表現(xiàn)尤為亮眼,能夠清晰呈現(xiàn)復(fù)雜原理示意圖中的邏輯關(guān)系與文字說明。在社交媒體封面、商業(yè)海報等場景中,模型生成的圖像兼具視覺吸引力與信息傳達(dá)效率,寫實(shí)攝影風(fēng)格的作品更達(dá)到以假亂真的效果,充分驗(yàn)證了其在多場景下的適用性。











