在開發領域,視覺信息占據著主導地位,超過80%的需求以視覺形式呈現。然而,許多國內代碼大模型長期以來只能依賴文本描述來推測頁面布局,難以直接處理視覺信息。近日,智譜推出的GLM-5V-Turbo模型打破了這一局限,為視覺編程帶來了新的突破。
GLM-5V-Turbo是一款專為視覺編程設計的多模態模型,能夠原生融合視覺與文本能力。它不再依賴文本轉譯來“猜測”世界,而是直接理解設計圖、解析復雜界面并生成對應代碼,實現了從視覺感知到代碼實現的完整開發鏈路。這一創新在海外社區引起了廣泛關注,主貼閱讀量迅速突破百萬。
該模型在推理速度和核心能力上均表現出色。在前端看重的Design2code評測中,GLM-5V-Turbo以92.6的高分超越了K2.5的91.3分,展現了其在視覺UI轉化為代碼方面的精準度。在多模態工具調用方面,它在BrowseComp-VL評測中取得了48.7的成績,領先于K2.5的42.9分,具備了“看圖找工具辦事”的實用能力。在Agent復雜任務評測中,其Pass3分數接近行業頂尖水平,顯示出強大的綜合規劃與執行力。
GLM-5V-Turbo的能力不僅限于單一圖像場景,還延伸至圖文混合理解與生成任務。例如,在處理斯坦福大學《2025年人工智能指數報告》時,該模型能夠提煉核心結論,并將其轉化為精美的多頁HTML演示文檔,同時生成結構化大綱JSON和Markdown格式的摘要。這一過程展示了模型在“閱讀—理解—抽象—表達—生成”多步流程中的卓越表現。
在更復雜的測試中,GLM-5V-Turbo被要求基于一張設計圖復刻一個完整的網頁。模型不僅實現了光標周圍清晰、其他位置模糊的視覺效果,還使網頁元素可點擊,并將特定文字改為打字機特效展示。網頁上的便利貼點擊后會展開記事本,不同窗口可展示圖片和視頻素材,初步效果令人驚艷。
GLM-5V-Turbo的技術優勢源于其獨特的模型架構和訓練方法。與大多數多模態模型“先語言后視覺”的工程化方法不同,該模型從預訓練階段就將文本和視覺信號深度融合。自研的CogViT視覺編碼器在通用物體識別、細粒度細節理解等方面顯著提升,配套的MTP結構則保證了推理效率。模型在強化學習階段同步優化超過30種任務,覆蓋STEM推理、視覺定位、視頻理解等領域,實現了能力的均衡提升。
為解決Agent領域高質量多模態交互數據稀缺的問題,智譜構建了分層數據體系,利用合成環境自動生成大規模可控數據,并通過過程獎勵模型(PRM)數據抑制幻覺生成。同時,模型工具鏈擴展至多模態搜索、區域框選標注等視覺交互類工具,將編程與任務執行的鏈路升級為“視覺-行動混合閉環”。
目前,GLM-5V-Turbo已開放API,Coding Plan用戶可申請搶先試用。開發者可通過BigModel開放平臺、AutoClaw(澳龍)和Z.ai等渠道訪問該模型。隨著API的開放和Agent生態的打通,智譜為開發者提供了“視覺感知+動作執行”的基礎設施,開啟了AI應用開發的新篇章。











