面壁智能近日正式開源了其新一代全模態(tài)旗艦?zāi)P汀狹iniCPM-o 4.5,這一模型憑借“邊看、邊聽、主動(dòng)說”的全模態(tài)交互能力,在人工智能領(lǐng)域引發(fā)廣泛關(guān)注。作為原生全雙工架構(gòu)的大模型,MiniCPM-o 4.5突破了傳統(tǒng)“對講機(jī)”式回合制交互的局限,實(shí)現(xiàn)了感知不中斷、對話更自然、提醒無需主動(dòng)詢問的“即時(shí)自由對話”體驗(yàn)。
基于統(tǒng)一系統(tǒng)軟件棧FlagOS的跨平臺(tái)能力,MiniCPM-o 4.5在適配性上表現(xiàn)突出。目前,該模型已在天數(shù)智芯、華為昇騰、平頭哥、海光、沐曦等6款國產(chǎn)芯片上完成端到端推理優(yōu)化,顯著提升了性能表現(xiàn)。與此同時(shí),模型延續(xù)了面壁智能“小鋼炮”系列的高密度特點(diǎn),僅以9B參數(shù)規(guī)模便在全模態(tài)、視覺理解、文檔解析、語音交互及聲音克隆等多個(gè)領(lǐng)域達(dá)到行業(yè)領(lǐng)先水平。
在語音交互方面,MiniCPM-o 4.5通過創(chuàng)新的模型設(shè)計(jì)與數(shù)據(jù)訓(xùn)練方法,實(shí)現(xiàn)了音色自然度、擬人化程度和情感表現(xiàn)力的全面升級(jí)。模型能夠根據(jù)對話場景自動(dòng)匹配語氣與音色,有效解決了長語音合成中音色不統(tǒng)一、語氣生硬、效果波動(dòng)等問題。在聲音克隆功能上,用戶僅需提供數(shù)秒的原始音頻樣本,即可生成定制化音色,并支持基于克隆音色進(jìn)行角色化語音對話。
效率與成本優(yōu)化是該模型的另一大亮點(diǎn)。通過優(yōu)化顯存占用和加速推理速度,MiniCPM-o 4.5在保持SOTA級(jí)全模態(tài)性能的同時(shí),大幅降低了推理開銷。其端到端架構(gòu)整合了全雙工多模態(tài)實(shí)時(shí)流機(jī)制、主動(dòng)交互引擎和可配置語音建模模塊,為復(fù)雜場景下的智能交互提供了技術(shù)支撐。
目前,MiniCPM-o 4.5的代碼與模型權(quán)重已在GitHub、Hugging Face等開源平臺(tái)公開,開發(fā)者可自由獲取并參與社區(qū)共建。這一舉措不僅推動(dòng)了全模態(tài)技術(shù)的普及,也為多模態(tài)AI應(yīng)用的落地提供了新的解決方案。











