在全球人工智能語(yǔ)音模型領(lǐng)域,一場(chǎng)激烈的競(jìng)爭(zhēng)正持續(xù)升溫。近日,由Artificial Analysis Speech Reasoning發(fā)布的權(quán)威評(píng)測(cè)榜單傳來(lái)重磅消息:階躍星辰公司研發(fā)的原生語(yǔ)音推理模型Step-Audio-R1.1,憑借卓越表現(xiàn)力壓群雄,一舉奪得全球榜首。
該榜單以音頻處理與邏輯推理能力為核心評(píng)估維度,通過(guò)準(zhǔn)確率、響應(yīng)時(shí)間等關(guān)鍵指標(biāo)構(gòu)建評(píng)價(jià)體系。在最新一輪評(píng)測(cè)中,Step-Audio-R1.1以96.4%的準(zhǔn)確率刷新歷史紀(jì)錄,不僅超越了Grok、Gemini、GPT-Realtime等國(guó)際知名閉源模型,更在性能與速度的平衡性上展現(xiàn)出顯著優(yōu)勢(shì),成為行業(yè)矚目的焦點(diǎn)。
技術(shù)突破方面,這款模型實(shí)現(xiàn)了兩大核心能力的躍升。其深度語(yǔ)音推理引擎可端到端解析語(yǔ)音內(nèi)容,無(wú)需額外延遲即可完成"聽(tīng)-想-答"的完整鏈路,模擬人類(lèi)對(duì)話(huà)時(shí)的即時(shí)思考模式。通過(guò)優(yōu)化后的流式推理架構(gòu),用戶(hù)能體驗(yàn)到邊輸入邊輸出的實(shí)時(shí)交互,特別在復(fù)雜語(yǔ)境下的語(yǔ)義理解準(zhǔn)確率提升37%。最新版本還強(qiáng)化了多語(yǔ)言支持能力,在韓語(yǔ)歌詞解析、動(dòng)物聲紋分析等場(chǎng)景中表現(xiàn)突出。
實(shí)際應(yīng)用場(chǎng)景中,模型展現(xiàn)出驚人的適應(yīng)力。發(fā)布會(huì)現(xiàn)場(chǎng)演示環(huán)節(jié),系統(tǒng)不僅精準(zhǔn)識(shí)別出貓咪爭(zhēng)斗時(shí)的情緒層次,還能解析韓語(yǔ)流行歌曲中的隱喻表達(dá)。這些案例印證了其突破傳統(tǒng)語(yǔ)音識(shí)別框架的技術(shù)特質(zhì)——通過(guò)構(gòu)建三維聲學(xué)空間模型,實(shí)現(xiàn)對(duì)音調(diào)、節(jié)奏、背景音的立體化解析。
為推動(dòng)技術(shù)普惠,階躍星辰同步開(kāi)放多項(xiàng)資源。模型權(quán)重已完整上傳至HuggingFace開(kāi)源社區(qū),開(kāi)發(fā)者可自由下載進(jìn)行二次開(kāi)發(fā)。其官方體驗(yàn)平臺(tái)同步上線(xiàn)流式推理測(cè)試接口,用戶(hù)通過(guò)網(wǎng)頁(yè)端即可感受毫秒級(jí)響應(yīng)的對(duì)話(huà)體驗(yàn)。據(jù)技術(shù)白皮書(shū)披露,完整版的實(shí)時(shí)語(yǔ)音API將于2025年2月正式商用,屆時(shí)將支持更多終端設(shè)備的實(shí)時(shí)部署。
值得關(guān)注的是,此次開(kāi)源策略包含完整的訓(xùn)練框架與數(shù)據(jù)集說(shuō)明。研究團(tuán)隊(duì)特別強(qiáng)調(diào),模型采用的新型注意力機(jī)制可有效降低算力消耗,在消費(fèi)級(jí)顯卡上也能實(shí)現(xiàn)高效推理。這種技術(shù)開(kāi)放姿態(tài),或?qū)⒅厮苋蛘Z(yǔ)音AI領(lǐng)域的技術(shù)生態(tài)格局。
訪(fǎng)問(wèn)鏈接:https://huggingface.co/stepfun-ai/Step-Audio-R1.1











