岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

哥大博士突破機(jī)器人“恐怖谷”!自監(jiān)督學(xué)習(xí)讓機(jī)器人唇部“活”起來,11種語(yǔ)言同步無壓力

   時(shí)間:2026-02-10 00:30:38 來源:快訊編輯:快訊 IP:北京 發(fā)表評(píng)論無障礙通道
 

在人機(jī)交互領(lǐng)域,如何讓機(jī)器人擁有更自然的面部表情始終是科研人員關(guān)注的焦點(diǎn)。近期,哥倫比亞大學(xué)博士胡宇航帶領(lǐng)團(tuán)隊(duì)在面部機(jī)器人研究上取得突破性進(jìn)展,其研發(fā)的Emo面部機(jī)器人通過創(chuàng)新技術(shù)實(shí)現(xiàn)了與人類語(yǔ)音同步的唇部運(yùn)動(dòng),相關(guān)成果登上《科學(xué)·機(jī)器人學(xué)》封面,引發(fā)學(xué)界與產(chǎn)業(yè)界的廣泛關(guān)注。

傳統(tǒng)機(jī)器人研發(fā)往往聚焦于運(yùn)動(dòng)能力或操作性能,但胡宇航團(tuán)隊(duì)選擇了一條差異化路徑——賦予機(jī)器人情感表達(dá)能力。這項(xiàng)研究始于哥倫比亞大學(xué)的博士課題,經(jīng)過兩年積累已在《科學(xué)》《自然》子刊發(fā)表三篇論文。團(tuán)隊(duì)發(fā)現(xiàn),嘴唇作為人類交流中動(dòng)作最頻繁的面部器官,其運(yùn)動(dòng)復(fù)雜性遠(yuǎn)超想象:不僅由多組肌肉群協(xié)同驅(qū)動(dòng),還需同步傳遞語(yǔ)言、情感與社交信號(hào),對(duì)時(shí)間精度要求極高。

針對(duì)這一挑戰(zhàn),研究團(tuán)隊(duì)摒棄了傳統(tǒng)基于固定音素-視位映射的規(guī)則方法。該方法需為每個(gè)音素設(shè)計(jì)特定嘴型,但存在三大缺陷:無法適應(yīng)不同語(yǔ)速與情緒狀態(tài)下的發(fā)音差異;多語(yǔ)言場(chǎng)景需重新設(shè)計(jì)規(guī)則,工作量巨大;硬件升級(jí)后需徹底重構(gòu)動(dòng)作系統(tǒng)。更關(guān)鍵的是,人類發(fā)音中音素與嘴型并非簡(jiǎn)單對(duì)應(yīng),而是受語(yǔ)境、語(yǔ)速、情緒等多重因素影響,呈現(xiàn)高度連續(xù)的動(dòng)態(tài)特征。

團(tuán)隊(duì)提出的解決方案是構(gòu)建數(shù)據(jù)驅(qū)動(dòng)的自監(jiān)督學(xué)習(xí)系統(tǒng)。該系統(tǒng)分為兩個(gè)階段:首先通過"照鏡子"訓(xùn)練建立機(jī)器人自我模型——隨機(jī)生成數(shù)千種面部表情并觀察反饋,使系統(tǒng)掌握自身硬件的運(yùn)動(dòng)邊界;隨后引入人類視頻數(shù)據(jù),學(xué)習(xí)嘴唇運(yùn)動(dòng)的統(tǒng)計(jì)規(guī)律與高層時(shí)序結(jié)構(gòu),并通過自我模型將其轉(zhuǎn)化為機(jī)器人可執(zhí)行的動(dòng)作。這種設(shè)計(jì)有效避免了跨形態(tài)直接模仿導(dǎo)致的域錯(cuò)配問題,為自然唇部運(yùn)動(dòng)奠定了基礎(chǔ)。

在評(píng)估方法上,研究團(tuán)隊(duì)創(chuàng)新性地采用合成參考視頻作為基準(zhǔn),通過變分自編碼器潛空間計(jì)算機(jī)器人唇部運(yùn)動(dòng)與參考視頻的偏差。該方法突破了傳統(tǒng)二維關(guān)鍵點(diǎn)檢測(cè)易受噪聲干擾的局限,能夠精準(zhǔn)刻畫嘴型動(dòng)態(tài)與時(shí)序結(jié)構(gòu)的差異,為連續(xù)語(yǔ)音與多語(yǔ)言場(chǎng)景下的音頻-視覺同步誤差評(píng)估提供了客觀標(biāo)準(zhǔn)。

實(shí)驗(yàn)數(shù)據(jù)顯示,該系統(tǒng)在11種語(yǔ)言中均能實(shí)現(xiàn)自然唇部同步,包括英語(yǔ)、法語(yǔ)、日語(yǔ)、中文等。這種跨語(yǔ)言能力源于模型對(duì)底層肌肉運(yùn)動(dòng)模式的學(xué)習(xí)——它捕捉的是聲音節(jié)奏與嘴唇動(dòng)作間的共性規(guī)律,而非特定語(yǔ)言的發(fā)音規(guī)則。例如,不同語(yǔ)言中硬輔音(如/b/、/p/)的發(fā)音雖差異顯著,但都遵循相似的"閉合-保持-釋放"運(yùn)動(dòng)軌跡,系統(tǒng)通過學(xué)習(xí)這種本質(zhì)關(guān)系實(shí)現(xiàn)了泛化。

盡管取得突破,研究仍面臨挑戰(zhàn)。硬輔音處理是當(dāng)前技術(shù)瓶頸,這類發(fā)音涉及多重物理約束:嘴唇需在毫秒級(jí)時(shí)間內(nèi)完成精確閉合與釋放,同時(shí)協(xié)調(diào)多個(gè)自由度運(yùn)動(dòng),并應(yīng)對(duì)軟體接觸、非線性阻尼等復(fù)雜因素。系統(tǒng)在極端場(chǎng)景(如極快語(yǔ)速、多人對(duì)話、歌唱顫音)下的表現(xiàn)仍有提升空間。胡宇航指出,這些局限恰恰為未來研究指明了方向——通過引入更豐富的訓(xùn)練數(shù)據(jù)與優(yōu)化模型架構(gòu),有望逐步擴(kuò)展系統(tǒng)的適用邊界。

當(dāng)被問及技術(shù)擴(kuò)展性時(shí),胡宇航確認(rèn)團(tuán)隊(duì)正將研究從唇部動(dòng)作延伸至整個(gè)面部表情系統(tǒng)。下一步計(jì)劃是協(xié)調(diào)唇部、眼神、眉毛等面部要素,構(gòu)建統(tǒng)一細(xì)膩的情感表達(dá)框架。這項(xiàng)探索不僅關(guān)乎技術(shù)突破,更觸及人機(jī)交互的本質(zhì):當(dāng)機(jī)器人能用整張臉傳遞情緒時(shí),人類與機(jī)器的關(guān)系將迎來更深層次的變革。

 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  爭(zhēng)議稿件處理  |  English Version
 
主站蜘蛛池模板: 日韩视频二区 | 日韩第一页在线 | 久久久999| 中文字幕亚洲精品 | 国产亚洲精品久久久久久豆腐 | 资源在线 | 一区二区三区四区在线观看视频 | 久久影院午夜 | 日韩专区在线观看 | 成人免费视频入口 | 免费av播放 | 色婷婷亚洲综合 | 操女人逼视频 | 欧美中文字幕第一页 | 五月视频 | 久久逼逼 | 性欧美一区二区 | japanese在线播放 | 国产视频一区二区在线播放 | 综合久久网 | 九色视频在线播放 | 一级片特黄 | 日本中文字幕一区二区 | 国产精品一级二级 | 都市激情男人天堂 | 日韩精品网站 | 国产一区一区三区 | 蜜桃av噜噜一区二区三区麻豆 | 精品久久久精品 | 在线视频一区二区三区 | 美国黄色小视频 | 福利在线免费观看 | 中文字幕第50页 | 蜜臀99久久精品久久久久小说 | 亚洲欧美日韩色 | 成年男女免费视频网站 | 波多野结衣一级 | 天堂岛av| 日韩成人区 | 欧美黄在线观看 | 久久香蕉精品 |