meta旗下基礎人工智能研究團隊(FAIR)近日宣布開源新一代人工智能模型TRIBE v2,該模型通過多模態融合技術實現了對人類大腦活動的精準預測,無需依賴侵入式測量即可生成高分辨率腦活動圖譜。這一突破性成果有望革新神經科學研究范式,顯著降低實驗成本并縮短研究周期。
傳統神經科學研究依賴功能性磁共振成像(fMRI)技術,但該技術存在明顯局限:心跳、呼吸等生理噪聲會干擾信號采集,且設備昂貴導致研究門檻較高。TRIBE v2通過創新算法架構突破了這些瓶頸,其核心機制在于整合視頻、音頻和文本三種模態信息。模型首先利用Video-JEPA-2、Wav2Vec-Bert-2.0和Llama 3.2三個預訓練模型分別提取特征,再通過Transformer架構進行跨模態融合,最終輸出包含7萬個三維像素的腦活動預測圖。
實驗數據顯示,該模型的預測精度超越傳統線性模型,在視覺、聽覺和語言刺激場景下均表現出色。當處理多模態輸入時,大腦顳頂枕交界區域的預測準確率較單模態提升50%。在視覺實驗中,模型成功定位到負責處理面部、場景和身體信息的專用腦區;語言實驗則復現了經典神經語言學發現,包括言語與沉默、情感與疼痛等認知狀態的神經表征差異。
技術團隊特別強調了模型的泛化能力。通過微調訓練,TRIBE v2可快速適應新研究對象,無需重新構建模型。隨著訓練數據量的增加,預測準確性呈現穩定提升趨勢。這種特性使其特別適合大規模腦科學研究項目,能夠顯著減少對重復性腦掃描的依賴。
盡管取得重大進展,該模型仍存在技術局限。由于依賴血流動力學數據,其時間分辨率僅能達到秒級,無法捕捉毫秒級的神經電活動。當前版本僅涵蓋視覺、聽覺和語言三種感官模態,觸覺和嗅覺信息的整合尚未實現。研究團隊正在開發下一代模型,計劃通過引入更高時間分辨率的成像技術來突破現有瓶頸。
meta已將TRIBE v2的完整代碼和預訓練權重向學術界開放,此舉將加速腦科學研究的數字化轉型。潛在應用場景包括優化腦機接口設計、開發類腦計算架構以及輔助神經退行性疾病診斷。研究人員可通過模擬實驗驗證假設,大幅減少對昂貴腦成像設備的依賴,從而推動神經科學進入計算驅動的新時代。










