meta旗下基礎人工智能研究團隊(FAIR)近日宣布開源新一代人工智能模型TRIBE v2,該模型通過多模態融合技術,實現了對人類大腦視覺、聽覺及語言反應的高精度預測。這一突破性成果有望顯著降低神經科學研究的成本與周期,為腦科學領域提供全新研究范式。
與傳統神經科學研究依賴功能性磁共振成像(fMRI)不同,TRIBE v2無需實際測量腦部活動,即可通過分析視頻、音頻和文本數據生成預測結果。該模型采用"多模態融合"核心架構,首先利用Video-JEPA-2、Wav2Vec-Bert-2.0和Llama 3.2三個預訓練模型分別提取視覺、聽覺和語言特征,再通過Transformer架構整合信息,最終輸出包含7萬個"體素"的三維大腦活動圖。實驗數據顯示,其預測精度較傳統線性模型提升顯著,甚至能復現經典神經科學實驗結果。
在性能優化方面,研究團隊通過直接預測"調整后的平均反應"有效過濾了fMRI常見的生理噪音干擾。當模型接收多模態輸入時,大腦顳葉、頂葉和枕葉交界處的預測準確率可提升50%。例如在視覺實驗中,模型成功識別出處理面部、地點等信息的專用腦區;語言實驗則復現了言語與沉默、情感與疼痛等神經語言學現象的激活模式差異。
盡管展現出強大潛力,該模型仍存在技術局限。由于依賴血流動力學數據,其時間分辨率僅能達到秒級,無法捕捉毫秒級的神經活動。當前版本尚未整合觸覺和嗅覺數據,在感官維度覆蓋上存在不足。研究團隊已開源模型代碼與權重,未來計劃探索其在實驗設計優化、類腦AI架構開發及腦疾病診斷等領域的應用價值。







