科技領域迎來一項突破性進展——meta旗下基礎人工智能研究團隊(FAIR)正式開源新一代AI模型TRIBE v2。該模型通過創新的多模態融合技術,實現了對人類大腦視覺、聽覺及語言反應的高精度預測,為神經科學研究開辟了全新路徑。與傳統依賴腦部掃描的研究方式不同,TRIBE v2無需實際測量即可生成大腦活動圖,顯著降低了研究成本與周期。
模型的核心機制在于整合視頻、音頻與文本三種輸入數據。通過Video-JEPA-2、Wav2Vec-Bert-2.0及Llama 3.2三個預訓練模型分別提取特征后,Transformer架構將這些信息融合,最終輸出包含7萬個"體素"的3D大腦活動圖。實驗數據顯示,其預測精度超越傳統線性模型,甚至能復現經典神經科學實驗結果,且在處理新數據時無需重新訓練,僅需短暫微調即可提升準確性。
在性能對比中,TRIBE v2展現出顯著優勢。功能性磁共振成像(fMRI)常受心跳、頭部微動等生理噪聲干擾,而該模型通過預測"調整后的平均反應"有效過濾雜音,生成的大腦活動圖清晰度優于真實掃描結果。研究團隊特別指出,當同時輸入多模態數據時,模型在大腦顳葉、頂葉與枕葉交界處的預測準確率可提升50%,而單獨輸入音頻時僅能激活聽覺皮層。
實際應用場景中,TRIBE v2已驗證多項神經科學發現:在視覺實驗中準確識別出處理面部、地點等信息的專門腦區;在語言實驗中復現了言語與沉默、情感與疼痛等經典區分模式。不過,該模型仍存在技術局限——其依賴血流數據導致無法捕捉毫秒級神經活動,且未納入觸覺與嗅覺維度。目前,meta已公開模型代碼與權重,重點探索其在腦科學實驗設計、類腦AI架構開發及腦疾病診斷等領域的潛在價值。










