硅谷的AI創業版圖迎來新變量:兩位分別來自谷歌與蘋果的頂尖科學家正聯手打造一家名為Elorian的初創企業,其種子輪融資目標直指5000萬美元,核心攻關方向直指下一代大模型的關鍵技術——視覺推理。
這家尚未正式亮相的公司,已因創始團隊的背景引發資本圈高度關注。聯合創始人Andrew Dai在谷歌DeepMind效力14年,曾主導Gemini模型預訓練數據工作,其學術履歷中與Jeff Dean、Quoc V. Le等AI泰斗合著的多篇論文,被視為GPT系列模型的重要理論基石。另一位聯合創始人Yinfei Yang則剛從蘋果離職,此前作為首席研究科學家參與自研AI模型開發,在圖像-文本共嵌入領域擁有多項專利技術。
視覺推理技術被業界視為通向通用人工智能(AGI)的關鍵跳板。不同于當前主流模型通過文本標簽理解圖像的"補丁式"方案,Elorian計劃構建原生多模態架構,使模型能直接通過視覺感知物理世界的邏輯關系。Andrew Dai在內部研討中舉例:"未來機器人不應僅識別'紅色按鈕',更要理解按下按鈕將引發何種機械連鎖反應。"
資本對"谷歌系+蘋果系"的組合表現出極大熱情。據知情人士透露,前CRV合伙人Max Gazor創立的Striker Venture Partners正領投本輪融資,該基金去年10月成立后尚未有重大投資披露。投資界普遍認為,這種技術基因的混合可能催生獨特優勢:谷歌背景提供大規模訓練基礎設施經驗,蘋果背景則帶來產品化落地思維。
當前大模型競爭已進入新階段。OpenAI憑借ChatGPT贏得文本生成先機后,谷歌Gemini、Anthropic Claude等模型正加速補足多模態能力。Elorian選擇從視覺推理切入,試圖在垂直場景建立技術壁壘。其潛在應用場景包括:自主操作復雜軟件系統的AI智能體、能理解三維空間的工業機器人、可處理多模態法律文件的智能助理等。
技術實現路徑上,團隊正攻關三大挑戰:如何構建跨模態的統一表征空間、如何設計符合人類認知的推理架構、如何解決視覺數據中的長尾問題。Yinfei Yang在學術會議中透露,其團隊已開發出新型注意力機制,可使模型在視覺問答任務中減少37%的錯誤率。
這場創業潮折射出硅谷人才流動的新趨勢。據LinkedIn數據,2023年已有超過200名谷歌AI研究員離職創業,其中15%選擇多模態方向。投資人開始將"團隊血統"作為重要評估指標,認為經歷過完整技術周期的資深研究者更具突破可能性。正如某風投機構合伙人所言:"在算力軍備競賽中,真正稀缺的是能定義下一代技術范式的洞察力。"









