近日,科技行業(yè)迎來一則重磅消息:兩位來自國際科技大廠的前AI研究員攜手創(chuàng)立了一家名為Elorian的新公司,引發(fā)業(yè)界廣泛關(guān)注。該公司聚焦于開發(fā)具備多模態(tài)處理能力的AI模型,可同時理解并分析文本、圖像、視頻及音頻信息。
Elorian的兩位創(chuàng)始人均擁有深厚的行業(yè)背景。公司首席執(zhí)行官戴明博此前在谷歌DeepMind任職超過14年,是Gemini項目數(shù)據(jù)領(lǐng)域的核心成員,主導(dǎo)預(yù)訓(xùn)練相關(guān)工作。他擁有劍橋大學(xué)計算機科學(xué)學(xué)士學(xué)位和愛丁堡大學(xué)機器學(xué)習(xí)博士學(xué)位,在深度學(xué)習(xí)領(lǐng)域深耕二十載,曾參與谷歌SGE建模、Google Now開發(fā)等多個重要項目。另一位聯(lián)合創(chuàng)始人楊寅飛則先后在谷歌和蘋果擔(dān)任研究科學(xué)家,專注于視覺與語言基礎(chǔ)模型開發(fā),在自然語言處理和多模態(tài)表示領(lǐng)域積累了豐富經(jīng)驗。
據(jù)知情人士透露,Elorian正在推進一輪規(guī)模達5000萬美元的種子輪融資,由Striker Venture Partners領(lǐng)投的談判已進入關(guān)鍵階段。這家初創(chuàng)公司計劃利用這筆資金構(gòu)建能夠通過多模態(tài)數(shù)據(jù)對物理世界進行視覺解讀的AI系統(tǒng),其技術(shù)方案可顯著降低開發(fā)人員整合不同AI模型的工作量,為機器人系統(tǒng)等復(fù)雜應(yīng)用場景提供解決方案。
戴明博在接受采訪時表示,雖然機器人技術(shù)是潛在應(yīng)用方向之一,但公司更關(guān)注技術(shù)本身的通用性。他強調(diào),Elorian的模型設(shè)計旨在突破傳統(tǒng)單模態(tài)系統(tǒng)的局限,通過整合視覺、聽覺等多維度信息,使AI系統(tǒng)具備更全面的環(huán)境感知能力。這種技術(shù)路線對于需要執(zhí)行高級任務(wù)的智能體具有重要價值,例如在自動駕駛、工業(yè)自動化等領(lǐng)域的應(yīng)用。
楊寅飛的學(xué)術(shù)背景為Elorian的技術(shù)發(fā)展提供了重要支撐。他在南京郵電大學(xué)期間就參與了差分進化算法研究,其本科畢業(yè)作品Apollo3D在機器人世界杯賽事中獲獎。碩士階段攻讀計算機視覺方向后,他先后在亞馬遜、Redfin等企業(yè)從事機器學(xué)習(xí)研究,并在谷歌工作期間深入探索語義檢索和多語言表示技術(shù)。這種跨領(lǐng)域的研究經(jīng)歷使他成為開發(fā)多模態(tài)AI系統(tǒng)的理想人選。
當(dāng)前,AI行業(yè)正經(jīng)歷從專用模型向通用基礎(chǔ)模型的轉(zhuǎn)型。包括OpenAI、Anthropic在內(nèi)的科技巨頭都在加大視覺推理領(lǐng)域的投入,試圖構(gòu)建能夠處理多種數(shù)據(jù)類型的智能系統(tǒng)。Elorian的成立恰逢這一技術(shù)變革期,其團隊在預(yù)訓(xùn)練模型和多模態(tài)處理方面的專業(yè)積累,使其成為該賽道值得關(guān)注的新興力量。不過,這家初創(chuàng)公司能否在激烈的市場競爭中脫穎而出,仍需觀察其技術(shù)落地的實際效果。











