今年春節,一款名為OpenClaw的AI應用迅速走紅,但熱度僅維持了不到兩個月便迅速消退。這場短暫的狂歡,讓人們再次思考:AI應用究竟在解決什么問題?下一個現象級產品又將出現在哪里?這些問題至今沒有明確答案。
以手機攝影為例,現代影像旗艦手機已能捕捉到夜景中人臉的細微水光,卻無法判斷拍攝對象是否剛剛哭泣;長焦鏡頭可將數百米外的行人拉至眼前,但無法識別其是匆忙趕路還是在尋找物品。同樣,當前的AI智能體能夠編寫代碼、整理PDF文件,但這些能力僅限于處理已數字化的信息。面對物理世界的復雜場景,AI仍顯得無能為力。
從現有大模型到能夠理解物理世界的“具身智能”,中間橫亙著一道難以逾越的鴻溝。vivo總裁兼首席運營官胡柏山在博鰲亞洲論壇上指出,這道鴻溝正是當前AI發展的核心挑戰。他強調,在真正的物理大模型出現之前,將物理世界信息轉化為數字世界信息是提升用戶體驗的關鍵途徑。
過去兩年,手機廠商紛紛布局AI領域,大模型接入、智能助手升級、端側算力提升成為競爭焦點。然而,胡柏山認為,這種競爭最終將導致大模型的高度商品化和同質化。他直言:“大模型之間的差異不大,只是時間先后的區別。”在這種背景下,單純比拼模型能力已無法形成競爭優勢。
vivo的選擇是聚焦“感知”能力。胡柏山表示,相比模型能力,積累的場景數據更具差異化價值。場景數據需要隨著用戶行為逐漸積累,無法通過短期投入或簡單復制獲得。vivo在影像領域十年的積累,正是其感知戰略的底層支撐。
感知并非簡單的“更好的相機”。胡柏山解釋,相機是被動記錄工具,而感知需要主動觀察、理解環境,并將信息轉化為設備可處理的輸入。這一過程需要重建系統架構,將感知信息與設備決策系統實時打通。目前,這一目標仍面臨技術挑戰,尤其是如何將原始感知數據轉化為結構化信息。
vivo將感知設為一級技術賽道,涵蓋視覺、聽覺、觸覺等多種感官方向。胡柏山以vivo的通信研究院為例,說明感知研發將采取長期投入、漸進式加速的策略。他強調,感知是一個天花板很高但技術路線尚不明確的領域,vivo準備用五年到十年的時間持續探索,避免盲目投入導致資源浪費。
在硬件層面,vivo與蔡司的合作已進入聯合研發深水區,傳感器尺寸和半導體轉化效率不斷提升。例如,X300 Ultra的主攝傳感器尺寸達到1/1.12英寸,并采用了提升進光轉化率的新技術。在算法層面,vivo三年前提出的長焦大底概念已被全行業跟進,但其背后的認知和算法優勢難以被快速復制。
X300 Ultra首次提出的“多agent”理念,體現了vivo在端側AI上的獨特思路。不同場景對應不同專項agent,既分工明確又協同工作。例如,拍照時有一個agent判斷拍攝對象和光線條件,另一個agent則根據用戶習慣自動整理相冊或剪輯視頻。胡柏山認為,現有硬件算力無法支撐一個“超級agent”,AI發展需結合硬件能力上限逐步推進。
vivo的長期規劃中,手機仍是核心產品,MR設備需要三到四年時間發展,機器人則需五年以上。這三個方向共享同一套感知能力,形成技術延伸。去年成立的機器人Lab聚焦“大腦和眼睛”,胡柏山透露,2025年將明確階段性目標,2026年制定清晰路徑。他強調,vivo不會盲目追求通用機器人,而是從具體場景切入,如照顧寵物或疊衣服,通過數據積累逐步擴展能力。
在手機與機器人的協同上,胡柏山認為,手機是最懂用戶的數字助理,可存儲行為習慣和偏好數據。機器人早期無法完成的任務,可由手機遠程介入補充。這種“沿途下蛋”的策略,與手機端感知能力的積累邏輯一致:先做好影像agent,再逐步擴展感知范圍。
面對AI眼鏡等新興品類的熱度,vivo選擇暫停相關項目。胡柏山算了一筆賬:年銷量幾十萬臺不符合目標體量,兩年內難以形成差異化,技術平臺也無法支撐良好體驗。這種“少押注,押重注”的策略,與硅谷巨頭聚焦核心優勢的思路不謀而合。
當前手機行業面臨換機周期延長、銷量下滑的挑戰,但AI帶來的能力躍升仍讓人看到增量空間。胡柏山認為,從智能手機到智能體手機的轉型,是激活存量市場的關鍵。而感知能力,正是這一轉型中最難被復制的護城河。











