在跨端自動(dòng)化領(lǐng)域,一場(chǎng)由創(chuàng)業(yè)團(tuán)隊(duì)引領(lǐng)的技術(shù)革新正在悄然展開。張志勇和單文榜,兩位來自硬件行業(yè)的資深工程師,憑借自研的Agent ZeroFlow,在安卓設(shè)備、Chrome瀏覽器及PC桌面上實(shí)現(xiàn)了突破性的多模態(tài)操控能力。這項(xiàng)技術(shù)讓智能體能夠像真人一樣觀察屏幕、執(zhí)行點(diǎn)擊、滑動(dòng)和輸入操作,完成復(fù)雜的跨平臺(tái)任務(wù)。
當(dāng)前市場(chǎng)上的主流方案各存局限。豆包手機(jī)通過與手機(jī)廠商深度合作獲取高權(quán)限,卻因此引發(fā)應(yīng)用廠商的強(qiáng)烈抵制;智譜AutoGLM采用adb協(xié)議和遠(yuǎn)程虛擬機(jī)模式,但用戶信任成本居高不下。ZeroFlow另辟蹊徑,選擇基于Android無障礙服務(wù)構(gòu)建核心架構(gòu)。這項(xiàng)為視障用戶設(shè)計(jì)的系統(tǒng)功能,賦予智能體讀取屏幕元素和模擬人類操作的能力,理論上形成了無法被應(yīng)用封禁的技術(shù)路徑。
技術(shù)落地的復(fù)雜程度遠(yuǎn)超想象。國內(nèi)網(wǎng)頁普遍設(shè)置的反自動(dòng)化機(jī)制構(gòu)成首要挑戰(zhàn)——視覺元素與代碼結(jié)構(gòu)的錯(cuò)位設(shè)計(jì),使得傳統(tǒng)代碼解析方式難以奏效。張志勇團(tuán)隊(duì)發(fā)現(xiàn),多模態(tài)視覺理解恰好能破解這種"視覺迷宮",這也是某些大模型能解讀截圖卻無法解析鏈接的根源所在。另一個(gè)工程難題在于優(yōu)化截圖策略,既要減少廣告彈窗等干擾因素,又要控制模型推理成本。單文榜透露,團(tuán)隊(duì)通過動(dòng)態(tài)區(qū)域截取和輕量化模型部署,在保證準(zhǔn)確率的同時(shí)將Token消耗降低30%。
安全機(jī)制構(gòu)建體現(xiàn)著創(chuàng)業(yè)團(tuán)隊(duì)的獨(dú)特思考。針對(duì)OpenClaw等開源項(xiàng)目暴露的命令注入風(fēng)險(xiǎn),ZeroFlow采用雙層防護(hù)體系:沙箱環(huán)境隔離用戶敏感數(shù)據(jù),小模型實(shí)時(shí)監(jiān)測(cè)并脫敏處理交互信息。這種設(shè)計(jì)既防止了主機(jī)被控風(fēng)險(xiǎn),又確保云端文件無法被逆向解析。在用戶體驗(yàn)層面,系統(tǒng)將部署流程簡(jiǎn)化為瀏覽器注冊(cè)即用,徹底消除傳統(tǒng)智能體復(fù)雜的配置門檻。
技術(shù)演進(jìn)路徑折射出創(chuàng)業(yè)團(tuán)隊(duì)的戰(zhàn)略抉擇。從最初為提升工程師效率開發(fā)的編程智能體,到如今面向全行業(yè)的通用Agent,ZeroFlow的進(jìn)化軌跡清晰可見。第一代產(chǎn)品通過上下文感知和代碼補(bǔ)全功能,將研發(fā)效率提升數(shù)倍;當(dāng)觀察到OpenClaw引發(fā)的行業(yè)變革時(shí),團(tuán)隊(duì)意識(shí)到三年積累已形成可復(fù)制的方法論。這種從垂直場(chǎng)景到通用平臺(tái)的跨越,使財(cái)務(wù)分析、運(yùn)營流程等知識(shí)工作領(lǐng)域都成為潛在應(yīng)用場(chǎng)景。
選擇獨(dú)立創(chuàng)業(yè)而非依托大廠平臺(tái),源于團(tuán)隊(duì)對(duì)技術(shù)擴(kuò)散速度的判斷。"群體協(xié)作能拓展邊界,但個(gè)體決策更適應(yīng)快速迭代的市場(chǎng)環(huán)境。"張志勇如此解釋。這種判斷已獲得資本認(rèn)可——依零科技近期完成近千萬元天使輪融資,資金將用于產(chǎn)品優(yōu)化和市場(chǎng)拓展。在跨端自動(dòng)化這場(chǎng)競(jìng)賽中,這個(gè)創(chuàng)業(yè)團(tuán)隊(duì)正以獨(dú)特的路徑證明:技術(shù)突破不僅需要?jiǎng)?chuàng)新勇氣,更需要對(duì)行業(yè)痛點(diǎn)的深刻洞察。









