一場關于端側AI訓練的技術革命正在悄然發生。工程師Manjeet Singh與Claude AI團隊近日宣布,他們通過逆向工程技術突破了蘋果M4芯片神經引擎(ANE)的算力封鎖,首次實現了在消費級設備上直接訓練Transformer模型的能力。這一成果徹底顛覆了業界對神經網絡處理單元(NPU)的認知,標志著個人電腦正式進入大規模AI模型訓練時代。
傳統觀點認為,NPU因架構限制無法承擔訓練任務,但研究團隊通過繞過蘋果CoreML框架的層層封裝,直接深入MIL編譯語言與E5二進制指令集,成功解鎖了ANE的完整算力。實驗數據顯示,M4芯片在運行單層Transformer模型時,峰值能效比達到驚人的6.6TFLOPS/W,這一數值是英偉達A100專業顯卡的80倍,較H100更是有50倍以上的優勢。更令人震驚的是,整套系統在訓練Stories110M模型時,整機功耗控制在1瓦特以內,徹底改寫了高性能計算的能耗標準。
這項突破的核心在于硬件操控方式的革新。研究團隊開發出全新的底層驅動架構,使ANE能夠直接處理梯度計算與參數更新等訓練核心環節,而不再局限于傳統的推理任務。在Mac mini的實測中,系統不僅完成了模型完整訓練流程,其迭代效率甚至接近部分入門級GPU集群。對于獨立開發者而言,這意味著過去需要數萬美元投入的算力成本,如今只需一臺售價數百美元的消費級設備即可實現。
技術社區對此反應熱烈。多位AI工程師指出,這項成果將徹底改變小型團隊的技術路線選擇。當GPU集群的維護成本與數據安全風險成為過去式,家庭實驗室與個人開發者將獲得前所未有的研發自由度。有開發者形象地比喻:"你書桌上的MacBook不再只是代碼運行器,它正在進化成能夠自主思考的數字伙伴。"
盡管當前實現仍面臨內存帶寬限制與多節點協同等工程挑戰,但研究團隊已開放部分底層代碼庫。這種開源協作模式正在吸引全球開發者參與優化,有專家預測,隨著驅動層的持續改進,M4芯片的算力利用率有望在半年內提升300%。這場由消費電子設備引發的AI訓練革命,或許才剛剛拉開序幕。












