歐洲某知名AI企業(yè)首席執(zhí)行官近日在公開場合聲稱,中國公司DeepSeek的V3模型是基于其公司提出的架構(gòu)開發(fā)而成,此言論迅速在網(wǎng)絡(luò)上引發(fā)激烈討論。網(wǎng)友們對此觀點普遍持懷疑態(tài)度,甚至有人直言該說法荒謬至極。
事件的起因源于一場關(guān)于中國開源AI發(fā)展的訪談。該企業(yè)聯(lián)合創(chuàng)始人兼CEO在回應(yīng)相關(guān)問題時表示,中國在AI領(lǐng)域展現(xiàn)出強大實力,并指出開源并非真正的競爭,而是行業(yè)共同進步的基礎(chǔ)。他特別提到,公司于2024年初發(fā)布的稀疏混合專家模型(MoE)為后續(xù)技術(shù)發(fā)展奠定了基礎(chǔ),DeepSeek-V3及其后續(xù)版本均采用了相同架構(gòu),且相關(guān)技術(shù)細節(jié)已完全公開。
然而,這一說法很快遭到網(wǎng)友質(zhì)疑。有技術(shù)愛好者通過對比兩篇論文發(fā)現(xiàn),DeepSeek與該企業(yè)發(fā)布的MoE相關(guān)論文時間僅相差三天,但兩者在核心設(shè)計思路上存在顯著差異。例如,該企業(yè)的模型更側(cè)重于工程實現(xiàn),強調(diào)通過成熟技術(shù)提升模型效果;而DeepSeek則聚焦于算法創(chuàng)新,試圖解決傳統(tǒng)架構(gòu)中專家知識重復(fù)學(xué)習(xí)的問題。
進一步的技術(shù)分析顯示,兩者雖均采用GShard風(fēng)格的路由機制,但DeepSeek對門控網(wǎng)絡(luò)和專家結(jié)構(gòu)進行了重大改進。其提出的細粒度專家分割方法,在保持總參數(shù)量不變的前提下,將大型專家模塊拆分為多個小型專家,從而提升了知識獲取的精準度。DeepSeek還引入了共享專家機制,將通用知識與特定知識分離,而該企業(yè)的模型則未體現(xiàn)此類設(shè)計。
更令人意外的是,有證據(jù)表明該企業(yè)于2025年12月發(fā)布的Mistral 3 Large模型,在架構(gòu)設(shè)計上與DeepSeek-V3存在高度相似性。這一發(fā)現(xiàn)進一步加劇了網(wǎng)友對其言論的質(zhì)疑,有人調(diào)侃稱“屠龍者終成惡龍”,暗示該企業(yè)已背離開源社區(qū)的初心。
盡管該企業(yè)為MoE技術(shù)的推廣做出了一定貢獻,但不可否認的是,DeepSeek在稀疏架構(gòu)優(yōu)化等領(lǐng)域取得了更廣泛的影響力。其創(chuàng)新性的設(shè)計思路和透明的技術(shù)分享方式,贏得了更多研究者的認可。這場爭論也反映出,在AI技術(shù)快速迭代的背景下,企業(yè)間的競爭已從單純的技術(shù)比拼,延伸至學(xué)術(shù)聲譽與行業(yè)話語權(quán)的爭奪。












