“DeepSeek-V3 是在 Mistral 提出的架構(gòu)上構(gòu)建的。”
歐洲版 OpenAI CEO 此言一出,炸了鍋了。網(wǎng)友們的反應(yīng) be like:
這還是溫和派,還有更直接的吐槽:Mistral 在胡說八道些什么……
還沒吃上瓜的家人們別著急,咱們從頭捋一捋這事兒:
在最近一次訪談中,當(dāng)被問到如何看待中國開源 AI 的強(qiáng)勢(shì)發(fā)展時(shí),Mistral 聯(lián)合創(chuàng)始人、CEO Arthur Mensch 這樣回應(yīng):
中國在 AI 領(lǐng)域?qū)嵙?qiáng)勁。我們是最早發(fā)布開源模型的公司之一,而他們發(fā)現(xiàn)這是一個(gè)很好的策略。
開源不是真正的競(jìng)爭(zhēng),大家在彼此的基礎(chǔ)上不斷進(jìn)步。
比如我們?cè)?2024 年初發(fā)布了首個(gè)稀疏混合專家模型(MoE),DeepSeek-V3 以及之后的版本都是在此基礎(chǔ)上構(gòu)建的。它們采用的是相同的架構(gòu),而我們把重建這種架構(gòu)所需的一切都公開了。
Arthur Mensch 很自信,但網(wǎng)友們聽完表示:橋豆麻袋,這不對(duì)勁。
且不說 DeepSeek MoE 論文的發(fā)布時(shí)間和 Arthur Mensch 提到的 Mixtral 論文相差僅 3 天:
認(rèn)真細(xì)扒起來,兩種架構(gòu)實(shí)際上思路也并不相同。
并且此前,Mistral 3 Large 還曾被扒出基本上照搬了 DeepSeek-V3 采用的架構(gòu)……
▲ 圖源








