DeepSeek即將在四月下旬推出新一代旗艦大模型V4,這一消息由其創始人梁文鋒在內部溝通中透露。然而,比起新模型本身,外界對DeepSeek服務器穩定性的關注度持續升溫。三月二十九日晚間,該平臺遭遇了一次長達十二小時五十八分鐘的全面癱瘓,網頁端和移動應用均無法正常使用,技術團隊經過多次修復才恢復服務。這一事件引發了用戶對DeepSeek基礎設施能否支撐未來流量的質疑。
作為DeepSeek基礎設施的核心負責人,代達勱(圈內稱“戴大麥”)肩負著確保系統穩定運行的重任。他的工作并非聚焦于模型智能的提升,而是保障模型在百萬級用戶同時訪問時不會崩潰。V4的發布時間多次推遲,外界普遍關注其性能表現,但真正的壓力測試實際上落在代達勱及其團隊肩上。服務器穩定性已成為DeepSeek的明顯短板,而留給代達勱優化系統的時間正在減少。
代達勱在學術領域成績斐然。二零二四年,他從北京大學計算機學院計算語言所博士畢業,師從穗志方教授,發表了二十余篇頂會論文,Google Scholar引用次數超過兩萬八千次。二零二三年,他作為第三核心作者獲得EMNLP最佳長論文獎,這是中國大陸機構首次獲此殊榮。其獲獎論文探討了上下文學習的工作機制,從信息流視角揭示了大模型如何通過示例中的標簽詞進行預測。在讀博期間,他還榮獲國家獎學金、校長獎學金等多項榮譽,博士論文入選中國中文信息學會“博士學位論文激勵計劃”,研究預訓練語言模型的知識增強與推理能力對齊。
代達勱的研究方向集中在大模型基礎設施和系統優化,即如何讓模型運行更快、更穩定且成本更低。他參與了多篇綜述類文章,其中《A Survey on In-Context Learning》總結了上下文學習領域的研究進展,包括研究分類、解釋和未解決問題。從DeepSeek V1到V3,他全程參與推理系統的工程優化與規模化部署,涵蓋多硬件平臺性能調優、分布式系統架構設計等底層工作。DeepSeek以極低推理成本對標頭部閉源模型的核心技術支撐——DeepSeekMoE架構,正是由他提出。
DeepSeekMoE架構解決了傳統MoE架構中專家知識冗余、專業化不足的問題。該架構提出“細粒度專家分割”思路,將專家細分成更小單元,從N個專家變為mN個,激活時從K個變為mK個,組合更靈活。同時隔離共享專家捕獲通用知識,減少路由專家冗余。這一架構成為DeepSeek-V2和V3的核心基礎,在145B參數規模下,僅用28.5%的計算量就達到DeepSeek 67B的性能,2B模型表現接近同等總參數量的稠密模型。代達勱的團隊不僅提出創新架構,還確保其在真實環境中穩定運行,這是DeepSeek以低算力實現高性能的關鍵。
然而,這些成就集中在模型訓練和架構設計層面,真正考驗基礎設施的是高并發場景下的系統穩定性。三月二十九日的崩潰事件暴露了DeepSeek交付系統的問題。面對流量高峰,推理集群的并發處理能力、負載均衡機制和容錯設計均顯得不足。算法團隊可以訓練出聰明的模型,但若基礎設施無法支撐,用戶看到的仍是“服務器繁忙”的提示。代達勱負責的推理集群調度策略、請求分發邏輯、GPU資源動態分配和故障降級預案,是決定系統能否在壓力下穩定運行的關鍵。
此次崩潰從三月二十九日晚九點三十五分開始,網頁端和移動應用均無法正常使用,用戶反饋無法發起新對話或現有對話中斷。技術團隊首次修復于當日二十三點二十三分完成,但服務很快再次波動。三月三十日零點二十分,團隊展開二次調查,凌晨一點二十四分實施修復方案,服務始終不穩定,直至上午十點左右才完全恢復。這是DeepSeek成立以來單次服務中斷時間最長的紀錄,此前網頁端服務從未中斷超過兩小時。盡管大模型宕機屬常見現象,但如此長時間的崩潰對DeepSeek的技術能力而言不應發生。
隨著V4發布臨近,系統穩定性問題愈發緊迫。V4不僅是模型升級,還將全面適配國產芯片,這意味著底層代碼需大量重寫,推理系統需重新調優,性能瓶頸需重新排查。核心差異在于算子生態:CUDA已積累十五年,覆蓋幾乎所有場景,而國內框架仍在補課階段。適配Flash Attention、Triton自定義算子等高性能優化層的工作量巨大。GPU和NPU的并行計算策略不同,浮點加法誤差會隨模型規模和序列長度累積,V3已是百億級模型,V4只會更大,誤差問題更突出。實際部署時,如何在新硬件上跑出接近或超越英偉達的性能,如何保證遷移過程中服務不中斷,如何做好多硬件平臺資源調度,都是代達勱面臨的挑戰。
基礎設施崗位的難點在于此:做好了無人鼓掌,因為這是本職工作;做差了則會被嚴厲批評。對已被推上風口浪尖的DeepSeek而言,基礎設施團隊背負著巨大責任。若V4發布時不崩潰,那才是真正的成功時刻。這場戰役,代達勱必須贏,因為模型再強,崩潰就等于零。













