月之暗面核心團隊近日在社交媒體平臺Reddit上舉辦了一場長達三小時的有問必答活動,三位聯合創始人就模型技術、算力儲備和未來規劃等關鍵問題與全球網友展開深入交流。針對Kimi K2.5模型偶爾自稱為Claude的現象,CEO楊植麟解釋稱這是由于預訓練階段對最新編程數據進行了上采樣處理,導致模型對"Claude"這個特定詞元的響應概率異常升高,實際上K2.5在多項基準測試中已展現出超越Claude的性能表現。
在技術細節方面,團隊透露Kimi K2.5通過智能體蜂群技術實現了對100個子智能體的高效調度,任務執行效率提升最高達450%。該模型采用約470:1的參數比例,雖然存在一定程度的計算資源"浪費",但這是為了在模型規模和推理效率之間取得平衡。針對模型幻覺問題,算法負責人吳育昕表示已通過提升數據質量和優化獎勵機制進行改善,未來仍需探索更多解決方案。
關于算力儲備的尖銳提問,團隊坦言GPU數量差距并未縮小,但強調創新往往誕生于資源約束之中。周昕宇指出,可用算力受多種因素影響,公司通過獨特的組織文化和技術路線來應對挑戰。這種文化體現在對失敗研究的包容態度——團隊會深入討論所有實驗結果,即使三個月未見明顯性能提升也會客觀評估是否繼續投入。
對于備受期待的Kimi K3,楊植麟透露將在Kimi Linear架構基礎上進行多項優化,雖然未承諾具體性能提升倍數,但堅信新模型將帶來顯著進步。團隊正在探索持續學習技術以增強模型自主性,同時保持對線性注意力機制的研究投入。針對模型個性變化的問題,吳育昕承認這是當前面臨的棘手挑戰,正在努力平衡性能提升與用戶個性化需求。
在多模態發展方面,Kimi Code憑借視頻輸入等獨有功能形成差異化優勢。團隊認為文本和視覺能力的提升可以相互促進,強大的文本基座對視覺性能至關重要。對于在線學習計劃,周昕宇表示這是提升Agentic模型自主性的關鍵方向,相關研究正在積極推進中。雖然目前沒有推出原生音頻輸入模型的計劃,但團隊會持續關注技術發展趨勢。
這場問答活動共回應了40余個問題,涵蓋從技術架構到商業策略的多個層面。團隊強調始終秉持"把事情真正做成并落地"的價值觀,這種理念體現在對基礎研究的長期投入和對工程實現的極致追求。通過持續優化訓練方法和基礎設施,月之暗面正在探索通用人工智能發展的新路徑,其技術路線選擇和問題解決思路為行業提供了重要參考。




















