
備註:本文是對SemiAnalysis最新一篇公開分析報告的全文翻譯,譯者張海軍。
原文地址:https://semianalysis.com/2025/01/31/deepseek-debates/
深度求索的故事席捲全球深度求索(DeepSeek)的故事在全球引起了轟動。在過去的一周里,深度求索成了全球各界唯一的熱議話題。
但對於密切關注這一領域的人來說,這其實並非什麼「新鮮事」,令人矚目的是人們對它的瘋狂炒作。長期以來,SemiAnalysis一直認為深度求索極具天賦,但美國大眾此前並不關注。當全世界終於開始關注時,卻陷入了一種脫離現實的瘋狂炒作。幾個月來,我們一直在談論深度求索(每個連結都是例證)。這家公司並不新。
我們想強調的是,輿論風向與上個月相比發生了逆轉。上個月,當規模定律被打破時,有人認為這對英偉達(Nvidia)和 GPU不利;如今,又有人說算法改進速度過快。我們已經破除了這些謬論。
如今的輿論認為,深度求索效率極高,我們不再需要更多計算資源,而且由於模型的變化,現在一切都存在大量過剩產能。雖然傑文斯悖論(Jevons paradox)也被過度炒作了,但它更接近現實情況。這些模型已經對 H100和 H200的定價產生了實際影響,刺激了需求。
深度求索與 High-Flyer(幻方)High-Flyer是一家中國對沖基金,也是將人工智慧應用於交易算法的早期 adopters。他們很早就意識到了人工智慧在金融領域之外的潛力,以及規模化的關鍵意義。因此,他們不斷增加 GPU的儲備。在使用數千個 GPU集群對模型進行試驗後,High-Flyer在2021年出口限制實施前投資購買了10000個 A100 GPU,這一舉措取得了回報。隨著 High-Flyer的發展,他們在2023年5月決定分拆出「深度求索」,目標是更專注地追求人工智慧能力的進一步提升。當時,由於缺乏商業模式,外部投資者對人工智慧興趣寥寥,High-Flyer便自行出資成立了這家公司。如今,High-Flyer和深度求索經常共享人力和計算資源。
深度求索如今已發展成為一項認真且協同的事業,絕非許多媒體聲稱的「副業」。我們確信,即便考慮到出口管制因素,他們在 GPU上的投資也超過5億美元。

GPU情況我們認為他們擁有約50000個 Hopper GPU,但這並不等同於50000個 H100,一些人存在這樣的誤解。英偉達為遵守不同規定,生產了 H100的多種變體(H800、H20),目前中國的模型供應商僅能獲得 H20。需要注意的是,H800的計算能力與 H100相同,但網絡頻寬較低。
我們認為深度求索擁有約10000個 H800和10000個 H100。此外,他們還訂購了更多 H20。在過去9個月裡,英偉達生產了超過100萬個專供中國的 GPU。這些 GPU由 High-Flyer和深度求索共享,並在一定程度上進行了地理分布。它們被用於交易、推理、訓練和研究。如需更具體的詳細分析,請參考我們的《加速器模型》。
深度求索人工智慧的總擁有成本我們的分析顯示,深度求索的伺服器總資本支出接近13億美元,營運這些集群的成本高達7.15億美元。同樣,所有人工智慧實驗室和超大規模數據中心為了各種任務(包括研究和訓練),擁有的 GPU數量比單次訓練所需的更多,因為資源集中存在一定挑戰。X.AI作為一個人工智慧實驗室比較獨特,它所有的 GPU都集中在一個地方。
深度求索只從中國招聘人才,不看重過往資歷,高度關注能力和求知慾。他們經常在北京大學和浙江大學等頂尖大學舉辦招聘活動,招聘廣告中甚至吹噓員工能無限制使用數萬個 GPU。他們極具競爭力,據說為有潛力的候選人提供超過130萬美元的年薪,遠超中國其他大型科技公司和人工智慧實驗室,如 Moonshot。他們目前約有150名員工,且規模還在迅速擴大。崗位角色不一定預先設定,招聘人員有一定靈活性。
歷史表明,資金充足且專注的小型初創公司往往能突破極限。深度求索不像谷歌那樣官僚主義,由於是自籌資金,他們能迅速將想法付諸實踐。不過,和谷歌一樣,深度求索(在很大程度上)營運自己的數據中心,不依賴外部機構或供應商。這為實驗開闢了更多空間,使他們能夠在整個技術棧上進行創新。
我們認為他們是目前最好的「開放權重」實驗室,超過了 Meta的 Llama項目、Mistral等。
深度求索的成本與性能本周,深度求索的價格和效率引發了熱潮,主要焦點是深度求索 V3的「600萬美元」訓練成本。但這是錯誤的。這就好比只看產品物料清單上的某一部分,卻將其視為整個產品的成本。預訓練成本只是總成本中很小的一部分。
訓練成本我們認為預訓練成本遠非該模型的實際投入。我們確信,在公司發展歷程中,他們在硬體上的花費遠高於5億美元。為了開發新的架構創新,在模型開發過程中,需要投入大量資金來測試新想法、新架構思路,並進行消融實驗。開發和實現這些想法需要整個團隊投入大量人力和 GPU計算時間。深度求索的關鍵創新——多頭潛在注意力機制(Multi-Head Latent Attention),就耗費了數月時間。
論文中提到的600萬美元成本僅指預訓練運行的 GPU成本,這只是模型總成本的一部分。研發費用和硬體本身的總擁有成本等重要部分並未計算在內。參考一下,Claude3.5 Sonnet的訓練成本高達數千萬美元,如果這就是 Anthropic所需的全部成本,他們就不會從谷歌籌集數十億美元,也不會從亞馬遜籌集數百億美元了。這是因為他們必須進行實驗、提出新架構、收集和清理數據、支付員工工資等等。
那麼深度求索是如何擁有如此龐大的集群的呢?出口管制的滯後是關鍵,下面在出口管制部分會詳細討論。
縮小差距——V3的性能V3無疑是一款令人印象深刻的模型,但值得注意的是,要明確它是相對於什麼而言令人印象深刻。許多人將 V3與 GPT-4o進行比較,並強調 V3如何超越4o的性能。這確實沒錯,但 GPT-4o於2024年5月發布。人工智慧發展迅速,從算法改進的角度來看,2024年5月恍如隔世。而且,經過一段時間後,用更少的計算資源實現相當或更強的能力,這並不令人意外。推理成本的下降是人工智慧進步的一個標誌。

















