目前看到對DeepSeek真實水平最全面客觀的分析＊阿波羅新聞網

備註：本文是對SemiAnalysis最新一篇公開分析報告的全文翻譯，譯者張海軍。

原文地址：https://semianalysis.com/2025/01/31/deepseek-debates/

深度求索的故事席捲全球深度求索（DeepSeek）的故事在全球引起了轟動。在過去的一周里，深度求索成了全球各界唯一的熱議話題。

但對於密切關注這一領域的人來說，這其實並非什麼「新鮮事」，令人矚目的是人們對它的瘋狂炒作。長期以來，SemiAnalysis一直認為深度求索極具天賦，但美國大眾此前並不關注。當全世界終於開始關注時，卻陷入了一種脫離現實的瘋狂炒作。幾個月來，我們一直在談論深度求索（每個連結都是例證）。這家公司並不新。

我們想強調的是，輿論風向與上個月相比發生了逆轉。上個月，當規模定律被打破時，有人認為這對英偉達（Nvidia）和 GPU不利；如今，又有人說算法改進速度過快。我們已經破除了這些謬論。

如今的輿論認為，深度求索效率極高，我們不再需要更多計算資源，而且由於模型的變化，現在一切都存在大量過剩產能。雖然傑文斯悖論（Jevons paradox）也被過度炒作了，但它更接近現實情況。這些模型已經對 H100和 H200的定價產生了實際影響，刺激了需求。

深度求索與 High-Flyer（幻方）High-Flyer是一家中國對沖基金，也是將人工智慧應用於交易算法的早期 adopters。他們很早就意識到了人工智慧在金融領域之外的潛力，以及規模化的關鍵意義。因此，他們不斷增加 GPU的儲備。在使用數千個 GPU集群對模型進行試驗後，High-Flyer在2021年出口限制實施前投資購買了10000個 A100 GPU，這一舉措取得了回報。隨著 High-Flyer的發展，他們在2023年5月決定分拆出「深度求索」，目標是更專注地追求人工智慧能力的進一步提升。當時，由於缺乏商業模式，外部投資者對人工智慧興趣寥寥，High-Flyer便自行出資成立了這家公司。如今，High-Flyer和深度求索經常共享人力和計算資源。

深度求索如今已發展成為一項認真且協同的事業，絕非許多媒體聲稱的「副業」。我們確信，即便考慮到出口管制因素，他們在 GPU上的投資也超過5億美元。

GPU情況我們認為他們擁有約50000個 Hopper GPU，但這並不等同於50000個 H100，一些人存在這樣的誤解。英偉達為遵守不同規定，生產了 H100的多種變體（H800、H20），目前中國的模型供應商僅能獲得 H20。需要注意的是，H800的計算能力與 H100相同，但網絡頻寬較低。

我們認為深度求索擁有約10000個 H800和10000個 H100。此外，他們還訂購了更多 H20。在過去9個月裡，英偉達生產了超過100萬個專供中國的 GPU。這些 GPU由 High-Flyer和深度求索共享，並在一定程度上進行了地理分布。它們被用於交易、推理、訓練和研究。如需更具體的詳細分析，請參考我們的《加速器模型》。

深度求索人工智慧的總擁有成本我們的分析顯示，深度求索的伺服器總資本支出接近13億美元，營運這些集群的成本高達7.15億美元。同樣，所有人工智慧實驗室和超大規模數據中心為了各種任務（包括研究和訓練），擁有的 GPU數量比單次訓練所需的更多，因為資源集中存在一定挑戰。X.AI作為一個人工智慧實驗室比較獨特，它所有的 GPU都集中在一個地方。

深度求索只從中國招聘人才，不看重過往資歷，高度關注能力和求知慾。他們經常在北京大學和浙江大學等頂尖大學舉辦招聘活動，招聘廣告中甚至吹噓員工能無限制使用數萬個 GPU。他們極具競爭力，據說為有潛力的候選人提供超過130萬美元的年薪，遠超中國其他大型科技公司和人工智慧實驗室，如 Moonshot。他們目前約有150名員工，且規模還在迅速擴大。崗位角色不一定預先設定，招聘人員有一定靈活性。

歷史表明，資金充足且專注的小型初創公司往往能突破極限。深度求索不像谷歌那樣官僚主義，由於是自籌資金，他們能迅速將想法付諸實踐。不過，和谷歌一樣，深度求索（在很大程度上）營運自己的數據中心，不依賴外部機構或供應商。這為實驗開闢了更多空間，使他們能夠在整個技術棧上進行創新。

我們認為他們是目前最好的「開放權重」實驗室，超過了 Meta的 Llama項目、Mistral等。

深度求索的成本與性能本周，深度求索的價格和效率引發了熱潮，主要焦點是深度求索 V3的「600萬美元」訓練成本。但這是錯誤的。這就好比只看產品物料清單上的某一部分，卻將其視為整個產品的成本。預訓練成本只是總成本中很小的一部分。

訓練成本我們認為預訓練成本遠非該模型的實際投入。我們確信，在公司發展歷程中，他們在硬體上的花費遠高於5億美元。為了開發新的架構創新，在模型開發過程中，需要投入大量資金來測試新想法、新架構思路，並進行消融實驗。開發和實現這些想法需要整個團隊投入大量人力和 GPU計算時間。深度求索的關鍵創新——多頭潛在注意力機制（Multi-Head Latent Attention），就耗費了數月時間。

論文中提到的600萬美元成本僅指預訓練運行的 GPU成本，這只是模型總成本的一部分。研發費用和硬體本身的總擁有成本等重要部分並未計算在內。參考一下，Claude3.5 Sonnet的訓練成本高達數千萬美元，如果這就是 Anthropic所需的全部成本，他們就不會從谷歌籌集數十億美元，也不會從亞馬遜籌集數百億美元了。這是因為他們必須進行實驗、提出新架構、收集和清理數據、支付員工工資等等。

那麼深度求索是如何擁有如此龐大的集群的呢？出口管制的滯後是關鍵，下面在出口管制部分會詳細討論。

縮小差距——V3的性能V3無疑是一款令人印象深刻的模型，但值得注意的是，要明確它是相對於什麼而言令人印象深刻。許多人將 V3與 GPT-4o進行比較，並強調 V3如何超越4o的性能。這確實沒錯，但 GPT-4o於2024年5月發布。人工智慧發展迅速，從算法改進的角度來看，2024年5月恍如隔世。而且，經過一段時間後，用更少的計算資源實現相當或更強的能力，這並不令人意外。推理成本的下降是人工智慧進步的一個標誌。

責任編輯：方尋　來源：傅立葉的貓/基本常識轉載請註明作者、出處並保持完整。

目前看到對DeepSeek真實水平最全面客觀的分析

相關新聞