新聞 > 科教 > 正文

目前看到對DeepSeek真實水平最全面客觀的分析

訓練(預訓練和後訓練)深度求索 V3大規模應用了前所未有的多令牌預測(MTP)技術,它增加了注意力模塊,能夠預測接下來的幾個令牌,而非單個令牌。這一技術在訓練過程中提升了模型性能,且在推理時可捨棄。這是通過算法創新實現低計算量下性能提升的一個範例。

訓練過程中還採用了 FP8精度等技術,不過美國的領先實驗室採用 FP8訓練已有一段時間。

深度求索 V3也是一個混合專家模型,即由多個擅長不同領域的小模型組成一個大型模型,這是一種新興的模型架構。混合專家模型面臨的一個難題是如何確定每個令牌該進入哪個子模型(即「專家」模型)。深度求索通過實施「門控網絡」,以一種平衡的方式將令牌路由到合適的專家模型,且不影響模型性能。這意味著路由效率極高,在訓練過程中,相對於整個模型的規模,每個令牌僅需改變少量參數。這不僅提高了訓練效率,還降低了推理成本。

盡避有人擔憂混合專家模型(MoE)帶來的效率提升可能並不顯著,節省下來的成本會迅速被投入到構建更大規模的模型中,導致總體投入不會減少。但實際上,MoE提高的效率會加速人工智慧的規模化發展。企業都在專注於擴大模型的計算規模,並提升算法效率。達里奧指出,更強大的人工智慧模型所帶來的經濟效益十分可觀。

就 R1而言,它極大地受益於強大的基礎模型(V3),部分原因在於強化學習(RL)。強化學習主要聚焦兩個方面:格式規範(確保輸出連貫)以及有用性和無害性(確保模型實用)。在基於合成數據集對模型進行微調的過程中,R1的推理能力得以提升,這與 o1的情況類似。需要注意的是,R1的論文中並未提及計算資源的使用情況,因為提及所用的計算資源會暴露他們實際擁有的 GPU數量比對外宣稱的更多。如此大規模的強化學習,尤其是在生成合成數據時,需要大量的計算資源,正如我們在關於規模定律的文章中所提到的。

此外,深度求索使用的部分數據似乎來自 OpenAI的模型,我們認為這可能會對輸出數據提取相關政策產生影響。從服務條款來看,這種數據提取行為已經屬於違規。未來,一種類似「了解你的客戶」(KYC)的機制可能會出現,以杜絕此類數據提取行為。

多頭潛在注意力機制(MLA)MLA是深度求索大幅降低推理成本的關鍵創新。它能將每次查詢所需的 KV緩存減少約90%(相較於標準注意力機制)。KV緩存是 Transformer模型中的一種記憶體機制,用於存儲對話上下文數據,減少不必要的計算。

正如我們在規模定律文章中所討論的,隨著對話上下文的增加,KV緩存也會增大,從而帶來顯著的記憶體限制問題。大幅減少每次查詢所需的 KV緩存,意味著每次查詢所需的硬體資源減少,進而降低成本。不過,我們認為深度求索以成本價提供推理服務是為了獲取市場份額,實際上並未盈利。谷歌的 Gemini Flash2.0 Thinking價格更低,而且谷歌不太可能以成本價提供服務。MLA尤其引起了美國許多領先實驗室的關注,它於2024年5月隨深度求索 V2發布。由於 H20相較於 H100具有更高的記憶體頻寬和容量,深度求索在使用 H20進行推理工作負載時效率更高。他們還宣布與華為建立合作關係,但目前在昇騰計算方面的合作成果尚不明顯。

我們認為,MLA對利潤率的影響最為值得關注,這對整個生態系統意義重大。以下是我們對未來人工智慧行業定價結構的展望,同時詳細闡述了為何認為深度求索在補貼價格,以及傑文斯悖論初現端倪的原因。此外,我們還將探討出口管制的影響、中國政府可能對深度求索日益增長的主導地位做出的反應等問題。

對利潤率的廣泛影響在利潤率方面,有一個關鍵發現:R1並非從技術層面削弱了 o1的進展,而是以更低的價格實現了相當的能力。這在本質上是合理的,現在我們引入一個關於未來定價機制的框架。

提升能力能夠帶來更高的利潤率。這與半導體製造行業的發展極為相似,台積電率先進入新節點(實現新能力)時,由於創造出了前所未有的產品,從而獲得了顯著的定價權。

其他落後的競爭對手(如三星、英特爾)為了在性價比上達到平衡,會以低於領先者的價格提供產品。對晶片製造商(在此類比為人工智慧實驗室)而言,幸運的是他們可以調整產能。如果在新模型上能夠實現更高的性價比,他們就可以將產能轉移到新模型的生產上。舊型號仍會得到支持,但供應量會減少。這與當前人工智慧實驗室的實際情況以及半導體製造行業的規律高度吻合。

能力的商品化與對更強能力的不懈追求這或許就是能力競爭的未來走向。率先達到新的能力層級,將獲得可觀的定價溢價;而那些迅速跟上的參與者,只能獲得微薄利潤。處於能力層級下游的產品,如果能滿足特定用例的需求,仍會繼續存在。每一代能夠追趕上領先能力的參與者將越來越少。

我們見證的是,R1達到了領先的能力水平,卻以零利潤率定價。這種巨大的價格差異引發了一個問題:為什麼 OpenAI的產品如此昂貴?這是因為他們基於最前沿的技術定價,並享受著前沿技術帶來的溢價。

我們認為,未來的發展將比領先的晶片製造動態更快。追逐最新的能力意味著持續的定價權(例如 ChatGPT Pro),而落後的能力則意味著更低的定價,此時利潤主要來源於為令牌服務的基礎設施。

鑑於我們正處於快速的技術周期中,為追求領先的能力,產品更新換代的速度也會加快。只要你能不斷拓展能力,開發出創造價值的新功能,就理應獲得定價權;否則,在開放模型市場中,你很快就會面臨產品同質化的問題。

我們認為,在這種背景下,人們對當前發生的事情存在根本性的誤解。我們所描述的情況類似於超高速發展的晶片製造行業,這是世界上資本密集度最高的行業。全球沒有哪個行業在研發上的投入比晶片製造行業更多,但與之最相似的現實情況卻被認為對支持模型公司的晶片產業不利。

將人工智慧令牌與傑文斯悖論相比較,會發現二者有著深刻的歷史相似性。起初,人們並不確定電晶體是否能夠不斷縮小尺寸;而當這一趨勢明確後,整個行業便致力於將互補金屬氧化物半導體(CMOS)技術的尺寸縮小到極致,並在此基礎上構建出各種重要功能。我們目前正處於整合多種思維鏈(CoT)模型和能力的初期階段,就像最初對電晶體進行規模化發展一樣。雖然從技術進步的角度來看,這可能是一個動盪時期,但對英偉達來說卻是有利的。

深度求索補貼推理利潤率實際情況是,市場在尋找一個理由,而他們選擇了這一點。如果深度求索願意接受零利潤率甚至負利潤率,那麼他們的產品價格可能會如此之低,但顯然,提供前沿令牌服務的價格彈性點要高得多。考慮到深度求索正在進行新一輪融資,他們有動機這樣做。

深度求索在推理領域的關鍵切入點上,打破了 OpenAI的領先利潤率。這種領先地位會持續下去嗎?我們認為不會——畢竟一個開放實驗室展示出了封閉實驗室的能力。盡避這一點至關重要,但我們仍需注意,深度求索是一個快速追隨者。

我們確實認為,一個更強大的開放實驗室(深度求索目前是其中的佼佼者)對新興雲服務提供商和服務供應商來說是非常有利的。無論是開放模型還是封閉模型,計算資源的集中化仍然很重要,但如果基於計算資源構建的上層服務免費提供產品,那麼計算資源的價值就有可能提升。更多的資金會流向計算資源領域,而非封閉模型供應商,這意味著支出更多地流向了硬體領域。軟體企業也能從中受益匪淺。

H100價格飆升——傑文斯悖論的體現我們已經看到了這一理論的早期跡象。自 V3和 R1發布以來,AWS多個地區的 H100 GPU價格上漲,H200也更難獲取。

V3發布後,H100價格大幅上漲,因為 GPU開始以更高的費率實現貨幣化。更低的成本實現更強的智能意味著更多的需求。這與前幾個月 H100現貨價格的低迷形成了鮮明對比。

出口管制的影響、深度求索與中國政府從地緣政治的角度來看,深度求索與西方實驗室在能力方面的對比,以及出口管制的影響,都值得深入思考。目前已經實施的人工智慧擴散管制措施,我們認為不會取消。有消息稱,出口管制因深度求索的發展而失敗,但這是對出口管制機制的誤解。最初,H100被禁止出口,而計算能力相近(但頻寬受限)的 H800被允許出口;隨後,H800也被禁止,現在僅允許 H20出口。我們在《加速器模型》中提到,盡避需求巨大,但英偉達在1月份取消了大量 H20訂單,這可能預示著美國即將出台新的禁令。

在這些法律的實施過程中存在寬限期,深度求索很可能在這段時間內大量囤積所需晶片。需要注意的是,H100自發布以來就被禁止出口。從這個角度來看,出口管制未能完全限制高性能晶片的供應。出口管制的目的並非完全切斷中國獲取晶片的渠道,而是對整個生態系統進行嚴格限制,意味著限制數十萬甚至數百萬晶片的供應,而不僅僅是數萬個。

然而,我們預計未來 H20也將被禁止出口,這將進一步限制深度求索獲取晶片的能力。

而他們對晶片的需求十分迫切。

深度求索的產能限制深度求索難以滿足急劇增長的需求。盡避他們擁有世界上最出色的推理技術之一,但進行架構研發、訓練模型,與為數千萬用戶提供可靠服務是截然不同的挑戰。深度求索的註冊服務時常關閉,即便開放註冊時,R1的響應速度也極慢(不過巧妙的用戶體驗設計掩蓋了這一問題)。

我們本月看到的模型受之前出口管制的影響,存在一定滯後性。隨著時間推移,深度求索在擴展模型和服務能力方面將面臨越來越大的困難。擴展能力迫在眉睫,中國也深知這一點。

在與深度求索的執行長兼創始人會面後的第二天,中國銀行宣布未來5年將為人工智慧產業鏈提供1400億美元(1萬億元人民幣)的補貼。該補貼的明確目標是助力中國在科技領域實現完全自主,涵蓋基礎研究、產業應用和開發等方面。人工智慧與機器人、生物科技和新材料是重點關注領域。此外,補貼還包括計算基礎設施和數據中心建設,以及為第一代技術設備提供保險和風險管理支持。

我們認為,未來出口管制的影響將更加顯著:算法和硬體都將不斷進步,美國的實驗室能夠利用這些創新成果進行擴展,達到中國難以企及的高度。雖然中國可能仍會推出與美國實驗室相媲美的模型,但將繼續處於追趕地位。

我們也認為,從長期來看,深度求索有可能不再開源模型,尤其是在中國政府對其工作給予更多關注,並致力於保護算法創新的情況下。

責任編輯: 方尋  來源:傅立葉的貓/基本常識 轉載請註明作者、出處並保持完整。

本文網址:https://tw.aboluowang.com/2025/0201/2168825.html