最強AI晶片發布＊阿波羅新聞網

今天，晶片初創公司 Cerebras Systems 推出了全新的 Wafer Scale Engine 3，病將其現有的最快 AI 晶片世界紀錄加倍。

據介紹，在相同的功耗和相同的價格下，WSE - 3 的性能是之前的記錄保持者 Cerebras WSE-2 的兩倍。基於 5nm 的 4 萬億電晶體 WSE-3 專為訓練業界最大的 AI 模型而構建，為 Cerebras CS-3 AI 超級計算機提供動力，通過 900,000 個 AI 優化計算核心提供 125 petaflops 的峰值 AI 性能。

Cerebras Systems 表示，這款新器件使用台積電的 5nm 工藝打造，包含 4 萬億個電晶體；90 萬個 AI 核心；44GB 片上 SRAM；；外部記憶體為 1.5TB、12TB 或 1.2PB；峰值性能為 125 FP16 PetaFLOPS。Ceberas 的 WSE-3 將用於訓練一些業界最大的人工智慧模型，能訓練多達 24 萬億個參數的 AI 模型；其打造的集群規模高達 2048 個 CS-3 系統。

值得一提的是，當 Cerebras 提到記憶體時，他們談論的更多的是 SRAM，而不是片外 HBM3E 或 DDR5。記憶體與核心一起分布，目的是使數據和計算儘可能接近。

為了展示這顆新晶片的規模，Cerebras 還將其與英偉達的 H100 進行了對比。

除了將這款巨型晶片推向市場之外，Cerebras 取得成功的原因之一是它所做的事情與 NVIDIA 不同。NVIDIA、AMD、英特爾等公司採用大型台積電晶圓並將其切成更小的部分來製造晶片，而 Cerebras 將晶圓保留在一起。在當今的集群中，可能有數以萬計的 GPU 或 AI 加速器來處理一個問題，將晶片數量減少 50 倍以上可以降低互連和網絡成本以及功耗。在具有 Infiniband、乙太網、PCIe 和 NVLink 交換機的 NVIDIA GPU 集群中，大量的電力和成本花費在重新連結晶片上。Cerebras 通過將整個晶片保持在一起來解決這個問題。憑藉 WSE-3，Cerebras 可以繼續生產世界上最大的單晶片。它呈正方形，邊長為 21.5 厘米，幾乎使用整個 300 毫米矽片來製造一個晶片。

最強AI晶片發布

你可以在 WSE 晶片的相繼推出中看到摩爾定律的作用。第一個於 2019 年首次亮相，採用台積電的 16 奈米技術製造。對於 2021 年推出的 WSE-2，Cerebras 轉而採用台積電的 7 奈米工藝。WSE-3 採用這家代工巨頭的 5 奈米技術製造。

自第一個巨型晶片問世以來，電晶體的數量增加了兩倍多。與此同時，它們的用途也發生了變化。例如，晶片上的人工智慧核心數量已顯著趨於平穩，記憶體量和內部頻寬也是如此。儘管如此，每秒浮點運算（flops）方面的性能改進已經超過了所有其他指標。

需要注意的一點是，Cerebras 使用片上記憶體，而不是 NVIDIA 的封裝記憶體，因此我們不會以 H100 上的 80GB HBM3 為例。

最新的 Cerebras 軟體框架為 PyTorch 2.0 和最新的 AI 模型和技術（如多模態模型、視覺轉換器、專家混合和擴散）提供原生支持。Cerebras 仍然是唯一為動態和非結構化稀疏性提供本機硬體加速的平台，將訓練速度提高了 8 倍。

您可能已經看到 Cerebras 表示其平台比 NVIDIA 的平台更易於使用。造成這種情況的一個重要原因是 Cerebras 存儲權重和激活的方式，並且它不必擴展到系統中的多個 GPU，然後擴展到集群中的多個 GPU 伺服器。

除了代碼更改很容易之外，Cerebras 表示它的訓練速度比 Meta GPU 集群更快。當然，目前這似乎是理論上的 Cerebras CS-3 集群，因為我們沒有聽說有任何 2048 個 CS-3 集群啟動並運行，而 Meta 已經有了 AI GPU 集群。

總體而言，這裡發生了很多事情，但我們知道的一件事是，如今越來越多的人使用基於 NVIDIA 的集群。

Cerebras Systems 進一步指出，由於每個組件都針對 AI 工作進行了優化，CS-3 比任何其他系統都能以更小的空間和更低的功耗提供更高的計算性能。雖然 GPU 功耗逐代翻倍，但 CS-3 的性能翻倍，但功耗保持不變。CS-3 具有卓越的易用性，與適用於大模型的 GPU 相比， CS-3 需要的代碼減少 97% ，並且能夠在純數據並行模式下訓練從 1B 到 24 T 參數的模型。GPT -3 大小的模型的標準實現在 Cerebras 上只需要 565 行代碼——這同樣也是行業記錄。

一個龐大的系統，冷卻超乎想像

Cerebras CS-3 是第三代 Wafer Scale 系統。其頂部具有 MTP/MPO 光纖連接，以及用於冷卻的電源、風扇和冗餘泵。

Cerebras Systems 在新聞稿中指出，如上所述，CS-3 擁有高達 1.2 PB 的巨大記憶體系統，旨在訓練比 GPT-4 和 Gemini 大 10 倍的下一代前沿模型。24 萬億參數模型可以存儲在單個邏輯記憶體空間中，無需分區或重構，從而極大地簡化了訓練工作流程並提高了開發人員的工作效率。在 CS-3 上訓練一萬億參數模型就像在 GPU 上訓練十億參數模型一樣簡單。

CS-3 專為滿足企業和超大規模需求而打造。緊湊的四系統配置可以在一天內微調 70B 模型，而使用 2048 個系統進行全面調整，Llama 70B 可以在一天內從頭開始訓練——這對於生成 AI 來說是前所未有的壯舉。

Cerebras 需要為巨型晶片提供電力、數據和冷卻，同時還要管理相對較大區域的熱膨脹等問題。這是該公司的另一項重大工程勝利。晶片內部採用液體冷卻，熱量可以通過風扇或設施水排出。

該系統及其新晶片在相同的功耗和價格下實現了大約 2 倍的性能飛躍。從第一代的 16 奈米到如今的 5 奈米，Cerebras 從每個工藝步驟中都獲得了巨大的優勢。

與具有八個 NVIDIA H100 GPU 以及內部 NVSwitch 和 PCIe 交換機的 NVIDIA DGX H100 系統相比，它只是一個更大的構建塊。

這是帶有 Supermicro 1U 伺服器的 CS-3。

這是另一個使用 Supermciro 1U 伺服器拍攝的 Cerebras 集群。Cerebras 通常使用 AMD EPYC 來獲得更高的核心數量，但也可能是因為 Cerebras 團隊的很多成員來自被 AMD 收購的 SeaMicro。

我們在這次疊代中注意到的一點是，Cerebras 也有 HPE 伺服器的解決方案。這有點奇怪，因為一般來說，Supermicro BigTwin 比 HPE 的 2U 4 節點產品領先一步。

看待 Cerebras CS-2/CS-3 的一種方式是，它們是巨大的計算機器，但許多數據預處理、集群級任務等都發生在傳統的 x86 計算上，以提供優化的人工智慧晶片。

由於這是一個液冷數據中心，因此風冷 HPE 伺服器配備了來自 Legrand 子品牌 ColdLogik 的後門熱交換器設置。

這是 Cerebras 如何利用液冷設施的一個很好的例子，但它不必為每個伺服器節點配備冷板。

這一代的一大特點是更大的集群，多達 2048 個 CS-3，可實現高達 256 exaFLOPs 的 AI 計算。

12PB 記憶體是一款高端超大規模 SKU，專為快速訓練 GPT-5 尺寸模型而設計。Cerebras 還可以縮小到類似於單個 CS-2 的規模，並支持伺服器和網絡。

部分記憶體不僅是片上記憶體（44GB），還包括支持伺服器中的記憶體。

因此，Cerebras 集群可以訓練比以前更大的模型。

關於整個系統，在 SC22 的時候，該公司就曾基於 Cerebras CS-2 的系統展示了看起來像一堆金屬的東西，其中有一些印刷電路板伸出來。該公司稱其為發動機組（Engine Block）。在 Cerebras 看來，這是一項巨大的工程壯舉。弄清楚如何封裝、供電和冷卻大型晶片是一個關鍵的工程挑戰。讓代工廠製造特殊的晶圓是一回事。讓晶圓開機、不過熱並做有用的工作是另一回事。

這是另一邊的樣子。

當我們談論由於密度而必須轉向液體冷卻的伺服器時，我們談論的是 2kW/U 伺服器或可能具有 8x 800W 或 8x 1kW 部件的加速器托盤。對於 WSE/WSE-2，所有電力和冷卻都需要傳輸到單個大晶圓上，這意味著即使是不同材料的熱膨脹率等因素也很重要。另一個含義是，實際上該組件上的所有部件都採用液冷方式。

最上面一排木板非常密集。展位上的 Cerebras 代表告訴我，這些是電源，這是有道理的，因為我們看到它們的連接器密度相對較低。

Cerebras Condor Galaxy 的更新

在去年七月，Cerebras 宣布其 CS-2 系統取得重大勝利。它擁有一台價值 1 億美元的人工智慧超級計算機，正在與阿布達比的 G42 一起使用。這裡的關鍵是，這不僅僅是一個 IT 合作夥伴，也是一個客戶。

當前的第一階段有 32 個 CS-2 和超過 550 個 AMD EPYC 7003 「 Milan 」 CPU（註：Cerebras 執行長 Andrew Feldman 告訴我他們正在使用 Milan），只是為了向 Cerebras CS-2 提供數據。如今，32 個 GPU 相當於四個 NVIDIA DGX H100 系統，而 32 個 Cerebras CS-2 就像 32 個 NVIDIA DGX H100 集群，每個集群都位於單晶片上，並在大晶片上進行互連。這更像是數百個（如果不是更多）DGX H100 系統，而這只是第一階段。

在第二階段，加利福尼亞州聖克拉拉 / 科洛沃的安裝量預計將在 10 月份增加一倍。

除了 Condor Galaxy 1，還有另一個集群，即 Condor Galaxy 2，現已在 G42 上啟動並運行。

新的 Condor Galaxy 3 是達拉斯集群，它將使用新的 5nm WSE-3 和 CS-3 進行計算。

據介紹，Condor Galaxy 3 將由 64 個 CS-3 系統構建，產生 8 exa FLOP 的 AI 計算，這是世界上最大的 AI 超級計算機之一。Condor Galaxy 3 是 Condor Galaxy 網絡中的第三個安裝。Cerebras G42 戰略合作夥伴關係旨在提供數十 exaFLOPs 的人工智慧計算能力。Condor Galaxy 訓練了一些業界領先的開源模型，包括 Jais - 30B、Med42、Crystal-Coder - 7B 和 BTLM- 3B -8K 。

這些是目前位於美國聖克拉拉、斯托克頓和達拉斯的集群，但計劃是再建造至少六個。

這些集群的總價值應超過 10 億美元，並於 2024 年完工。除了 10 億美元的交易價值外，Cerebras 告訴我們，它們目前供應有限，因此對 WSE-3 的需求是存在的。

值得一提的是，雖然 Cerebras 專注於推理訓練，但它宣布與高通建立合作夥伴關係，以使用高通的傳統人工智慧推理加速器。

雖然 Cerebras 計算機是為訓練而構建的，但 Cerebras 執行長安德魯 · 費爾德曼 ( Andrew Feldman ) 表示，推理、神經網絡模型的執行才是人工智慧採用的真正限制。據 Cerebras 估計，如果地球上每個人都使用 ChatGPT，每年將花費 1 萬億美元，更不用說大量的化石燃料能源了。（營運成本與神經網絡模型的規模和用戶數量成正比。）

因此，Cerebras 和高通建立了合作夥伴關係，目標是將推理成本降低 10 倍。Cerebras 表示，他們的解決方案將涉及應用神經網絡技術，例如權重數據壓縮和稀疏性（修剪不需要的連接）。該公司表示，經過 Cerebras 訓練的網絡將在高通公司的新型推理晶片 AI 100 Ultra 上高效運行。

寫在最後

Cerebras Wafer Scale Engine 系列仍然是一項出色的工程設計。此次發布的一個重要內容是 5nm WSE-3 已經問世。最酷的事情之一是 Cerebras 從流程進步中獲得了巨大的進步。

我們知道 AMD MI300X 今年的收入將輕鬆超過 10 億美元。Cerebras 預計收入將超過 10 億美元，假設它正在銷售整個集群，而不僅僅是價值數百萬美元的 CS-3 盒子。NVIDIA 將於下周在 GTC 上詳細討論 NVIDIA H200 和下一代 NVIDIA B100 時出售 10 億美元的硬體。我們將收到英特爾 Gaudi3 的最新消息，但我們已經聽到一些人分享了 2024 年九位數的銷售預測 Cerebras 可能是唯一一家專注於培訓、在收入方面與大型晶片製造商競爭的公司。

「八年前，當我們開始這一旅程時，每個人都說晶圓級處理器是一個白日夢。我們非常自豪能夠推出第三代突破性水秤人工智慧晶片。」 Cerebras 執行長兼聯合創始人 Andrew Feldman ) 說道。「 WSE-3 是世界上最快的 AI 晶片，專為最新的尖端 AI 工作而設計，從專家混合到 24 萬億個參數模型。我們很高興將 WSE-3 和 CS-3 推向市場，以幫助解決當今最大的人工智慧挑戰。」

讓我們期待 Cerebras 2025 年下半年發布 WSE-4 帶來的驚喜。

責任編輯： 李冬琪 　來源：ZAKER科技轉載請註明作者、出處並保持完整。