新聞 > 科教 > 正文

☕列印版 ◪圖片版 ◫PDF

說到做到！馬斯克開源Grok：3140億參數巨無霸，免費可商用

【阿波羅新聞網 2024-03-19 訊】

馬斯克說到做到旗下大模型Grok現已開源！代碼和模型權重已上線GitHub。官方信息顯示，此次開源的Grok-1是一個3140億參數的混合專家模型——就是說，這是當前開源模型中參數量最大的一個。

馬斯克說到做到旗下大模型Grok現已開源！

代碼和模型權重已上線GitHub。官方信息顯示，此次開源的Grok-1是一個3140億參數的混合專家模型——就是說，這是當前開源模型中參數量最大的一個。

消息一出，Grok-1的GitHub倉庫已攬獲4.5k標星，並且還在庫庫猛漲。

表情包們，第一時間被吃瓜群眾們熱傳了起來。

而ChatGPT本Chat，也現身Grok評論區，開始了和馬斯克新一天的鬥嘴……

那麼，話不多說，來看看馬斯克這波為懟OpenAI，究竟拿出了什麼真東西。

Grok-1說開源就開源

此次開源，xAI發布了Grok-1的基本模型權重和網絡架構。

具體來說是2023年10月預訓練階段的原始基礎模型，沒有針對任何特定應用（例如對話）進行微調。

結構上，Grok-1採用了混合專家（MoE）架構，包含8個專家，總參數量為314B（3140億），處理Token時，其中的兩個專家會被激活，激活參數量為86B。

而ChatGPT本Chat，也現身Grok評論區，開始了和馬斯克新一天的鬥嘴……

單看這激活的參數量，就已經超過了密集模型Llama2的70B，對於MoE架構來說，這樣的參數量稱之為龐然大物也毫不為過。

不過，在GitHub頁面中，官方也提示，由於模型規模較大（314B參數），需要有足夠GPU和記憶體的機器才能運行Grok。

這裡MoE層的實現效率並不高，選擇這種實現方式是為了避免驗證模型的正確性時需要自定義內核。

模型的權重文件則是以磁力連結的形式提供，文件大小接近300GB。

而且這個「足夠的GPU」，要求不是一般的高——YC上有網友推測，如果是8bit量化的話，可能需要8塊H100。

除了參數量前所未有，在工程架構上，Grok也是另闢蹊徑——

沒有採用常見的Python、PyTorch或Tensorflow，而是選用了Rust程式語言以及深度學習框架新秀JAX。

而在官方通告之外，還有許多大佬通過扒代碼等方式揭露了Grok的更多技術細節。

比如來自史丹福大學的Andrew Kean Gao，就針對Grok的技術細節進行了詳細解釋。

首先，Grok採用了使用旋轉的embedding方式，而不是固定位置embedding，旋轉位置的embedding大小為6144，與輸入embedding相同。

當然，還有更多的參數信息：

窗口長度為8192tokens，精度為bf16

Tokenizer vocab大小為131072（2^17），與GPT-4接近；

embedding大小為6144（48×128）；

Transformer層數為64，每層都有一個解碼器層，包含多頭注意力塊和密集塊；

key value大小為128；

多頭注意力塊中，有48個頭用於查詢，8個用於KV，KV大小為128；

密集塊（密集前饋塊）擴展因子為8，隱藏層大小為32768。

除了Gao，還有英偉達AI科學家Ethan He（何宜暉）指出，在專家系統的處理方面，Grok也與另一知名開源MoE模型Mixtral不同——

Grok對全部的8個專家都應用了softmax函數，然後從中選擇top2專家，而Mixtral則是先選定專家再應用softmax函數。

而至於有沒有更多細節，可能要看官方會不會發布進一步的消息了。

另外，值得一提的是，Grok-1採用的是Apache2.0 license，也就是說，商用友好。

為懟OpenAI怒而Open

大傢伙知道，馬斯克因為OpenAI不Open，已經向舊金山高等法院提起訴訟，正式把OpenAI給告了。

不過當時馬斯克自己搞的Grok也並沒有開源，還只面向?的付費用戶開放，難免被質疑雙標。

大概是為了堵上這個bug，馬斯克在上周宣布：

本周，xAI將開源Grok。

雖然時間點上似乎又是馬斯克一貫的遲到風格，但xAI的這波Open如今看來確實不是口嗨，還是給了網友們一些小小的震撼。

有xAI新晉員工感慨說：

這將是激動人心的一年，快系好安全帶吧。

有人已經期待起Grok作為一個開源模型，進一步攪動大模型競爭的這一池水。

不過，也並不是每個人都買馬斯克的帳：

不過說歸說，多線並進的馬斯克，最近大事不止開源Grok這一件。

作為多公司、多業務的時間管理大師，馬斯克旗下，特斯拉剛剛全線推出了端到端純視覺的自動駕駛系統FSD V12，所有北美車主用戶，都OTA更新升級，可以實現所有道路場景的任意點到點AI駕駛。

SpaceX則完成了第三次星艦發射，雖然最後功敗垂成，但又史無前例地邁進了一大步。

推特則開源了推薦算法，然後迎來了一波自然流量新高峰。

別人都是 you can you up, no can no bb…馬斯克不一樣，bb up不選擇，邊喊邊干，還都干成了。

責任編輯：方尋　來源：量子位轉載請註明作者、出處並保持完整。

本文網址：https://tw.aboluowang.com/2024/0319/2031875.html

相關新聞