新聞 > 科教 > 正文

說到做到!馬斯克開源Grok:3140億參數巨無霸,免費可商用

馬斯克說到做到旗下大模型Grok現已開源! 代碼和模型權重已上線GitHub。官方信息顯示,此次開源的Grok-1是一個3140億參數的混合專家模型——就是說,這是當前開源模型中參數量最大的一個。

馬斯克說到做到旗下大模型Grok現已開源!

代碼和模型權重已上線GitHub。官方信息顯示,此次開源的Grok-1是一個3140億參數的混合專家模型——就是說,這是當前開源模型中參數量最大的一個。

消息一出,Grok-1的GitHub倉庫已攬獲4.5k標星,並且還在庫庫猛漲。

表情包們,第一時間被吃瓜群眾們熱傳了起來。

ChatGPT本Chat,也現身Grok評論區,開始了和馬斯克新一天的鬥嘴……

那麼,話不多說,來看看馬斯克這波為懟OpenAI,究竟拿出了什麼真東西。

Grok-1說開源就開源

此次開源,xAI發布了Grok-1的基本模型權重和網絡架構。

具體來說是2023年10月預訓練階段的原始基礎模型,沒有針對任何特定應用(例如對話)進行微調。

結構上,Grok-1採用了混合專家(MoE)架構,包含8個專家,總參數量為314B(3140億),處理Token時,其中的兩個專家會被激活,激活參數量為86B。

而ChatGPT本Chat,也現身Grok評論區,開始了和馬斯克新一天的鬥嘴……

單看這激活的參數量,就已經超過了密集模型Llama2的70B,對於MoE架構來說,這樣的參數量稱之為龐然大物也毫不為過。

不過,在GitHub頁面中,官方也提示,由於模型規模較大(314B參數),需要有足夠GPU和記憶體的機器才能運行Grok。

這裡MoE層的實現效率並不高,選擇這種實現方式是為了避免驗證模型的正確性時需要自定義內核。

模型的權重文件則是以磁力連結的形式提供,文件大小接近300GB。

而且這個「足夠的GPU」,要求不是一般的高——YC上有網友推測,如果是8bit量化的話,可能需要8塊H100。

除了參數量前所未有,在工程架構上,Grok也是另闢蹊徑——

沒有採用常見的Python、PyTorch或Tensorflow,而是選用了Rust程式語言以及深度學習框架新秀JAX。

而在官方通告之外,還有許多大佬通過扒代碼等方式揭露了Grok的更多技術細節。

比如來自史丹福大學的Andrew Kean Gao,就針對Grok的技術細節進行了詳細解釋。

首先,Grok採用了使用旋轉的embedding方式,而不是固定位置embedding,旋轉位置的embedding大小為6144,與輸入embedding相同。

當然,還有更多的參數信息:

窗口長度為8192tokens,精度為bf16

Tokenizer vocab大小為131072(2^17),與GPT-4接近;

embedding大小為6144(48×128);

Transformer層數為64,每層都有一個解碼器層,包含多頭注意力塊和密集塊;

key value大小為128;

多頭注意力塊中,有48個頭用於查詢,8個用於KV,KV大小為128;

密集塊(密集前饋塊)擴展因子為8,隱藏層大小為32768。

除了Gao,還有英偉達AI科學家Ethan He(何宜暉)指出,在專家系統的處理方面,Grok也與另一知名開源MoE模型Mixtral不同——

Grok對全部的8個專家都應用了softmax函數,然後從中選擇top2專家,而Mixtral則是先選定專家再應用softmax函數。

而至於有沒有更多細節,可能要看官方會不會發布進一步的消息了。

另外,值得一提的是,Grok-1採用的是Apache2.0 license,也就是說,商用友好。

為懟OpenAI怒而Open

大傢伙知道,馬斯克因為OpenAI不Open,已經向舊金山高等法院提起訴訟,正式把OpenAI給告了。

不過當時馬斯克自己搞的Grok也並沒有開源,還只面向?的付費用戶開放,難免被質疑雙標。

大概是為了堵上這個bug,馬斯克在上周宣布:

本周,xAI將開源Grok。

雖然時間點上似乎又是馬斯克一貫的遲到風格,但xAI的這波Open如今看來確實不是口嗨,還是給了網友們一些小小的震撼。

有xAI新晉員工感慨說:

這將是激動人心的一年,快系好安全帶吧。

有人已經期待起Grok作為一個開源模型,進一步攪動大模型競爭的這一池水。

不過,也並不是每個人都買馬斯克的帳:

不過說歸說,多線並進的馬斯克,最近大事不止開源Grok這一件。

作為多公司、多業務的時間管理大師,馬斯克旗下,特斯拉剛剛全線推出了端到端純視覺的自動駕駛系統FSD V12,所有北美車主用戶,都OTA更新升級,可以實現所有道路場景的任意點到點AI駕駛。

SpaceX則完成了第三次星艦發射,雖然最後功敗垂成,但又史無前例地邁進了一大步。

推特則開源了推薦算法,然後迎來了一波自然流量新高峰。

別人都是 you can you up, no can no bb…馬斯克不一樣,bb up不選擇,邊喊邊干,還都干成了。

責任編輯: 方尋  來源:量子位 轉載請註明作者、出處並保持完整。

本文網址:https://tw.aboluowang.com/2024/0319/2031875.html