新聞 > 科教 > 正文

蘋果300億參數大模型首亮相 還買了家AI公司

放棄造車後的蘋果,正在加速入局大模型戰爭。

當地時間3月15日,蘋果就披露了兩個關鍵大模型動作。

其中一個值得關注的是蘋果的收購事件。彭博社報導稱,蘋果已經收購了一家加拿大AI初創公司DarwinAI。

蘋果的AI團隊一下子擴充了幾十個技術人員——作為收購交易的一部分,DarwinAI的幾十名員工都被納入蘋果麾下,DarwinAI聯合創始人、加拿大滑鐵盧大學系統設計工程系教授Alexander Wong加盟蘋果,擔任AI團隊的主管。

此前,DarwinAI的技術主要在視覺模型方向,他們此前主要給製造業提供零部件視覺檢測的AI技術,致力於把AI系統打造得更小型和更快速。這符合此前蘋果一直對外說的要打造更小的端側大模型方向。

「買買買」是蘋果布局AI的思路之一,此前蘋果已經陸續收購了Voysis、Curious AI、 AI Music、WaveOne等初創AI公司,來不斷擴充自身的AI實力。

踐行收購戰略的同時,蘋果也在不斷加大自研技術的力度。被披露收購DarwinAI的同一時間,蘋果低調的在arxiv.org網站上發布論文,官宣了在多模態大模型領域的最新成果。

在論文《MM1: Methods, Analysis& Insights from Multimodal LLM Pre-training》(MM1:多模式LLM預訓練的方法、分析和見解)中可以看到,MM1是一個圖文的多模態大模型,參數規模有30億、70億、300億三種大小,有圖像識別和自然語言推理能力。

其中,參與該論文的作者有30人,一半以上都是華人。

MM1測試效果不如Gemini和GPT4V

和市面上其他大模型相比,MM1亮點並不在驚艷的效果上,也沒有提出特別的技術路線,而是通過控制各種變量,做實驗,找出影響模型效果中關鍵因素。

在測試中,MM1-30B-Chat在TextVQA、SEED和MMMU上的表現優於Emu2-Chat37B和CogVLM-30B,但是表現不如谷歌的Gemini和OpenAI的GPT4V。

蘋果做了各種變量實驗,通過修改數據源、修改圖像解析度等,來看各種因素對模型效果的影響。

目前,蘋果發現讓多模態大模型變得更聰明、效果更好的主要因素有:

圖像解析度和圖像標記數量對模型性能影響較大,比如更高清的圖像,標註的細節越多,模型的效果就更好。

視覺語言連接器對模型的影響較小,視覺語言連接器指的是可以將圖像和文本結合起來,進行信息融合的一種技術。論文中也提到,雖然影響不大,但仍然需要選擇合適的視覺語言連接器。

不同類型的預訓練數據對模型的性能有不同的影響。交錯的圖像文本數據和文本數據對於提高模型的少樣本(few-shot)和零樣本(zero-shot)性能至關重要,類似在訓練時,需要使用「多樣化的教材」可以幫助大模型更好地適應不同類型的問題。

模型的架構和訓練過程,包括模型大小和訓練超參數的選擇,對於模型性能很重要,可以理解為在「建造大模型大樓」的過程中,需要選擇「合適的建築材料」和「施工方法」。

模型架構上,使用了混合專家(Mixture of Experts, MoE)架構是MM1的亮點之一,蘋果探索發現,在模型的前饋網絡層中使用MoE架構,可以有效地擴展模型的容量而不犧牲推理速度。

我們可以將MoE架構理解為一個大型的客服中心,其中有許多專門處理不同問題的專家——有的專家專門處理技術問題,有的專家處理帳單查詢,還有的專家負責解答產品使用問題。在大模型訓練過程中,當數據進入模型中後,大模型會像「客服中心」一樣,根據問題的性質被分配給最合適的專家來解決。

在實驗過程中,蘋果採用了一種名為Top-2 Gating的方法,來做「調度員」,根據圖像的內容和文本語義等數據特點,來決定輸入數據應該被送往哪些專家處理。在處理數據過程中,蘋果還採用了一種叫「稀疏激活」的方式,只選擇一部分「專家」進行計算,其餘處於「休眠」狀態,來提高模型訓練的效率。

此外,在訓練大模型過程中,蘋果還在3B參數的MoE模型中使用了64個專家,在7B參數的MoE模型中使用了32個專家。這些專家被分布在模型的不同層中,來提高模型處理多模態數據的能力。

為什麼蘋果要發布這樣一篇實驗性的技術論文?

目前,語言模型主要有閉源和開源兩種路線,閉源模型中,人們對數據、模型架構、訓練細節知之甚少。開源模型雖然會發布數據、模型、訓練的細節,但是也不會發布任何模型算法設計以及工程化的細節信息。

蘋果想打破這種局面,提出讓大模型構建的過程變得「更透明」的路線,這是蘋果為什麼將各種模型訓練的細節公開,發布這篇論文的原因。

蘋果的大模型步調:更謹慎,落後於競爭對手

宣布停止造車後,接下來,蘋果的重心都在加速大模型進程上,來追趕谷歌、微軟亞馬遜

目前,整體大模型進展,蘋果對外的信息較少,看上去已經落後其競爭對手一大截。

在年初的蘋果季度財報電話會議上,蒂姆·庫克表示,蘋果正在投入大量時間和精力將人工智慧集成到其軟體平台中。這些功能將在2024年晚些時候向客戶提供。

庫克對於透露蘋果大模型細節非常謹慎,他覺得蘋果工作模式是先做再說,「我認為蘋果在生成式人工智慧和人工智慧方面存在著巨大的機會,而無需透露更多細節或超出自己的範圍。」

據The Information2023年9月的一次報導,蘋果每天在人工智慧上投資數百萬美元,正在多個團隊開發多種人工智慧模型。蘋果構建對話式人工智慧的部門被稱為「基礎模型」,有大約16名成員,由Apple人工智慧主管John Giannandrea掌舵。

對於大眾期待的大模型與蘋果手機結合的業務進展,目前公開的信息也非常有限。去年8月,蘋果在加州、西雅圖、巴黎、北京等部門已經釋放了數十個崗位,招聘大模型技術人才,其中尤其是端側大型模型是重點。招聘信息顯示,蘋果希望將大型機型壓縮到終端中,以便未來iPhone/iPad等核心產品可以直接運行在AIGC技術上。

The Information報導稱,蘋果的大語言模型內部代號是Ajax GPT,其參數規模超過2000億,在2023年9月時,已經比OpenAI的GPT-3.5更強大。

蘋果也正在試驗Siri增強功能、生成視頻和圖像的軟體,以及處理圖像、視頻和文本的多模式人工智慧技術。此前,由於蘋果一直比競爭對手更加謹慎,將隱私置於功能之上,導致Siri落後於Alexa、Google Assistan。接下來,蘋果希望通過大語言模型讓Siri自動執行多步驟任務。

目前,蘋果正在與其AppleCare支持員工一起測試ChatGPT式的生成式AI工具「Ask」,旨在生成對技術問題的答覆。此外,蘋果內部也有「Apple GPT」是蘋果內部的聊天機器人,但該產品僅供蘋果員工使用,不會在消費產品中使用。

The Information和海通證券分析師Jeff Pu均表示,蘋果將在2024年末左右在iPhone和iPad上提供某種生成式AI功能。也有人預測時間會提前,彭博社報導稱,蘋果將在今年6月的全球開發者大會上發布iOS18更新。

這是一份有挑戰的試卷,眼下,蘋果必須加大馬力,駛入這場大模型戰局中。

責任編輯: 李冬琪  來源:36氪 轉載請註明作者、出處並保持完整。

本文網址:https://tw.aboluowang.com/2024/0317/2031220.html