蘋果300億參數大模型首亮相還買了家AI公司＊阿波羅新聞網

放棄造車後的蘋果，正在加速入局大模型戰爭。

當地時間3月15日，蘋果就披露了兩個關鍵大模型動作。

其中一個值得關注的是蘋果的收購事件。彭博社報導稱，蘋果已經收購了一家加拿大AI初創公司DarwinAI。

蘋果的AI團隊一下子擴充了幾十個技術人員——作為收購交易的一部分，DarwinAI的幾十名員工都被納入蘋果麾下，DarwinAI聯合創始人、加拿大滑鐵盧大學系統設計工程系教授Alexander Wong加盟蘋果，擔任AI團隊的主管。

此前，DarwinAI的技術主要在視覺模型方向，他們此前主要給製造業提供零部件視覺檢測的AI技術，致力於把AI系統打造得更小型和更快速。這符合此前蘋果一直對外說的要打造更小的端側大模型方向。

「買買買」是蘋果布局AI的思路之一，此前蘋果已經陸續收購了Voysis、Curious AI、 AI Music、WaveOne等初創AI公司，來不斷擴充自身的AI實力。

踐行收購戰略的同時，蘋果也在不斷加大自研技術的力度。被披露收購DarwinAI的同一時間，蘋果低調的在arxiv.org網站上發布論文，官宣了在多模態大模型領域的最新成果。

在論文《MM1: Methods, Analysis& Insights from Multimodal LLM Pre-training》（MM1:多模式LLM預訓練的方法、分析和見解）中可以看到，MM1是一個圖文的多模態大模型，參數規模有30億、70億、300億三種大小，有圖像識別和自然語言推理能力。

其中，參與該論文的作者有30人，一半以上都是華人。

MM1測試效果不如Gemini和GPT4V

和市面上其他大模型相比，MM1亮點並不在驚艷的效果上，也沒有提出特別的技術路線，而是通過控制各種變量，做實驗，找出影響模型效果中關鍵因素。

在測試中，MM1-30B-Chat在TextVQA、SEED和MMMU上的表現優於Emu2-Chat37B和CogVLM-30B，但是表現不如谷歌的Gemini和OpenAI的GPT4V。

蘋果做了各種變量實驗，通過修改數據源、修改圖像解析度等，來看各種因素對模型效果的影響。

目前，蘋果發現讓多模態大模型變得更聰明、效果更好的主要因素有：

圖像解析度和圖像標記數量對模型性能影響較大，比如更高清的圖像，標註的細節越多，模型的效果就更好。

視覺語言連接器對模型的影響較小，視覺語言連接器指的是可以將圖像和文本結合起來，進行信息融合的一種技術。論文中也提到，雖然影響不大，但仍然需要選擇合適的視覺語言連接器。

不同類型的預訓練數據對模型的性能有不同的影響。交錯的圖像文本數據和文本數據對於提高模型的少樣本（few-shot）和零樣本（zero-shot）性能至關重要，類似在訓練時，需要使用「多樣化的教材」可以幫助大模型更好地適應不同類型的問題。

模型的架構和訓練過程，包括模型大小和訓練超參數的選擇，對於模型性能很重要，可以理解為在「建造大模型大樓」的過程中，需要選擇「合適的建築材料」和「施工方法」。

模型架構上，使用了混合專家（Mixture of Experts, MoE）架構是MM1的亮點之一，蘋果探索發現，在模型的前饋網絡層中使用MoE架構，可以有效地擴展模型的容量而不犧牲推理速度。

我們可以將MoE架構理解為一個大型的客服中心，其中有許多專門處理不同問題的專家——有的專家專門處理技術問題，有的專家處理帳單查詢，還有的專家負責解答產品使用問題。在大模型訓練過程中，當數據進入模型中後，大模型會像「客服中心」一樣，根據問題的性質被分配給最合適的專家來解決。

在實驗過程中，蘋果採用了一種名為Top-2 Gating的方法，來做「調度員」，根據圖像的內容和文本語義等數據特點，來決定輸入數據應該被送往哪些專家處理。在處理數據過程中，蘋果還採用了一種叫「稀疏激活」的方式，只選擇一部分「專家」進行計算，其餘處於「休眠」狀態，來提高模型訓練的效率。

此外，在訓練大模型過程中，蘋果還在3B參數的MoE模型中使用了64個專家，在7B參數的MoE模型中使用了32個專家。這些專家被分布在模型的不同層中，來提高模型處理多模態數據的能力。

為什麼蘋果要發布這樣一篇實驗性的技術論文？

目前，語言模型主要有閉源和開源兩種路線，閉源模型中，人們對數據、模型架構、訓練細節知之甚少。開源模型雖然會發布數據、模型、訓練的細節，但是也不會發布任何模型算法設計以及工程化的細節信息。

蘋果想打破這種局面，提出讓大模型構建的過程變得「更透明」的路線，這是蘋果為什麼將各種模型訓練的細節公開，發布這篇論文的原因。

蘋果的大模型步調：更謹慎，落後於競爭對手

宣布停止造車後，接下來，蘋果的重心都在加速大模型進程上，來追趕谷歌、微軟、亞馬遜。

目前，整體大模型進展，蘋果對外的信息較少，看上去已經落後其競爭對手一大截。

在年初的蘋果季度財報電話會議上，蒂姆·庫克表示，蘋果正在投入大量時間和精力將人工智慧集成到其軟體平台中。這些功能將在2024年晚些時候向客戶提供。

庫克對於透露蘋果大模型細節非常謹慎，他覺得蘋果工作模式是先做再說，「我認為蘋果在生成式人工智慧和人工智慧方面存在著巨大的機會，而無需透露更多細節或超出自己的範圍。」

據The Information2023年9月的一次報導，蘋果每天在人工智慧上投資數百萬美元，正在多個團隊開發多種人工智慧模型。蘋果構建對話式人工智慧的部門被稱為「基礎模型」，有大約16名成員，由Apple人工智慧主管John Giannandrea掌舵。

對於大眾期待的大模型與蘋果手機結合的業務進展，目前公開的信息也非常有限。去年8月，蘋果在加州、西雅圖、巴黎、北京等部門已經釋放了數十個崗位，招聘大模型技術人才，其中尤其是端側大型模型是重點。招聘信息顯示，蘋果希望將大型機型壓縮到終端中，以便未來iPhone/iPad等核心產品可以直接運行在AIGC技術上。

The Information報導稱，蘋果的大語言模型內部代號是Ajax GPT，其參數規模超過2000億，在2023年9月時，已經比OpenAI的GPT-3.5更強大。

蘋果也正在試驗Siri增強功能、生成視頻和圖像的軟體，以及處理圖像、視頻和文本的多模式人工智慧技術。此前，由於蘋果一直比競爭對手更加謹慎，將隱私置於功能之上，導致Siri落後於Alexa、Google Assistan。接下來，蘋果希望通過大語言模型讓Siri自動執行多步驟任務。

目前，蘋果正在與其AppleCare支持員工一起測試ChatGPT式的生成式AI工具「Ask」，旨在生成對技術問題的答覆。此外，蘋果內部也有「Apple GPT」是蘋果內部的聊天機器人，但該產品僅供蘋果員工使用，不會在消費產品中使用。

The Information和海通證券分析師Jeff Pu均表示，蘋果將在2024年末左右在iPhone和iPad上提供某種生成式AI功能。也有人預測時間會提前，彭博社報導稱，蘋果將在今年6月的全球開發者大會上發布iOS18更新。

這是一份有挑戰的試卷，眼下，蘋果必須加大馬力，駛入這場大模型戰局中。

責任編輯： 李冬琪 　來源：36氪轉載請註明作者、出處並保持完整。