劃重點:
谷歌DeepMind團隊發布了基礎世界模型Genie的升級版,它僅需一張提示圖像就能生成豐富多樣的3D世界。
Genie2能夠模擬出動作可控、極具可玩性的逼真3D虛擬世界,幫助訓練和評估通用AI智能體。
無論是智能體的行為邏輯,還是環境的生成能力,研究團隊認為Genie2都存在著巨大的提升空間。
今年2月份,谷歌DeepMind團隊隆重推出了全新人工智慧基礎世界模型Genie。與過往專注於世界構建的傳統模型有所不同,Genie為用戶提供了前所未有的交互體驗,支持用戶藉助文本、合成圖像、照片乃至草圖等手段,創造出可玩性強的互動式環境和可控的虛擬世界。
隨著2024年步入尾聲,谷歌DeepMind團隊再度發力,於北京時間12月4日深夜發布了Genie的升級版Genie2。以下是該團隊所發博文:
01 構建通用AI智能體的無限訓練環境
今天,我們隆重介紹Genie2,這是一款基礎世界模型,能夠生成各類動作可控、極具可玩性的3D環境,專為訓練和評估通用AI智能體而設計。僅需一張提示圖像,Genie2便可通過人類或AI智能體使用鍵盤及滑鼠輸入進行操控。
在人工智慧研究領域,遊戲始終扮演著舉足輕重的角色。憑藉其引人入勝的特質、獨特的挑戰組合以及可量化的進步指標,遊戲成為了安全測試與推動人工智慧能力發展的理想平台。
事實上,自我們團隊成立以來,遊戲始終是谷歌DeepMind研究的核心。從早期與雅達利合作,到AlphaGo和AlphaStar取得突破性進展,再到與遊戲開發者攜手探索通用智能體的研究,遊戲始終貫穿於我們的研究歷程。然而,訓練更多通用AI智能體一直受限於傳統瓶頸,即缺乏足夠豐富且多樣化的訓練環境。
正如我們所展現的,Genie2能夠為未來的智能體提供無限的新世界課程,以供其進行訓練和評估。此外,我們的研究還為創新工作流程中的原型交互體驗鋪平了道路。
02 基礎世界模型的新能力:生成3D世界
過去,世界模型的應用往往局限於對特定領域的建模,其範圍相對狹窄。而在Genie1中,我們已初步探索了一種生成多樣化2D世界的方法。今天,我們推出了Genie2,它代表著世界模型領域的一次重大飛躍。Genie2不僅延續了前代的優勢,更在此基礎上實現了向3D世界的拓展。
Genie2作為一個先進的世界模型,其核心價值在於能夠模擬出極具真實感的虛擬世界。在這個世界中,用戶可以自由地採取各種行動,如跳躍、游泳等,並實時觀察到這些行動所帶來的後果。Genie2是在大規模視頻數據集上的訓練的。與其他生成模型相比,Genie2在規模上展現出了諸多令人矚目的新能力,包括對象交互、複雜的角色動畫、精確的物理模擬,以及對其他智能體行為的建模與預測。
為了更直觀地展示Genie2的強大功能,我們提供了一系列人們與Genie2互動的示例。在每個示例中,我們都使用了Imagen3(GDM最先進的文本到圖像模型)生成的單個圖像作為提示,引導Genie2創造出對應的虛擬世界。這意味著,用戶只需在文本中描述他們心目中的理想世界,然後選擇最喜歡的想法進行渲染,即可輕鬆進入這個新創建的世界進行互動,或者讓AI智能體在其中接受訓練或評估。
在互動過程中,用戶或智能體可以通過鍵盤和滑鼠操作來提供指令,而Genie2則會根據這些指令模擬出下一個觀察結果。值得注意的是,Genie2能夠在極短的時間內(通常在一分鐘內)創造出連貫且一致的世界,且大多數示例都能持續10-20秒,為用戶提供了充足的探索空間。
動作控制
Genie2具備出色的動作控制能力,能夠精準地識別用戶通過鍵盤輸入的指令,並智能地響應所採取的行動。例如,當用戶在鍵盤上按下方向鍵時,Genie2能夠迅速識別並移動場景中的角色(如人形機器人),而不是其他非移動元素(如樹木或雲朵)。
圖註:從上到下分別為:一個可愛的人形機器人在樹林中穿梭、穿梭到古埃及的人形機器人、以第一視角在紫色星球上活動的人形機器人、閣樓公寓裡的機器人通過第一視角展示其在狹小空間中的場景
生成虛擬體驗
Genie2的另一個強大功能是能夠從相同的起始框架生成不同的行動軌跡。這意味著,我們可以模擬並訓練智能體在不同情境下的虛擬體驗。通過展示同一幀起點下人類玩家採取的不同動作,我們可以觀察智能體如何適應並學習這些多樣化的行動路徑。
長視界記憶
Genie2還具備出色的長視界記憶能力。它能夠記住那些暫時消失但在後續場景中重新出現的世界元素,並在它們再次出現時準確地呈現出來。
長視頻生成與新內容創造
Genie2能夠動態地生成新的可信內容,並能夠在短時間內(如一分鐘內)維持一個一致且生動的虛擬世界。
多樣化環境
Genie2具備創造多樣化視角的能力,能夠輕鬆生成第一視角、等距視角以及第三視角的駕駛視頻。
複雜的三維結構
Genie2已經掌握了構建複雜3D視覺場景的技能,能夠呈現出逼真且富有層次感的虛擬世界。
對象可視性與交互模擬
Genie2能夠精確地模擬各種物體之間的相互作用,包括氣球破裂、門開啟以及炸藥桶的發射等場景。
角色動畫
Genie2擅長為不同類型的角色製作獨特的動畫效果,使每個角色都栩栩如生。
NPC建模與交互
Genie2不僅能夠為其他智能體(NPC)進行建模,還能與它們進行複雜且流暢的交互。
物理效果模擬
Genie2在模擬物理效果方面表現出色,能夠真實還原水的流動、煙霧的瀰漫以及重力的影響等自然現象。
照明效果模擬
Genie2擅長模擬單點照明和定向照明效果,能夠根據不同的場景需求調整光線,營造出更加逼真的視覺效果。
反射
Genie2不僅能夠精準模擬反射現象,還能呈現開花效果和彩色照明。
從真實世界圖像到虛擬世界的無縫轉換
Genie2能夠以現實世界的圖像為提示,模擬出風中搖曳的草葉或波光粼粼的河水,實現了從真實到虛擬的無縫轉換。
快速原型創建
Genie2在快速創建交互體驗原型方面同樣表現出色。研究人員可以利用Genie2迅速搭建起各種新環境,用於訓練和測試嵌入的AI智能體。
通過結合Imagen3生成的圖像提示,Genie2能夠模擬出駕駛紙飛機、龍、鷹或降落傘等截然不同的體驗,並為這些化身製作出生動且流暢的動畫。
得益於Genie2強大的out-of-distribution泛化能力,概念藝術和圖紙能夠輕鬆轉化為完全互動的環境。這使得美工和設計師能夠以前所未有的速度創建原型,從而引導環境設計的創作過程,並加速研究的整體進度。
在這裡,我們展示了由概念藝術家創作的研究環境概念的例子:
AI智能體在世界模型中的動態活動
藉助Genie2的高效環境創建能力,我們的研究人員能夠迅速為AI智能體構建出豐富多樣的訓練場景,並生成智能體在訓練階段未曾遭遇的評估任務。以下是我們與遊戲開發商攜手打造的SIMA智能體實例,該智能體能夠依據單個圖像提示,遵循Genie2合成的隱形環境指引行動。
imagen3生成第一張圖像
提示內容:「一張第三人稱開放世界探索遊戲的截圖。畫面中的玩家是一位正深入森林探險的冒險家。左側是一座帶有紅門的房屋,右側則是藍門房屋。攝影機位於玩家身後,營造出強烈的沉浸感與逼真效果。」
SIMA智能體被精心設計為能夠遵循自然語言指令,在3D遊戲世界中完成一系列挑戰。在本例中,我們利用Genie2構建了一個包含紅藍兩扇門的3D環境,並向SIMA智能體發出指令,要求其依次打開這兩扇門。在此過程中,SIMA通過鍵盤和滑鼠的輸入來控制遊戲角色,而Genie2則負責生成遊戲畫面中的每一幀。
指令執行實例
提示:「打開藍色的門」,「打開紅色的門」
此外,我們還可以藉助SIMA智能體來評估Genie2的性能。通過指示SIMA環顧四周並探索房屋後方,我們測試了Genie2在生成連貫環境方面的能力。
提示:「轉身環顧四周」以及「前往房屋後方探索」
儘管當前的研究仍處於其發展的初級階段,無論是智能體的行為邏輯,還是環境的生成能力,都存在著巨大的提升空間。但我們堅信,Genie2平台為解決安全訓練嵌入智能體所面臨的結構性問題提供了切實可行的路徑。同時,它也為實現通用人工智慧(AGI)所需的廣泛適用性和高度通用性奠定了堅實的基礎。
imagen3生成第二張圖像
提示內容:「這是一幅電腦遊戲的畫面截圖,描繪了一個粗糙的石頭洞穴或礦井的內部景象。畫面以第三人稱攝影機的視角呈現,攝影機位於玩家角色的上方,並向下俯瞰著角色。玩家角色是一位手持利劍的騎士。在騎士的視線前方,有三個拱形石門,供騎士選擇通過。穿過第一個石門,我們可以窺見一條隧道,隧道內生長著奇異的綠色植物和散發著柔和光芒的花朵。第二個石門內,則是一條由釘在洞穴壁上的帶刺鐵板構成的走廊,這條走廊通向遠方一抹不祥的光芒。透過第三個石門,我們能看到一組粗糙的石階,它們引領著探索者前往一個未知而神秘的目的地。」
智能體的探索指令
提示:「上樓」,「去植物所在的地方」,「去中間的門」
03 擴散世界模型:Genie2的未來願景
Genie2是一個自回歸潛在擴散模型,已經在一個龐大的視頻數據集上接受了訓練。在自動編碼器的幫助下,視頻中的潛在幀被精準地提取出來,並傳遞給了一個Transformer動態模型——這一大型神經網絡架構的核心部分,它採用了與大語言模型相似的因果掩碼進行深度訓練。
在推理階段,Genie2展現出了其獨特的自回歸採樣能力,它能夠逐幀地捕捉單個動作與過去的潛在幀之間的微妙聯繫,從而生成出連貫且生動的視頻內容。為了進一步提升動作生成的可控性,我們還引入了顯式分類器(Classifier-free Guidance)技術。
在這篇博文中,我們展示的示例是由一個尚未經過精細打磨的基礎模型所生成的,旨在向大家呈現Genie2所具備的無限可能性。儘管這些示例在輸出質量上可能略顯粗糙,但我們已經成功開發出了一個實時播放的蒸餾版模型,它能夠在保持實時性的同時,為大家帶來更為流暢和連貫的視覺體驗。
04 負責任地開發我們的技術
在技術的研發過程中,我們始終秉持著負責任的態度。Genie2所展現出的基礎世界模型在創建多樣化3D環境和加速智能體研究方面的巨大潛力,讓我們深感振奮。然而,我們也清楚地認識到,這個研究方向仍然處於其發展的初級階段。因此,我們期待著在未來的研究中,能夠繼續在通用性和一致性方面不斷提升Genie的世界生成能力。
與SIMA等智能體研究相輔相成,我們的研究正朝著一個更加宏偉的目標邁進——構建更加通用和智能的人工智慧系統和智能體。這些系統和智能體將能夠理解並安全地執行各種複雜任務,從而為在線和現實世界中的人們提供更為便捷、高效和智能的服務。