RTX5090震撼亮相、全球最小AI超算五月上市、「物理AI」大時代開啟.......黃仁勛2025CES大會演講全文
通用機器人「ChatGPT時刻」近在咫尺,AI超級計算機走向桌面,物理AI將徹底改變價值50萬億美元的製造業和物流行業,所有移動的東西——從汽車、卡車到工廠和倉庫——都將由機器人和AI實現!
北京時間1月7日,英偉達創始人兼CEO黃仁勛穿著6.5萬的Tom Ford新夾克亮相拉斯維加斯CES展會,發表開幕主題演講,並推出一系列新產品和技術。
以下為發布會主要亮點:
推出新一代基於Blackwell架構的GPU RTX5090,高端型號RTX5090擁有920億個電晶體,可提供3400 TOPS算力,具備4000 AI TOPS(每秒萬億次操作)的性能,售價1999美元。
RTX5070、RTX5070 Ti、RTX5080和RTX5090的售價分別為:549美元(約4023元)、749美元(約5489元)、999美元(約7321元)和1999美元(約14651元)。其中,RTX5070性能和此前售價1599美元的RTX4090相同的性能,相當於降價1/3。
推出Blackwell架構最新的關鍵互聯技術NVLink72。電晶體數量達到130萬億,72個Blackwell GPU具備1.4 ExaFLOPS TE FP4計算能力,擁有2592個Grace CPU核心。
「Scaling law仍在繼續」:第一個scaling law是預訓練;第二個scaling law是後訓練;第三個scaling law是測試時計算。
展示具有「Teat-Time Scaling」功能的Agentic AI,支持計算器、網絡搜索、語義搜索、SQL搜索等工具,甚至可以生成播客。
推出Nemotron模型,包括Llama Nemotron大型語言模型和Llama Nemotron大型語言模型,分為Nano、Super和Ultra三檔。
AI智能體可能是下一個機器人產業,可能是價值數萬億美元機會。
推出物理AI世界基礎模型Cosmos,開源可商用,該模型可以將圖像和文本轉換為機器人的可操作任務,無縫集成視覺和語言理解來執行複雜的動作。
宣布生成式 AI模型和藍圖,將NVIDIA Omniverse集成進一步擴展到機器人、自動駕駛汽車和視覺 AI等物理 AI應用中。
物理AI將徹底改變價值50萬億美元的製造業和物流行業,所有移動的東西——從汽車、卡車到工廠和倉庫——都將由機器人和AI實現。
發布全球最小的個人AI超級計算機——Project Digits。該超算搭載全新Grace Blackwell超級晶片,支持個人直接運行2000億參數的大模型,兩台Project Digits可以跑通4050億參數的大模型。
以下為黃仁勛演講全文:
一切都始於1993年
歡迎來到CES!大家來到拉斯維加斯開心嗎?你們喜歡我的夾克嗎?(編者註:8990刀!)
我想我說話的風格應該和Gary Shappero(CTA執行長、CES總裁)區別開,畢竟我是在拉斯維加斯。如果這樣行不通,如果你們都反對,那麼……你們就儘量習慣吧。再過一個小時左右,你們會覺得這樣還不錯。
歡迎來到英偉達——實際上,你們現在就在英偉達的數字孿生兄弟里——女士們先生們,歡迎來到英偉達。你在我們的數字孿生裡面,這裡的一切都是由AI產生的。
這是一段非凡的旅程、非凡的一年,這一切都始於1993年。
有了NV1(英偉達首款GPU)時,我們希望製造的電腦能做到普通電腦無法做到的事情。NV1成功讓在電腦上玩遊戲機成為可能,我們的編程架構被稱為UDA(Unified Device Architecture),不久之後才被命名為「UDA Unified Device Architecture」。
我在UDA上開發的第一個應用程式是《VR快打》(VirtuaFighter)。六年後,我們在1999年發明了可編程GPU,從此,GPU這種不可思議的處理器取得了長達20多年的驚人進步。它使現代計算機圖形成為可能。
三十年後的今天,《VR快打》已被完全影視化了。這也是我們即將推出的新的《VR快打》項目,我等不及要告訴你們,它超驚艷的。
又是六年後,我們發明了Kuda。通過它,我們能夠解釋或表達GPU的可編程性,也讓我從豐富的算法集中受益。起初,這很難解釋,而且花了好幾年時間——事實上大約花了六年時間。
不知怎的,六年後,也就是2012年,亞歷克斯-基爾舍夫斯基(Alex Kirshevsky)、埃利亞斯-蘇斯克(Elias Susker)和傑夫-辛頓(Jeff Hinton)發現了 CUDA,並用它來處理亞歷克斯網絡(Alex Net),這一切在現在看來都成為了歷史。
如今,AI開始以令人難以置信的速度前進。我們從感知AI開始,到可以理解圖像、單詞和聲音,生成式AI,再到可以生成圖像、文本和聲音,到現在可以感知、推理、計劃和行動的AI代理(AI agent),再接著是下一階段,物理人工智慧(physical AI),今晚我們將討論其中的一部分。
在2018年,發生了一件非常神奇的事情。谷歌發布基於Transformer(變換器)的雙向編碼器表示技術(BERT),人工智慧的世界真正起飛了。
正如你們所知,變換器完全改變了人工智慧的格局。實際上,它徹底改變了計算的格局。我們正確地認識到,人工智慧不僅僅是一個新的應用程式和商業機會,更重要的是,機器學習(machine learning)由變換器驅動,將從根本上改變計算的工作方式。
今天,計算在每一個層面上都發生了革命,從手動編寫在CPU上運行的指令,到創造人類使用的軟體工具。我們現在有機器學習,它創建和優化神經網絡(Neural networks),在GPU上處理並創造人工智慧,技術棧的每一個層面都發生了徹底的變化,短短12年內發生了令人難以置信的轉變。
現在,我們可以理解幾乎任何模態的信息。當然,你們已經看到了類似文本、圖像、聲音的東西,但我們不僅可以理解這些,還可以理解胺基酸、物理學等。我們不僅理解它們,還可以翻譯並生成它們。應用幾乎是無窮無盡的。
實際上,針對幾乎所有你看到的人工智慧應用,如果你問這三個基本問題:輸入的形式是什麼?我從什麼信息形式中學習?它翻譯成什麼信息形式?它生成了什麼信息形式?幾乎每一個應用都能給出答案。
因此,當你看到一個個被AI驅動的應用時,其核心都是這一個基本概念。
機器學習改變了每個應用的構建方式,改變了計算的方式,以及超越的可能性。
現在,所有與AI有關的事物,都由GeForce(英偉達開發的個人電腦的圖形處理器品牌)架構而來,GeForce使人工智慧能夠走向大眾。現在,AI正回到GeForce的懷抱,有許多事情沒有AI就沒法做到,讓我給你們展示一下。
(演示視頻)
那就是實時計算機圖形(real time computer graphics),沒有計算機圖形研究人員或科學家會告訴你,現在能夠對每一個像素進行光線追蹤(ray tracing)。光線追蹤是一種模擬光的技術,你所看到的幾何形狀的數量級是絕對瘋狂的,如果沒有AI,這幾乎不可能。
我們做了兩件基本的事情。當然,我們使用了可編程著色(programmable shading)和光線追蹤加速(ray traced acceleration)來生成令人難以置信的美麗像素。
但隨後我們讓AI根據這些像素進行條件和控制,以生成大量其他像素,因為它知道顏色應該是什麼,並已經在英偉達的超級計算機上訓練過。因此,運行在GPU上的神經網絡能夠推斷和預測我們未渲染的像素。
我們不僅能做到這一點,這被稱為DLSS(深度學習超級採樣)。最新一代的DLSS還能夠超越幀,可以預測未來,每計算一幀生成三幀。
舉例來說,如果你們現在看到的是四幀的畫面,是由我們渲染的一幀和額外生成的三幀組成的。
如果我設置四幀在全高清4K下,那就是大約3300萬像素,在這3300萬像素中,我們用可編程著色器和我們的光線追蹤引擎計算了200萬像素,並讓人工智慧預測所有其他的3300萬像素——這真是一個絕對的奇蹟。
因此,我們能夠以極高的性能進行渲染,因為AI減少了大量計算。當然,訓練它需要巨大的算力,但一旦訓練完成,生成過程是極其高效的。
這就是AI的一種令人難以置信的能力,這就是為什麼有這麼多令人驚嘆的事情發生。我們利用GeForce來實現AI,而現在AI正在革新GeForce。
Blackwell家族最新GPU!RTX50系列晶片震撼來襲
各位,今天在這裡,我們要宣布下一代RTX Blackwell家族。讓我們來看看。
(演示視頻)
看,這是我們全新的基於Blackwell架構的GeForce RTX50系列晶片。
這個GPU真的是「一頭猛獸」,它擁有920億個電晶體,具備4000 TOPS(每秒萬億次操作)的AI性能,是上一代Ada架構的三倍。
要生成我剛剛展示的那些像素,我們還需要這些:
380 RT TFLOPS(每秒萬億次浮點運算)的光線追蹤性能,以便我們能夠計算出最美麗的圖像;
125 Shader TFLOPS(著色單元)的著色器性能,實際上還有並行的著色器teraflops以及一個性能相當的內部漂移單元,因此有兩個雙著色器,一個用於浮點運算,一個用於整數運算;
以及來自美光的G7記憶體,頻寬達每秒1.8TB,是我們上一代的兩倍,讓我們能夠將AI工作負載與計算機圖形工作負載混合在一起。
這一代的一個驚人之處在於,可編程著色器現在也能夠處理神經網絡。因此,著色器能夠承載這些神經網絡,結果是我們發明了神經紋理壓縮(neural texture compression)和神經材質著色(neural material shading)。
通過以上種種,你會得到這些令人驚嘆的美麗圖像,這些圖像只有通過使用AI學習紋理、學習壓縮算法才能實現,從而獲得非凡的結果。
這就是全新的 RTX Blackwell50系列,連機械設計也堪稱奇蹟。看,它有兩個風扇,整個顯卡簡直就是一個巨大的風扇。那麼問題來了,顯卡真的有這麼大嗎?實際上,常規電壓設計是最先進的,這款GPU擁有難以置信的設計,工程團隊做得很棒,謝謝。
接下來是速度和費用。相比之下如何呢?這是RTX4090。我知道你們很多人都有這款顯卡。它的價格是1599美元,絕對是你可以做出的最佳投資之一。只需花1599美元,就能把它帶回你那價值10000美元的「PC娛樂中心」。
沒錯吧?別告訴我我說的不對。這款顯卡採用液冷設計,四周都有華麗的燈光。你離開時把它鎖上,這就是現代家庭影院,完全合理。
而現在,憑藉Blackwell家族的RTX5070,你只需要花549美元,就可以實現,並且可以提升你的配置和性能。
沒有人工智慧,這一切都是不可能的,沒有AI張量核心(tensor cores)的四個頂級四階運算也不可能,沒有G7記憶體也不可能。
好,這是RTX50整個家族,從RTX5070一直到RTX5090,後者的性能是4090的兩倍。我們將從1月開始大規模生產。
這確實令人難以置信,但我們成功地將這些GPU安裝到了筆記型電腦中。
這是一款售價12909美元的RTX5070筆電,它的性能相當於4090。
你能想像出來嗎?把這款令人難以置信的顯卡縮小並放進去,這樣做合理嗎?沒有什麼是AI做不到的。
原因在於,我們生成大多數像素是通過我們的測試進行的。因此,我們只追蹤需要的像素,其餘的像素則是通過AI生成的。結果是,能量效率簡直令人難以置信。計算機圖形的未來是神經渲染(Neural rendering),即人工智慧與計算機圖形的結合。
真正令人驚訝的是,我們即將在電腦里放入現在的GPU家族。RTX5090適合放入一台薄筆記型電腦中,厚度為14.9毫米。
所以,女士和先生們,這就是RTX Blackwell家族。
新的Scaling law已經出現,模型可以自行訓練並應用不同資源分配
GeForce將人工智慧(AI)帶給了世界,普及了人工智慧。現在,人工智慧又回過頭來,徹底改變了GeForce,讓我們談談人工智慧。
整個行業正在追趕並競相擴展人工智慧,而Scaling law是一個強大的模型,這是一個經過幾代研究人員和行業觀察並證明的經驗法則。
Scaling law表明,擁有的訓練數據量越大,模型就越大,計算能力投入越多,模型就會變得越有效或越強大。因此,Scaling law就這樣繼續下去。
令人驚訝的是,網際網路每年產生的數據量約是去年的兩倍。我認為在接下來的幾年中,人類產生的數據量將超過自古以來所有人類產生的數據總和。
我們仍在不斷生成大量的數據,這些數據呈現出多模態特徵,包括視頻、圖像和聲音。所有這些數據都可以用於訓練人工智慧的基礎知識。
然而,實際上還有兩種新的Scaling law已經出現,它們在某種程度上是直觀的。
第二種Scaling law是「後訓練Scaling law」。
後訓練Scaling law使用諸如強化學習和人類反饋等技術。基本上,人工智慧根據人類的查詢生成答案,然後人類給予反饋。事情比這複雜得多,但這種強化學習系統通過大量高質量的提示使人工智慧不斷提升技能。
它能夠針對特定領域進行微調,例如在解決數學問題和推理等方面變得更好。
因此,這本質上就像是有一個導師或教練在你上完學後給予你反饋。你會參加考試、獲得反饋、然後自我提升。我們還使用強化學習、人工智慧反饋以及合成數據生成,這些技術類似於自我練習,例如你知道某個問題的答案,並不斷嘗試直到獲得正確答案。
因此,人工智慧可以面對一個複雜且困難的問題,這個問題在功能上是可驗證的,且有我們理解的答案,可能是證明一個定理,或者解決一個幾何問題。這些問題促使人工智慧生成答案,並通過強化學習學習如何改進自己,這被稱為後訓練。後訓練需要大量的計算能力,但最終結果會產生令人難以置信的模型。
第三種Scaling law與所謂的測試時間擴展有關。測試時間擴展是指當你使用人工智慧時,人工智慧能夠應用不同的資源分配,而不是單純改善其參數。現在它專注於決定使用多少計算能力來生成所需的答案。
推理是一種思考方式,而長時間思考則是另一種思維方式,而不是直接推理或一次性回答。你可能會對其進行推理,可能會將問題分解為多個步驟,可能會生成多個想法並評估你的人工智慧系統評價你生成的想法中哪個是最好的,也許它逐步解決問題,等等。
因此現在,測試時間擴展已被證明非常有效。你正在目睹這一系列技術的發展,以及所有這些Scaling law的出現,因為我們看到從 ChatGPT到 o1,再到 o3,以及現在的 Gemini Pro所取得的令人難以置信的成就,這些系統都經歷了從預訓練到後訓練再到測試時間擴展的旅程。
當然,我們所需的計算能力是驚人的,實際上,我們希望社會能夠擴展計算,以產生越來越多的新穎和更好的智能。智能當然是我們擁有的最有價值的資產,它可以應用於解決許多非常具有挑戰性的問題。因此,Scaling law正在推動對英偉達計算的巨大需求,也推動了Blackwell這種不可思議的晶片的巨大需求。
Blackwell每瓦性能較上一代提高了四倍
讓我們來看看 Blackwell。Blackwell目前正在全面生產,它看起來令人難以置信。
首先,每個雲服務提供商現在都有系統在運行。我們這裡有來自大約15家計算機製造商的系統,正在生產約200種不同的庫存單位(SKUS),200種不同的配置。
它們包括液體冷卻、風冷、x86架構以及英偉達Grace CPU版本、NVLink36 x2、72 x1等多種不同類型的系統,以便我們可以滿足全球幾乎所有數據中心的需求。這些系統目前正在45家工廠中生產。這告訴我們人工智慧是多麼普遍,整個行業是如何迅速投入到這一新的計算模型中。
我們如此努力推動的原因是我們需要更多的計算能力,這是非常明確的。GB200 NVLink72,它重達1.5噸,包含60萬個部件。它後面有一個主幹,將所有這些GPU連接在一起,有兩英里的銅纜和5000根電纜。
這個系統在全球的45家工廠中生產。我們建造它們,液體冷卻它們,測試它們,拆解它們,將其分部分運送到數據中心,因為它重達1.5噸,我們在數據中心外重新組裝它並安裝。
製造過程非常瘋狂,但所有這一切的目標是因為Scaling law正在推動計算能力的發展,以至於到Blackwell的這種計算水平。
Blackwell的每瓦性能比我們上一代產品的基礎上提高了四倍,每美元性能提高了三倍。這基本上意味著,在一代產品中,我們將訓練這些模型的成本降低了三倍,或者如果你想將模型的規模提高三倍,成本大致相同。但重要的是,這些正在生成的tokens被我們所有人使用,應用於ChatGPT或 Gemini以及我們的手機。
在未來,幾乎所有這些應用都會消耗這些 AI tokens,它們是由這些系統生成的。每個數據中心都受到電力的限制。
因此,如果Blackwell的每瓦性能是我們上一代的四倍,那麼可以產生的收入,即數據中心中可以產生的業務量,就增加了四倍。因此,這些 AI工廠系統實際上今天就是工廠。
現在,所有這一切的目標是為了創建一個巨大的晶片。我們所需的計算能力是相當驚人的,這基本上就是一個巨大的晶片。如果我們必須將其構建為一個晶片,顯然這將是晶圓的大小,但這並不包括yield的影響,它可能需要三到四倍的大小。
但我們基本上在這裡有72個Blackwell GPU或144個晶片。一個晶片的AI浮點性能達到1.4 ExaFLOPS,世界上最大的超級計算機,速度最快的超級計算機,最近才達到了1 ExaFLOPS以上。它具有14 TB的記憶體,記憶體頻寬是每秒1.2 PB,相當於目前發生的整個網際網路流量。全球的網際網路流量正在通過這些晶片處理。
我們總共有130萬億個電晶體,2592個 CPU核心,還有大量的網絡。因此,我希望我能做到這一點,但我覺得我不會。所以這些是 Blackwell、這些是我們的 Connect X網絡晶片、這些是 NV Link。我們試圖假裝 NV Link的主幹,但那是不可能的。
這些都是HBM(高頻寬記憶體),14TB的 HBM記憶體,這就是我們正在嘗試做的。這就是 Blackwell系統的奇蹟。Blackwell晶片就在這裡,是世界上最大的單晶片。
我們需要大量的計算資源,因為我們希望訓練越來越大的模型。
過去,這些推理只有一個,但在未來,AI將會自我對話,它將會思考並進行內部處理。目前,當token以每秒20或30個的速度生成時,這已經是人類閱讀的極限。然而,未來的 GPT-o1、Gemini Pro以及新的 GPT-o1、o3模型將會自我對話並反思。
因此,可以想像,token的生成速率將會極高。為了確保服務質量出色、客戶成本低廉,並推動 AI的持續擴展,我們需要大幅提升token生成速率,同時降低成本。這就是我們創建 NV link的基本目的之一。
英偉達為幫助生態系統構建AI代理 創建三樣工具:Nvidia NIMS、Nvidia NeMo、開源藍圖
企業界正在發生的重要變革之一就是「AI代理」。
AI代理是測試時間擴展的完美示例。它是一種AI,是一種模型系統,其中一些負責理解和與客戶、用戶進行互動,另一些則負責從存儲中檢索信息,比如語義 AI系統。
它可能會訪問網際網路或打開一個 PDF文件,也可能會使用工具,如計算器,甚至利用生成式 AI來生成圖表等。而且它是疊代的,它會逐步分解您提出的問題,並通過不同的模型進行處理。
為了在未來能夠更好地響應客戶,讓AI回應。過去,提出一個問題,然後答案噴涌而出。將來,如果你提出一個問題,一大堆模型將在後台運行,因此測試時間擴展、推理所需的計算量將會激增,我們希望能得到更優質的答案。
為了幫助行業構建AI代理,我們的市場策略並不是直接面向企業客戶,而是與 IT生態系統中的軟體開發者合作,將我們的技術整合,以實現新的能力,就像我們與 CUDA庫所做的一樣。正如過去的計算模型有用於計算機圖形學、線性代數或流體動力學的 API,未來在這些CUDA加速庫上,將會引入 AI庫。
我們為幫助生態系統構建AI代理的三樣工具:Nvidia NIMS,本質上是打包好的 AI微服務。它將所有複雜的 CUDA軟體,CUDA DNN、Cutlass、Tensor RTLM或Triton等複雜的軟體和模型本身打包、優化,放入一個容器中,您可以隨意使用。
因此,我們有用於視覺、語言理解、語音、動畫和數字生物學的模型,並且即將推出一些新的、令人興奮的物理 AI模型。這些 AI模型可以在每一個雲平台中運行,因為 NVIDIA GPU現在在每一個雲平台、原始設備製造商(OEM)中也可用。
因此,您可以將這些模型集成到您的軟體包中,創建在 Cadence上運行的 AI代理ServiceNow或SAP代理,並可以將其部署給客戶,在客戶希望運行軟體的任何地方運行。
下一個工具是我們稱之為Nvidia NeMo的系統,本質上是一個數字員工入職培訓與評估系統。
未來,這些AI代理將成為與您的員工並肩工作的數字勞動力,為您完成各種任務。因此,將這些專門的代理引入公司就像您入職員工一樣。我們有不同的庫來幫助這些 AI代理針對公司的特定語言進行培訓,也許這些詞彙是公司獨特的,商業流程和工作方式各不相同。
因此,您需要給他們提供示例,以說明工作成果的標準,他們會嘗試生成符合標準的結果,而您則給予反饋並進行評估,如此反覆。
同時,您會設定一些界限,明確哪些事情是他們不允許做的,哪些話是他們不能說的。我們甚至會賦予他們訪問某些信息的權限。因此,整個數字員工管道被稱為NeMo。
在未來,每家公司的IT部門都將轉變為AI代理的人力資源管理部門。今天,他們管理並維護來自IT行業的一系列軟體,而未來,他們將負責維護、培養、引導和改進一整套數字代理,並將其提供給公司使用。您的IT部門將逐漸演變為AI代理的人力資源管理部門。
此外,我們還提供了一大堆藍圖供我們的生態系統利用,所有這些都是完全開源的,您可以自由修改這些藍圖,我們擁有各種不同類型代理的藍圖。
今天,我們還宣布了一項非常酷且聰明的舉措:推出基於LLAMA的模型家族,即NVIDIA LLAMA Nemotron語言基礎模型,其中LLAMA3.1是一個顯著的成就。從Meta下載LLAMA3.1的次數達到65萬次,它已經被衍生並轉化為約6萬個不同模型,幾乎是每個行業的企業開始關注人工智慧的主要原因。
我們意識到,LLAMA模型可以更好地微調以適應企業的需求,因此我們利用我們的專業知識和能力對其進行了微調,形成了LLAMA Nemotron開源模型套件。這些模型中有一些非常小的模型,響應時間極快,很小巧,我們稱之為超級LLAMA Nemutron超級模型,它們基本上是主流模型。
超大模型可以作為其他模型的教師模型,可以是獎勵模型評估器、判斷器,用於評估其他模型的答案質量,提供反饋。它可以以多種方式進行蒸餾,既是教師模型,也是知識蒸餾模型,功能強大且可用性廣泛,這些模型現已在線開放。它們在聊天、指令和檢索排行榜上名列前茅,具備AI代理所需的多種功能。
我們還在與生態系統合作,所有NVIDIA的AI技術已與IT產業深度集成。我們擁有極好的合作夥伴,包括ServiceNow、SAP、西門子等,正在為工業AI做出卓越貢獻。Cadence和Synopsys也在進行卓越的工作。我為與Perplexity的合作感到自豪,他們徹底改變了搜索體驗,取得了非常棒的成果。
Codium將成為全球每位軟體工程師的下一個巨大AI應用,軟體編碼是下一個重大服務。全球有3000萬軟體工程師,每個人都將擁有一個軟體助手來幫助他們編碼,否則,他們的工作效率將大大降低,編寫出的代碼質量也會下降。
因此,涉及到3000萬這一龐大數字,而全球知識工作者總數達10億。顯然,AI代理很可能是下一個機器人產業,未來有望成為數萬億的商業機會。
接下來,我將展示一些我們與合作夥伴共同創建的藍圖以及我們的工作成果。這些AI代理是新的數字勞動力,正在為我們工作並與我們協作。AI是一個模型系統,能夠圍繞特定任務進行推理、分解任務並檢索數據或使用工具生成高質量的響應。
(演示視頻)
將AI轉變為一個全方位的AI助手
好了,咱們接著聊聊 AI。
AI誕生於雲端,雲端的 AI體驗十分美妙,在手機上使用 AI也樂趣十足。很快,我們就會擁有如影隨形、時刻相伴的連續 AI。想像一下,當你戴上 Meta眼鏡,只需輕輕指向或看向某個東西,就能隨口詢問相關信息,是不是超酷?
雲端的AI體驗固然很好,但我們的野心不止於此,還想讓AI無處不在。前面已經提過,英偉達AI能輕鬆部署到任意雲端,也能巧妙裝進公司內部系統,而我們心底最渴望的,是讓它穩穩裝進個人電腦。
大家都知道,Windows95曾掀起計算機行業的革命浪潮,帶來一系列新穎的多媒體服務,永遠改寫了應用開發的方式。但Windows95的計算模式對 AI來說,還存在不少局限性,不太完美。
我們滿心期待,未來個人電腦里的 AI能成為大家的得力助手,除了現有的3D、聲音、視頻 API,還會新增生成式 API,用於生成驚艷的3D內容、靈動的語言、悅耳的聲音等等。我們得匠心打造一個全新系統,既充分利用雲端的巨額前期投資,又能讓這一切美好設想成為現實。
全世界不可能再創造出另一種 AI編程方式,所以要是能把 Windows PC變成世界級 AI PC,那就太棒了。而答案就是 Windows WSL2。
Windows WSL2本質上是一個系統里巧妙嵌套了兩個作業系統,它專為開發者量身定製,能讓開發者直接暢快訪問硬體。
它針對雲原生應用做了深度優化,重點是針對 CUDA進行了全方位優化,真正做到開箱即用。只要電腦性能跟得上,不管是視覺模型、語言模型還是語音模型,或是充滿創意的動畫、栩栩如生的數字人模型等等,各類模型都能在個人電腦上完美運行,下載後一鍵就能開啟奇妙之旅。
我們的目標是把 Windows WSL2 Windows PC打造成一個一流的平台,我們將長期支持和維護它。
接下來,讓我為大家展示一個我們剛剛開發的藍圖示例:
(演示視頻)
英偉達 AI即將裝進全球數億台 Windows電腦,我們已經和全球頂尖 PC OEM廠商緊密攜手,讓這些電腦都為 AI時代做好萬全準備。AI PC很快就要走進千家萬戶,成為生活好幫手。
英偉達Cosmos,全球首個專為理解物理世界的基礎模型,接著,咱們把目光聚焦到物理 AI這個前沿領域。
提到 Linux,就順道聊聊物理 AI。想像一下,大語言模型接收左邊的上下文、提示信息,然後逐個生成 token,最終輸出結果。中間的這個模型極為龐大,擁有幾十億個參數,上下文長度也相當可觀,因為使用者可能會一股腦加載好幾個 PDF文件,這些文件會被巧妙轉化成 token。
Transformer的注意力機制讓每個token與其他 token建立關聯,如果有幾十萬個token,計算量就會呈二次方增長。
模型處理所有參數、輸入序列,經過 Transformer每一層,生成一個 token,這就是為什麼我們需要Blackwell這樣的算力,然後再生成下一個token。這就是Transformer模型如此高效且耗費計算資源的原因。
要是把PDF換成周圍環境,把提問換成請求,比如「去那邊把那個盒子拿過來」,輸出不再是 token,而是動作指令,這對未來機器人技術來說非常合理,相關技術也近在咫尺。但我們得創建一個有效的世界模型,區別於GPT這類語言模型。
這個世界模型要理解現實世界的規則,比如重力、摩擦力、慣性這些物理動力學,還要理解幾何與空間關係、因果關係。東西掉地上會怎樣,戳一下它會倒,得明白物體恆存性(Object permanence),球滾過廚房台面,從另一邊掉下去,它不會消失在另一個量子宇宙,它還在那兒。
當下大多數模型在理解這類直觀知識上還很困難,所以我們要打造一個世界基礎模型。
今天,我們要發布一件大事——英偉達 Cosmos,全球首個世界基礎模型,專為理解物理世界打造。眼見為實,來看一下。
(展示視頻)
英偉達 Cosmos,全球首個世界基礎模型,在2000萬小時的視頻數據上訓練而成,這些視頻聚焦動態物理事物,像自然主題、人類行走、手部動作、操控物體,還有快速的相機運動,目的是教會 AI理解物理世界,而非生成創意內容。有了物理 AI,就能做很多下游應用。
我們能用它做合成數據生成來訓練模型,提煉模型,初步打造機器人模型,生成多個基於物理、符合物理邏輯的未來場景,就像奇異博士操控時間一樣,因為這個模型懂物理世界。
大家也看到了生成的一堆圖像,它還能給視頻添加字幕,他可以拍攝視頻並配字幕,這些字幕和視頻能用於訓練多模態大語言模型。所以,能用這個基礎模型訓練機器人和大語言模型。
這個平台有用於實時應用的自回歸模型、生成高質量圖像的擴散模型、超厲害的分詞器,學習現實世界的「詞彙表」,還有數據管道。要是想用這些數據訓練自己的模型,由於數據量巨大,我們已經從頭到尾做了加速處理。
Cosmos平台的數據處理管道藉助了 CUDA和 AI加速。
今天,我們宣布 Cosmos開源許可,已放在 GitHub上,有小、中、大不同規模的模型,對應快速模型、主流模型,還有教師模型,也就是知識轉移模型。希望 Cosmos能為機器人和工業 AI領域帶來像 Llama3對企業 AI那樣的推動效果。
物理AI將徹底改變價值50萬億美元的製造業和物流行業
當把Cosmos和Omniverse連接起來,魔法就發生了。
根本原因在於,Omniverse是基於算法物理、原理物理、模擬構建的系統,是個模擬器。把它和Cosmos相連,能為 Cosmos生成內容提供基準事實,控制、調節生成結果。
這樣一來,Cosmos輸出的內容就基於真實情況,就跟把大語言模型和檢索增強生成系統連接起來一樣,要讓 AI生成基於真實基準。二者結合,就成了物理模擬、基於物理的多元宇宙生成器,應用場景超令人興奮,對機器人和工業應用來說更是清晰明了。
Cosmos加Omniverse,再加上訓練AI的計算機,代表著構建機器人系統必備的三類計算機。
每個機器人公司最終都需要三台計算機:一台用於訓練AI的DGX計算機;一台用於部署AI的AGX計算機,部署在汽車、機器人、自動移動機器人(AMR)等各種邊緣設備中,實現自主運行。
連接兩者需要一個數字孿生,它正是所有模擬的基礎。
數字孿生是訓練好的AI進行實踐、改進、合成數據生成、強化學習和AI反饋等操作的場所,因此它是AI的數字孿生。
這三台計算機將互動式工作,這套三機系統正是英偉達針對工業世界的戰略,我們已討論多時。與其說是「三體問題」,不如說是「三體計算機解決方案」,它是機器人領域的英偉達。
下面舉三個例子。
第一個例子是工業數位化。全球數百萬工廠、數十萬倉庫,構成了50萬億美元製造業的支柱,未來都要軟體定義、實現自動化,融入機器人技術。
我們和全球領先的倉庫自動化解決方案提供商凱傲(Kion),還有全球最大的專業服務提供商埃森哲(Accenture)合作,聚焦數字製造,一起打造特別的方案,來看一下。
我們的市場推廣策略和其他軟體、技術平台一樣,藉助開發者和生態夥伴。越來越多生態夥伴接入 Omniverse,因為大家都想數位化未來產業,全球 GDP里這50萬億美元蘊含太多浪費和自動化機遇。
(展示視頻)
未來,一切都能模擬。每個工廠都會有數字孿生,用 Omniverse和 Cosmos生成一堆未來場景,AI挑出最優場景,成為部署到真實工廠的 AI編程約束條件。
下一代車用處理器——Thor
第二個例子是自動駕駛汽車。
經過多年發展,Waymo、特斯拉取得成功,自動駕駛革命已然來臨。
我們為這個行業提供三類計算機:訓練 AI的系統、模擬與合成數據生成系統 Omniverse和 Cosmos,還有車內的計算機。每家汽車公司與我們的合作方式可能有所不同,可能使用一台、兩台或三台計算機。
全球幾乎每家主要汽車公司都以不同方式與我們合作,用上這三類計算機里的一個、兩個或三個,像 Waymo、Zoox、特斯拉,還有比亞迪——全球最大的新能源汽車公司,捷豹路虎有超酷新車,奔馳今年開始量產一批搭載英偉達技術的車。
我們今天特別高興地宣布,豐田和英偉達達成合作,打造下一代自動駕駛汽車。還有 Lucid、Rivian、小米、沃爾沃等等眾多公司。
圖森未來在造有自我感知能力的卡車,本周還宣布奧羅拉(Aurora)要用英偉達技術造自動駕駛卡車。
全球每年生產1億輛車,路上跑著幾十億輛車,每年行駛萬億英里,未來都會高度自動駕駛或全自動駕駛,這將是個超大規模產業。光看已經上路的幾輛車,我們這塊業務營收已經有40億美元,今年預計能到50億美元,潛力巨大。
今天,我們發布下一代車用處理器——Thor。
這就是Thor,機器人計算機,處理海量傳感器信息,無數攝影頭、高解析度雷達、雷射雷達的數據一股腦湧進來,它要把這些轉化成token,送進Transformer,預測下一步行駛路徑。
Thor已經全面投產,處理能力是上一代Oren的20倍,Oren可是當下自動駕駛車輛的標配。
Thor不僅用於汽車,也能用在完整機器人里,比如 AMR(自主移動機器人),或是人形機器人,充當它們的大腦、操控器,是通用機器人計算機。
我還特別驕傲地宣布,我們的安全驅動作業系統(Safety Drive OS)如今是首個獲汽車功能安全最高標準 ASIL D認證的軟體定義可編程 AI計算機,成果非凡,讓 CUDA有了功能安全保障。要是造機器人用英偉達 CUDA,那就妥了。
下面給大家展示怎麼用 Omniverse和 Cosmos在自動駕駛場景里做事。今天不只是給大家看車在路上跑的視頻,還會展示怎麼用 AI自動重建汽車數字孿生,用這個能力訓練未來 AI模型,來看。
(展示視頻)
是不是不可思議?
幾千次駕駛就能變成幾十億英里的數據。雖然路上還是需要實際車輛持續收集數據,但利用這個基於物理、貼合現實的多元宇宙能力生成合成數據,為自動駕駛 AI提供海量精準合理的數據用於訓練。
自動駕駛行業勢頭正猛,未來幾年,就像計算機圖形技術飛速變革一樣,自動駕駛發展速度也會大幅提升,令人無比期待。
通用機器人「ChatGPT時刻」近在咫尺
再聊聊人形機器人。
通用機器人領域的「ChatGPT時刻」近在咫尺,我講過的這些賦能技術,會在接下來幾年促成通用機器人領域快速又驚人的突破。
通用機器人之所以重要,是因為有履帶、輪子的機器人需要特殊環境適配,而有三類機器人無需特殊場地,能完美融入我們現有的世界,堪稱理想之選。
第一類是具身智慧機器人,有了具身智能,只要辦公室電腦算力夠,這類信息工作者機器人就能大顯身手。
第二類是自動駕駛汽車,畢竟我們花了一百多年建設道路和城市。
第三類就是人形機器人了,要是攻克這三類機器人相關技術,這將成為全球有史以來規模最大的技術產業,所以機器人時代馬上就要來了。
關鍵在於怎麼訓練這些機器人。對人形機器人來說,採集模仿信息很難,開車時我們一直在產生駕駛數據,但人形機器人要採集人類示範動作既費力又耗時。
所以,我們得想個巧妙辦法,利用人工智慧和 Omniverse,把成百上千的人類示範動作,合成為數百萬個模擬動作,讓 AI從中學習執行任務的方法,下面給大家展示具體怎麼做。
全球開發者都在打造下一代物理 AI,也就是具身機器人、人形機器人。開發通用機器人模型需要海量現實世界數據,採集、整理成本高昂。英偉達 Isaac Groot平台應運而生,為開發者提供四大利器:機器人基礎模型、數據管道、模擬框架,還有 Thor機器人計算機。
英偉達 Isaac Groot的合成運動生成藍圖,是一套模仿學習的模擬工作流程,讓開發者能用少量人類示範,生成指數級規模的大數據集。
首先,藉助Gro Teleop,熟練工人能用Apple Vision Pro進入機器人的數字孿生空間。
這意味著,就算沒有實體機器人,操作員也能採集數據,還能在無風險環境下操控機器人,避免物理損壞或磨損。要教會機器人一項任務,操作員通過幾次遠程操控示範,捕捉動作軌跡,再用 Gro Mimic把這些軌跡擴充成更大的數據集。
接著,用基於Omniverse和 Cosmos的Gro Gen工具,進行領域隨機化和3D到真實場景的放大,生成規模呈指數級增長的數據集。Omniverse和Cosmos的多元宇宙模擬引擎提供海量數據集,用於訓練機器人策略。策略訓練好後,開發者在Isaac Sim里進行軟體在環測試與驗證,再部署到真實機器人上。
由英偉達 Isaac Groot驅動,通用機器人時代即將來臨。
我們會有海量數據用於機器人訓練。英偉達Isaac Groot平台為機器人行業提供關鍵技術元素,加速通用機器人的開發。
AI超級計算機走向桌面
還有個項目得給大家介紹一下。要是沒有十年前啟動的這個超厲害的項目,這一切都無從談起,它在公司內部叫 Project Digits——深度學習GPU智能訓練系統。
在推出之前,我把DGX做了精簡,讓它與RTX AGX、OVC以及公司其他產品適配,DGX1的誕生徹底革新了人工智慧領域。
過去打造超級計算機,得自建設施、搭建基礎設施,工程浩大。我們打造的DGX1,讓研究人員和初創公司開箱即用,擁有AI超級計算機。
2016年,我把第一台DGX1送到一家叫OpenAI的初創公司,埃隆・馬斯克、伊利亞・蘇茨克韋爾等好多工程師都在場,共同慶祝它的到來。
顯然,它變革了人工智慧與計算領域。但如今人工智慧無處不在,不只是在研究機構和創業實驗室。就像開頭講的,人工智慧成了新的計算方式、軟體構建方式,每個軟體工程師、創意藝術家,只要用電腦當工具的人,都需要一台 AI超級計算機。
我一直希望 DGX1能再小點,想像一下,女士們、先生們。
這就是英偉達最新的 AI超級計算機,當下它叫 Project Digits,要是你有更好的名字,歡迎告訴我們。
厲害的是,這是台AI超級計算機,運行整個英偉達AI棧,英偉達所有軟體都能在上面跑,DGX雲也能部署,放哪兒都行,無線連接,也能當工作站用,像雲超級計算機一樣遠程訪問,英偉達AI都能運行。
它基於一款超神秘晶片GB110,我們最小的Grace Blackwell晶片,給大家看看裡面。
是不是超可愛?
這晶片已投產。這款高度機密的晶片由我們和全球領先的片上系統(SOC)公司 Mediate合作打造,把CPU和英偉達的 GPU通過晶片到晶片的Mv link連接起來。預計五月左右上市,太令人期待了。
它大概長這樣,要是你用PC、Mac,都沒關係,它是雲平台,能放在桌上,也能當Linux工作站用。要是想多幾台,用 Connect.X連起來,帶多個GPU,開箱即用,超算棧一應俱全。這就是英偉達 Project Digits。
我剛講了,我們有三款新的 Blackwell產品投產,不僅 Grace Blackwell超級計算機、nvlink72系統全球量產,還有三款全新 Blackwell系統。
一款驚艷的 AI基礎世界模型,全球首個物理 AI基礎模型開源了,激活全球機器人等行業;還有三類機器人,基於具身智能的人形機器人、自動駕駛汽車,都在發力。這一年成果豐碩。感謝各位的合作,感謝大家到場,我做了個短視頻,回顧去年,展望來年,播放一下。
祝大家在 CES收穫滿滿,新年快樂,謝謝!