不過說「開車」已經不準確,因為這回是新版FSD全程給馬斯克「代駕」,45分鐘裡他本人只上手干預了一次。
也就是鋼鐵俠親自上陣,搞了一場自動駕駛路測。
坐標加州Palo Alto,從特斯拉新工程總部出發,中途曾用谷歌地圖搜索扎克伯格家地址並導航。
馬斯克搭乘一輛老款Model S,硬體還是基於HW3的版本,但軟體已經是未正式發布的新版FSD V12。
儘管畫質不到480p,但這場𝕏平台上的直播,已吸引超1000萬人在線圍觀。
之所以備受矚目,倒不全是大傢伙吃瓜「馬扎籠鬥」的熱情太高,主要在於FSD V12被稱為特斯拉自動駕駛最重要的一次升級:實現了完全端到端(End-to-end)方案,輸入一端是圖像,輸出一端是對汽車的控制指令,中間完全由神經網絡處理。
馬斯克自己的說法要更咋呼一點:光子進,行為出,和人類一樣。
試駕過程中,馬斯克多次表示現在的系統沒有一行規則和條件判斷代碼,不需要高清網際網路地圖。
比如,在經過路邊一位騎行者時,馬斯克就強調「沒有任何代碼聲明要給騎自行車的人讓行,沒有等待x秒之類的東西,只有(神經)網絡。」
This is all net, baby, nothing but net.
知名科技博主Robert Scoble表示:世界從今晚開始改變。
十年後,人們將把這一時刻定義為機器人的首次公開演示,機器人僅通過看視頻就學會在現實世界中移動。
這是軟體構建方式的範式轉換。
馬斯克也回復他:準確的。
同樣令人驚訝的是,所需的推理計算功率只需要100W。
45分鐘路程僅一次干預
為了凸顯真實性,馬斯克從地圖上隨機選擇了目的地。
行駛沒一會兒,汽車來到了一條兩邊全部立滿紅色柱子的施工區域,對於這一「反常」路況,車輛順暢通過:
在本次路程的第一個紅燈之處,Model S完美停住。
等待左轉燈綠起之後,它便通過無保護左轉(UPL)非常流暢地駛入左邊的另一條馬路。
這是自動駕駛領域中一個比較難的場景,要考慮到地面引導標、左側行人、前方車輛等情況,馬斯克表示:
看直播可能看不太清楚,但車輛行駛得很平穩。
大約5分鐘時,車輛又碰上一片減速帶,Model S順利完成自動減速。與此同時,一輛自行車在右側飛速前進,但絲毫不會對它造成影響。
也禁住了環島的考驗。只見在這樣的環形交叉路口,Model S先等前方的兩輛白色汽車通過之後,便立刻轉彎進入:
大約10分鐘之後,車輛載著馬斯克到達了今天的第一個目的地,接著再前往下一個隨機地點。
期間汽車路過史丹福大學,人群變得多起來,Model S毫無壓力,並禮讓了行人:
由於直播逐漸進入晚尖峰時段,馬斯克也吐槽車開的有一點慢。
但一切都按照預期發生,直到19分左右,馬斯克進行了第一次干預,也是全程的唯一一次。
當時,想要直行的車輛在路口已經等了很久紅燈,而在對面信號燈剛剛轉為左轉狀態時,Model S竟突然跟著啟動。
不過馬斯克和旁坐的工程師反應迅速,連忙干預製止。
險情結束,老馬也直言:
這就是FSD v12還未真正公開發布的原因。
後面剩餘的25分鐘路程都順利結束,直播還展示了FSD的靠邊停車功能等等。
而在整個直播過程中,馬斯克反覆強調得最多的一點就是:
無論是最開始遇到的紅色立柱、減速帶,還是後面遇到的騎行路人、環島路口,FSD系統都不是靠任何一行控制代碼來完成決策的。
相反,FSD只是看了非常多的視頻,然後完成了訓練,得到了一個神經網絡。
(特斯拉Autopilot的決策從2020年開始由編程邏輯轉為視頻訓練的神經網絡,在FSD v12之前,v11版本控制堆棧中有超過30萬行C++代碼。)
像19分鐘的那次闖紅燈行為,馬斯克就告訴觀眾,解決方案本質就是再多餵更多交通信號燈的視頻,尤其是左轉燈的,然後就會起作用。
當然,胡亂投入大量視頻是不夠的,來自優秀人類駕駛員的高質量數據才是訓練特斯拉Autopilot實現FSD的關鍵。
大量平庸的數據並不能改善駕駛,數據管理實際上相當困難。我們有相當多的軟體去控制系統究竟選擇什麼數據、訓練什麼數據。
除了不靠任何代碼完成決策,馬斯克還強調:
FSD V12不用時刻聯網就能完成一切。
當然,如果有干預行為發生,系統會將它記錄下來並發回特斯拉進行分析。
由於決策全部在本地進行,特斯拉FSD用8個攝影頭以每秒36幀的速度進行拍攝,但系統的計算速度其實可以更快,達到每秒50幀,只可惜相機的速度已經到頭了。
不聯網進行決策也意味著地圖也不用隨時更新,用馬斯克的話來說:
系統只需要坐標,就會自行找到位置。
另外值得注意的是,本次測試FSD V12的Model S安裝的還是HW3。
在HW3上解決L5級自動駕駛之前,特斯拉可能不會在HW4車輛之上啟用FSD。這意味著HW4的FSD訪問權限可能推遲到2025年。
一萬張英偉達H100周一上線
作為知名的時間管理大師,馬斯克試駕途中還抽空語音連線了一個網絡討論會。
在這裡他回答的問題和透露的重點內容有:
為什麼改用端到端方案,優勢在哪?
馬斯克認為「人類就是這樣運作的」,人類用眼睛和生物神經網絡開車,自動駕駛用攝影機和數字神經網絡開車是正確的通用解決方案。
雖然神經網絡缺乏可解釋性,相應的司機也經常說不清楚如何做的決策,只是憑經驗。
乘客在做人類司機的計程車時,也無法準確知道司機在想什麼。而特斯拉屏幕上顯示的畫面,就是自動駕駛系統在「想什麼」的一個近似。
高端GPU將繼續短缺,世界進入強算力依賴階段。
馬斯克透露AI訓練主要還是用的英偉達硬體,特斯拉Dojo超算作為輔助,今年花了約20億美元在訓練上面(大部分是硬體資產)。
我認為未來全人類80%-90%的算力都會用在神經網絡上。
AI訓練需要把算力集中在一個地方,避免數據傳輸頻寬的瓶頸,也會帶來很大的電力負擔。
馬斯克在這裡還開了一個玩笑:Transformer架構的神經網絡需要越來越多的硬體Transformer。
比GPU更缺的是高速連接設備。
面對「擁有5000張H100是什麼感覺?」的提問,馬斯克表示:說少了。
包含1萬張英偉達H100的新算力集群,正在24/7加急準備中,周一(也就是今天)上線。
而且不像很多公司聲稱「擁有」算力其實是租的雲端運算服務,特斯拉就是真的買了1萬張GPU自己搭系統。
在這樣的大規模集群中,設備之間的網絡連接非常關鍵,英偉達InfiniBand交換機可能會比GPU本身更缺。
……
直播結束後,特斯拉AI基礎設施主管Tim Zaman進一步透露,即將上線的算力集群擁有200PB的熱緩存,比訓練大模型的系統多幾個數量級。
也是一個讓很多從業者覺得不可思議的地方,比如GitHub前CEO。
Tim Zaman表示嘗試了很多雲端運算供應商,但沒有一個足夠好,聘請了存儲系統架構師來開發AI專用的分布式文件系統。
最後,回到此次直播測試。
不少網友不吝惜自己的讚美之詞,並希望能夠早日試駕一把。
還有網友調侃:
看起來FSD已經準備好迎接挑戰了,那麼,不來試一把亞洲的終極boss之戰嗎?
be like this(手動狗頭):
值得一提的是,這把直播除了秀特斯拉新版FSD,也是𝕏直播功能的一場壓力測試。
至於最終也沒打上的「馬扎大戰」,似乎已經不那麼重要了。
馬斯克給自己打的圓場是「小扎在這片地區有8000多房產,要是真找到他了我就去挑戰」。