新聞 > 科教 > 正文

☕列印版 ◪圖片版 ◫PDF

Sora視頻翻車慘不忍睹?不懂物理初創公司已創死一片

【阿波羅新聞網 2024-02-29 訊】

Sora顛覆影視業，現在來看還遠。

Bloomberg記者親自試用後發現，Sora生成的視頻還是翻車嚴重。而且，它的速度太太太太慢了！不過儘管如此，OpenAI已經創死了一片初創公司。

雖然功能還未正式開放，但已經有外媒搶先上手體驗了！

結果就是——Sora翻車了！

最近，就在外界對Sora一片讚譽聲之時，一些冷靜的外媒，也開始發出了質疑的聲音。

Bloomberg認為：Sora的確令人印象深刻，但它尚未準備好迎接未來的黃金時段。

原因就在於，Sora現在對於身體部位的理解和物理學的複雜原理還無法完全掌握，並且，它處理請求的時間，實在是太長了！

用作者Peebles的話來說就是，Sora的速度太慢了，你可以在等待視頻生成時去吃點零食。

Sora翻車：鸚鵡猴子傻傻分不清，還巨慢

因為Sora至今仍在紅隊測試中，還無法直接訪問。只有被選中的藝術家、電影製作人和設計師才能獲得訪問系統的權限。

為了一睹傳說中視頻王炸模型的真正實力，Bloomberg的記者給OpenAI的研究者發去了這樣一段prompt——

「An overhead view of a parrot flying through a verdant Costa Rica jungle, then landing on a tree branch to eat a piece of fruit with a group of monkeys. Golden hour,35mm film.」

大意是：一隻絢麗多彩的鸚鵡在哥斯大黎加的繁茂叢林中翱翔，最終停落在一枝樹幹上，與一群猴子分享一塊甘甜的水果。正值一天中最為美妙的黃金時段，陽光透過樹冠，照在葉片和猴子潔白的毛髮上，閃爍著金色的光芒。

Sora生成的視頻是這樣的。

看上去還不錯，對不對？

然而如果仔細看，就會發現不少問題。

比如，鸚鵡的翅膀在飛過猴子時會發生扭曲。

prompt里只要求一隻鸚鵡，Sora卻生成了好幾隻。

此外，水果本身，以及上面變換莫測的爪子，都透出一股詭異的氣息……

最好笑的是，不僅其中一隻鸚鵡像是「掛了」似的脖子突然一歪，而且旁邊的猴子也秒變「不明生物」長出了一條鸚鵡尾巴。

對此，Sora作者、OpenAI科學家Bill Peebles是這樣解釋的：「的確，現在Sora在某個片段的不同階段會出現一些奇怪的動作。但是，Sora能夠對這種複雜程度的場景進行建模，已經表明了它的視頻生成能力有了質的飛躍。」

Sora什麼時候來？不急

具體哪一天能用上Sora呢，我們已知的是，至少目前還遙遙無期。

OpenAI發言人Natalie Summers表示，OpenAI沒有設定發布Sora的時間表，因為希望能降低它和選舉相關的安全風險。

畢竟，AI Deepfake已經多次有黑名單記錄，如果正值此時發布新的AI視頻工具，會讓OpenAI顯得很可疑。

且不管安全問題，Sora在準備好進入黃金時段之前，仍然有很長的路要走。

OpenAI自己也在技術報告中承認，Sora對身體部位的雜散問題和對物理學的混合理解，仍有很大的進步空間。

當然，這個問題也不是只有Sora才會遇到。它是Runway、Pika等AI視頻所共同面臨的問題。

Runway生成的威爾史密斯吃麵

而且，對於每個視頻，Sora都需要消耗更多的算力，也需要等待更長的時間。

這個時間，可不是像DALL-E3生成單個圖像那麼簡單。

Sora處理每個請求的時間究竟是多長呢？

OpenAI沒有明確回復，但Peebles表示，它「絕對不是即時的」，因為「你可以在等待模型運行的時候，去吃點零食。」

這個過程可能非常漫長，因為Bloomberg記者給了OpenAI四個prompt，但他們只給了兩個視頻，另外兩個實在是沒時間做了。

商標註冊信息，暴露Sora真實能力：難怪會狙擊Gemini1.5 Pro

就在最近，OpenAI申請的Sora商標註冊描述也曝光了！

其中對Sora能力的介紹如下——

生成視頻和圖像；

基於自然語言提示、視覺提示、文本、語音創建、生成和編輯視頻和圖像；

視頻和圖像識別、處理、分析、理解和生成；

編輯、組織、修改、傳輸、上傳、下載和分享視頻、圖像和音視頻材料；

創建和生成文本到視頻以及文本到圖像的內容。

文件曝光後，讓AI研究者們更吃驚了！

所以，Sora不僅可以生成視頻，還對視頻和圖像有理解能力？

谷歌的Gemini1.5 Pro可以分析1小時的視頻，而Sora也具有類似能力，真的可以說是降維打擊了。

大家後知後覺地明白過來：Gemini1.5 Pro發布後不久，OpenAI就拿出Sora來狙擊，看來還真是不無道理。

現在從OpenAI的模型推出計劃來看，Sora目前應該是處於「評估和疊代開發」階段。

下一步將是分階段推出階段，包括私人測試版、測試用例和進一步的安全測試。

搓搓手，目測一年內應該能等到。

Sora新演示來了！

與此同時，TikTok上，OpenAI的帳戶一夜爆火，幾天內漲粉18萬，收穫接近100萬贊。

而最近，Sora的TikTok帳號上還在不斷放出新視頻。

比如這個一廚房的廚師和廚具的視頻，就是Sora根據DALL-E3生成的圖像生成的視頻。

首先，DALL-E3生成了這樣一幅靜圖。

然後，Sora根據這幅靜圖，生成了下面這段視頻。

在評論區，有人留言表示，想看看Sora創作出從來不存在的生物。

現在，Sora也來交卷了。根據Prompt「創造一個從未存在過的逼真動物，自然紀錄片風格」，它生成的視頻是這樣的——

來源：小互

乍一看怎麼像是帕魯們來到3次元。（手動狗頭）

OpenAI創死所有初創公司，投資人大喜：還好我沒投

最近，所有VC的會上都在談Sora。

OpenAI的每一次技術突破，都拓展了資本圈對AI的想像空間。代價就是，大多創業公司的路，也被堵死了。

半個月前，Sam Altman發布AI技術Sora製作的超逼真電影視頻時，所有人都意識到，無論是科技行業還是好萊塢，都敲響了警鐘。

外媒The Information發現，自己長期跟進的至少七家開發AI視頻生成器的公司，已經感到了恐懼。

同時感到恐懼的，還有給他們投了超過5.5億美元的投資人。

在Sora視頻在全網引發狂潮後，一位投資人私下表示：太幸運了，最近一家熱門AI視頻初創公司的一輪融資，還好自己錯過了。

而另一位資助了AI視頻初創公司的投資人表示，讓自己感到欣慰的是，如果真的發生了這種情況，或許這家初創公司強大的領導者，會使其成為一個很好的收購目標。

Sora的視頻亮點，就在於它在模擬現實世界的物理原理，儘管並不完美。

但是AI視頻如此神速的進步速度令人震驚，也讓人不得不相信：它很快就能製作出成熟的電影了。

風險資本家馬特·圖爾克在X上的一篇帖子中半開玩笑地說，或許到2025年，我們就可以讓Sora拍一集今晚就要播出的《毒梟》，要求布拉德·皮特、野獸先生和特拉維斯·凱爾斯主演。

全世界看向Runway

Altman扔出Sora這個王炸後，所有目光都集中在了Runway上。

此前，在AI視頻領域，Runway可以算得上是領頭羊之一。

它的產品中添加了AI功能，甚至包括從頭開始創建視頻拆條的能力。

Runway的AI視頻生成器，使用了Runway自己開發的潛在擴散模型，因此市場認為這家小型初創公司有可能會迎頭趕上，也不無道理。

當然，現階段的Runway視頻，還無法和Sora對打。

因為解析度太低，它們會不由得讓人產生恐怖谷效應。

另一處鮮明的對比是，Runway用戶一次最多只能生成16秒的視頻，而Sora卻能做出一分鐘的長視頻。

Runway CEO Cristóbal Valenzuela表示：視頻模型代表了創意產業未來的一些最重要的技術，所以思考這個問題的人越多越好……還有很長的路要走。

其他競爭對手的發展，也不容小覷，比如Meta、Stable Diffusion、Pika等，最近都推出了類似的AI視頻產品。

以AI生成圖像聞名的AI初創公司Midjourney，現在也在準備自己的視頻產品。

大家共同的問題：如何盈利？

AI視頻，會成為搖錢樹嗎？

一個大問題是，AI視頻是否會像AI生圖一樣發展呢？

或許它會是一項令人印象深刻的壯舉，但不一定是搖錢樹。

只有Midjourney是例外，它獲得了超過2億美元的收入。

但其他的AI圖像生成器，甚至包括OpenAI的DALL-E3，其實並沒有賺多少錢。

Meta雖然擁有蓬勃發展的廣告業務，但並沒有試圖這樣做。

Sora的其他競爭對手，Pika、Stable Diffusion等等，也都沒有這樣做。

行業巨震，初創公司何去何從

對於AI視頻初創公司來說，好消息是，OpenAI不太可能讓人免費使用Sora。部分原因是，營運這項技術的成本很高。

這也就意味著，其他公司可以對自己的產品收費。

現在，它們還有機會！因為Sora在幾個月內，可能都不會開放使用。

還有一個未解之謎，Sora的訓練數據究竟是來自哪裡的呢？

有一些行業觀察人士（如Meta的AI領導者之一Soumith Chintala）推測，其中就有遊戲引擎生成的合成數據。

遊戲引擎可以渲染視覺效果，以前這個功能主要用於開發視頻遊戲。

現在，如果OpenAI能使用合成數據的話，這可能就意味著YouTube、好萊塢電影庫之類的專有數據集，對於開發AI視頻模型的重要性不如大多數研究者此前認為的那麼重要。

這也就意味著：如果AI開發者能生成良好的合成數據，也就可以賺錢了。

往遠了看，如今AI已經把人類的文本都學完了，下一步就是視頻。如果視頻素材也學完了，該怎麼辦？

有人說，那時就可以給大模型裝上攝影頭，因為人類世界每天需要學習的東西可太多了。

Sam Altman張口要7萬億美元，或許是OpenAI真的研究出了了不得的東西，比如即將成形的AGI。

算力、數據，手握這些資源的，就會得到第一個AGI。

責任編輯： zhongkang 　來源：新智元轉載請註明作者、出處並保持完整。

本文網址：https://tw.aboluowang.com/2024/0229/2024121.html

Sora 視頻翻車

相關新聞