新聞 > 科教 > 正文

4K視頻生成!Google版Sora秀肌肉,再度狙擊OpenAI

就在剛剛,Google Deepmind推出了新的視頻模型 Veo2和 Imagen3。

Google CEO Sundar Pichai第一時間在 X平台發文介紹了這兩款產品:

我們非常榮幸推出 Veo2,這款全新、最先進的視頻模型(具備更強的真實世界物理與運動理解,支持最高4K解析度)。

你可以在 VideoFX上加入等候名單。

我們改進後的 Imagen3模型同樣達到了行業領先的成果,並將於今天在100多個國家推出,屆時將在 ImageFX平台上線。

根據官方介紹,Veo2帶來了多項重要突破:

支持製作高達4K解析度的視頻

能夠識別指令中的攝影機控制,例如廣角、第一人稱視角和無人機拍攝

能更真實地模擬物理現象和人類表情變化

相比其他視頻模型常見的「錯誤生成」問題(如多餘手指或意外物體),Veo2顯著降低了這類錯誤的出現頻率,大幅提升了輸出結果的真實度。

在安全性方面,所有由 Veo2生成的視頻都會嵌入不可見的 SynthID水印,便於識別其 AI生成的屬性。

Google Labs的視頻生成工具 VideoFX已集成了 Veo2的新功能,同時擴大了用戶訪問範圍。

不過,DeepMind有意控制推廣的速度,計劃在明年將 Veo2的功能逐步引入 YouTube Shorts等產品,以在擴展應用範圍的同時確保模型質量和安全性。

在性能評測方面,Veo2展現出了領先優勢。

在 Meta發布的基準測試數據集 MovieGenBench上,參與者觀看了1003個提示及其對應的視頻。結果顯示,Veo2在整體用戶偏好度和指令遵循準確性方面均位居榜首。

測試統一在720p解析度下進行,其中 Veo生成8秒視頻,VideoGen生成10秒視頻,其他模型則生成5秒視頻。評分者觀看了所有視頻的完整長度。

注意看,對比測試對象中也出現了國產 AI視頻模型(可靈 AI、Minimax)以及最新發布的 Sora Turbo。

所有比較均在720p解析度下進行。Veo的視頻樣本長度為8秒,VideoGen的為10秒,其他模型的為5秒。評分者將看到完整視頻長度。

儘管 Veo2取得了顯著進步,但在生成真實、動態或複雜場景的視頻時,仍面臨著保持場景連貫性的挑戰。DeepMind表示將持續優化這些領域的性能。

與此同時,Imagen3也實現了重大突破。

新版本不僅支持創作多種藝術風格(包括現實主義、幻想、肖像等),能夠更精確地將文字描述轉化為圖像,以及生成更明亮、構圖更協調的視覺作品。

即日起,Imagen3將通過 Google Labs的 ImageFX在全球超過100個國家推出。

此外,Google還推出了名為 Whisk的工具。

該工具在技術層面整合了最新的 Imagen3模型與 Gemini的視覺理解能力。

Gemini模型可以自動為圖像生成詳細描述,這些描述隨後會作為輸入傳遞給 Imagen3。

用戶可以通過導入或創作圖像,表達特定主題、場景和風格需求,並將這些元素融合重組,創作數位化產品,比如毛絨玩具、琺瑯別針或貼紙等。

今天 DeepMind在核心技術上的突破,無疑比 OpenAI簡單的功能疊加更具價值,從嵌入 SynthID水印到採取漸進式推廣策略,也讓這次更新顯得格外厚重。

真正 AI產品的更新,不僅在於它能做什麼,更在於它如何做,以及為誰而做。

責任編輯: 李華  來源:AppSo 轉載請註明作者、出處並保持完整。

本文網址:https://tw.aboluowang.com/2024/1218/2146668.html