新聞 > 科教 > 正文

☕列印版 ◪圖片版 ◫PDF

4K視頻生成!Google版Sora秀肌肉,再度狙擊OpenAI

【阿波羅新聞網 2024-12-18 訊】

就在剛剛，Google Deepmind推出了新的視頻模型 Veo2和 Imagen3。

Google CEO Sundar Pichai第一時間在 X平台發文介紹了這兩款產品：

我們非常榮幸推出 Veo2，這款全新、最先進的視頻模型（具備更強的真實世界物理與運動理解，支持最高4K解析度）。

你可以在 VideoFX上加入等候名單。

我們改進後的 Imagen3模型同樣達到了行業領先的成果，並將於今天在100多個國家推出，屆時將在 ImageFX平台上線。

根據官方介紹，Veo2帶來了多項重要突破：

支持製作高達4K解析度的視頻

能夠識別指令中的攝影機控制，例如廣角、第一人稱視角和無人機拍攝

能更真實地模擬物理現象和人類表情變化

相比其他視頻模型常見的「錯誤生成」問題（如多餘手指或意外物體），Veo2顯著降低了這類錯誤的出現頻率，大幅提升了輸出結果的真實度。

在安全性方面，所有由 Veo2生成的視頻都會嵌入不可見的 SynthID水印，便於識別其 AI生成的屬性。

Google Labs的視頻生成工具 VideoFX已集成了 Veo2的新功能，同時擴大了用戶訪問範圍。

不過，DeepMind有意控制推廣的速度，計劃在明年將 Veo2的功能逐步引入 YouTube Shorts等產品，以在擴展應用範圍的同時確保模型質量和安全性。

在性能評測方面，Veo2展現出了領先優勢。

在 Meta發布的基準測試數據集 MovieGenBench上，參與者觀看了1003個提示及其對應的視頻。結果顯示，Veo2在整體用戶偏好度和指令遵循準確性方面均位居榜首。

測試統一在720p解析度下進行，其中 Veo生成8秒視頻，VideoGen生成10秒視頻，其他模型則生成5秒視頻。評分者觀看了所有視頻的完整長度。

注意看，對比測試對象中也出現了國產 AI視頻模型（可靈 AI、Minimax）以及最新發布的 Sora Turbo。

所有比較均在720p解析度下進行。Veo的視頻樣本長度為8秒，VideoGen的為10秒，其他模型的為5秒。評分者將看到完整視頻長度。

儘管 Veo2取得了顯著進步，但在生成真實、動態或複雜場景的視頻時，仍面臨著保持場景連貫性的挑戰。DeepMind表示將持續優化這些領域的性能。

與此同時，Imagen3也實現了重大突破。

新版本不僅支持創作多種藝術風格（包括現實主義、幻想、肖像等），能夠更精確地將文字描述轉化為圖像，以及生成更明亮、構圖更協調的視覺作品。

即日起，Imagen3將通過 Google Labs的 ImageFX在全球超過100個國家推出。

此外，Google還推出了名為 Whisk的工具。

該工具在技術層面整合了最新的 Imagen3模型與 Gemini的視覺理解能力。

Gemini模型可以自動為圖像生成詳細描述，這些描述隨後會作為輸入傳遞給 Imagen3。

用戶可以通過導入或創作圖像，表達特定主題、場景和風格需求，並將這些元素融合重組，創作數位化產品，比如毛絨玩具、琺瑯別針或貼紙等。

今天 DeepMind在核心技術上的突破，無疑比 OpenAI簡單的功能疊加更具價值，從嵌入 SynthID水印到採取漸進式推廣策略，也讓這次更新顯得格外厚重。

真正 AI產品的更新，不僅在於它能做什麼，更在於它如何做，以及為誰而做。

責任編輯：李華　來源：AppSo 轉載請註明作者、出處並保持完整。

本文網址：https://tw.aboluowang.com/2024/1218/2146668.html

!Google Sora OpenAI

相關新聞