跳票了近一年!OpenAI上線GPT-4o原生圖像生成功能＊阿波羅新聞網

3月26日消息，經過長達一年與人類訓練師協作優化，OpenAI於美國當地時間周二發布了GPT-4o原生多模態圖像生成功能，支持生成更加逼真的圖像。

用戶只需在ChatGPT中描述圖像（可指定寬高比、色號或透明度等參數），GPT-4o便能在一分鐘內生成相應圖像。

OpenAI在公告中確認，GPT-4o圖像生成功能具有以下特點：

—— 精準渲染圖像內文字，能夠製作logo、菜單、邀請函和信息圖等；

—— 精確執行複雜指令，甚至在細節豐富的構圖中也能做到；

—— 基於先前的圖像和文本進行擴展，確保多個交互之間的視覺一致性；

—— 支持各種藝術風格，從寫實照片到插圖等。

GPT-4o生成圖片效果展示

除了通過GPT-4o可以在ChatGPT中直接生成圖像，該模型還整合進了OpenAI的視頻生成平台Sora，進一步擴展了其多模態能力。

新模型即日起將作為ChatGPT的默認圖像生成引擎，向ChatGPT Free、Plus、Team及Pro用戶開放，取代此前使用的DALL-E 3。企業版、教育版以及API接口也將在不久後支持該功能。

據OpenAI官方說明，GPT-4o在多個方面相較於過去的模型進行了改進：

—— 更好的文本集成：與過去那些難以生成清晰、恰當位置文字的AI模型不同，GPT-4o現在可以準確地將文字嵌入圖像中；

—— 增強的上下文理解：GPT-4o通過利用聊天歷史，允許用戶在互動中不斷細化圖像，並保持多次生成之間的一致性；

—— 改進的多對象綁定：過去的模型在正確定位場景中的多個不同物體時存在困難，而GPT-4o現在可以一次處理多達10至20個物體；

—— 多樣化風格適應：該模型可以生成或將圖像轉化為多種風格，支持從手繪草圖到高清寫實風格的轉換。

作為去年推出的多模態模型，GPT-4o最初的定位是成本優化版的旗艦AI模型，具備生成和理解文本、視頻、音頻和圖像等能力。OpenAI表示，此次精調後的版本使普通用戶和企業能夠更輕鬆地創建逼真圖像、可讀文本段落，乃至公司logo和演示幻燈片等。

項目首席研究員Gabriel Goh透露，GPT-4o取得突破性進展的關鍵，源於人類訓練師對模型數據的標註工作——標註了AI生成圖像中的錯別字、畸形手腳和面部特徵等問題。通過「人類反饋強化學習」（RLHF）技術，模型學會了更精準地遵循人類指令，從而生成更準確且實用的圖像。

GPT-4o生成圖片效果展示

「人類反饋強化學習」是AI公司用來在初步訓練後進一步優化模型的常見技術。鑑於OpenAI的AI系統擁有龐大的用戶基礎——ChatGPT每周擁有超過4億用戶——這些人工訓練師的影響力不可忽視。OpenAI表示，參與該優化過程的訓練師團隊規模略超百人。

然而，GPT-4o的圖像生成技術仍然存在局限性。華爾街日報稱OpenAI展示的一個案例中，當用戶上傳了一張帶有兩扇窗戶的客廳照片，並要求重新布置家具時，AI在重構圖像時遺漏了一扇窗戶。

華爾街日報關於用戶圖片生成案例的報導

同時，AI圖像生成的使用仍然引發爭議。一些藝術家指控AI圖像生成器剽竊他們的作品，並威脅到他們的生計。

OpenAI首席營運長布拉德·萊特卡普對此回應稱，GPT-4o的訓練數據來自「公開可用的資料」以及與Shutterstock等公司的合作內容。

OpenAI總裁格雷格·布羅克曼早在2024年5月就預告過GPT-4o的原生圖像能力，但出於未公開的原因，該公司直到現在才發布該功能。此前，谷歌AI Studio的Gemini 2 Flash實驗模型已經推出了類似功能。

格雷格·布羅克曼此前預告GPT-4o原生圖像能力

現階段，GPT-4o取得了許多進步，但它仍然存在一些問題，其中包括：

—— 裁剪問題：像海報這樣的較大圖像可能會被過度裁剪；

—— 非拉丁字符的文本準確性：某些非英語字符可能無法正確呈現；

—— 小字體中的細節保留：小字號文本的細節可能會丟失或不夠清晰；

—— 編輯精確度：修改圖像的特定部分時，可能會意外影響其他元素。

OpenAI表示，正在通過持續的模型改進積極解決這些問題。

作為OpenAI對負責任AI開發的承諾的一部分，所有由GPT-4o生成的圖像都包含C2PA元數據，用戶可以驗證其AI來源。此外，OpenAI還建立了一個內部搜索工具，用於幫助檢測AI生成的圖像。

OpenAI強調，涉及真人圖像的內容會受到更嚴格的限制。