新聞 > 科教 > 正文

跳票了近一年!OpenAI上線GPT-4o原生圖像生成功能

3月26日消息,經過長達一年與人類訓練師協作優化,OpenAI於美國當地時間周二發布了GPT-4o原生多模態圖像生成功能,支持生成更加逼真的圖像。

用戶只需在ChatGPT中描述圖像(可指定寬高比、色號或透明度等參數),GPT-4o便能在一分鐘內生成相應圖像。

OpenAI在公告中確認,GPT-4o圖像生成功能具有以下特點:

—— 精準渲染圖像內文字,能夠製作logo、菜單、邀請函和信息圖等;

—— 精確執行複雜指令,甚至在細節豐富的構圖中也能做到;

—— 基於先前的圖像和文本進行擴展,確保多個交互之間的視覺一致性;

—— 支持各種藝術風格,從寫實照片到插圖等。




GPT-4o生成圖片效果展示

 


除了通過GPT-4o可以在ChatGPT中直接生成圖像,該模型還整合進了OpenAI的視頻生成平台Sora,進一步擴展了其多模態能力。

新模型即日起將作為ChatGPT的默認圖像生成引擎,向ChatGPT Free、Plus、Team及Pro用戶開放,取代此前使用的DALL-E 3。企業版、教育版以及API接口也將在不久後支持該功能。

據OpenAI官方說明,GPT-4o在多個方面相較於過去的模型進行了改進:

—— 更好的文本集成:與過去那些難以生成清晰、恰當位置文字的AI模型不同,GPT-4o現在可以準確地將文字嵌入圖像中;

—— 增強的上下文理解:GPT-4o通過利用聊天歷史,允許用戶在互動中不斷細化圖像,並保持多次生成之間的一致性;

—— 改進的多對象綁定:過去的模型在正確定位場景中的多個不同物體時存在困難,而GPT-4o現在可以一次處理多達10至20個物體;

—— 多樣化風格適應:該模型可以生成或將圖像轉化為多種風格,支持從手繪草圖到高清寫實風格的轉換。

作為去年推出的多模態模型,GPT-4o最初的定位是成本優化版的旗艦AI模型,具備生成和理解文本、視頻、音頻和圖像等能力。OpenAI表示,此次精調後的版本使普通用戶和企業能夠更輕鬆地創建逼真圖像、可讀文本段落,乃至公司logo和演示幻燈片等。

項目首席研究員Gabriel Goh透露,GPT-4o取得突破性進展的關鍵,源於人類訓練師對模型數據的標註工作——標註了AI生成圖像中的錯別字、畸形手腳和面部特徵等問題。通過「人類反饋強化學習」(RLHF)技術,模型學會了更精準地遵循人類指令,從而生成更準確且實用的圖像。

 

 




GPT-4o生成圖片效果展示

 


「人類反饋強化學習」是AI公司用來在初步訓練後進一步優化模型的常見技術。鑑於OpenAI的AI系統擁有龐大的用戶基礎——ChatGPT每周擁有超過4億用戶——這些人工訓練師的影響力不可忽視。OpenAI表示,參與該優化過程的訓練師團隊規模略超百人。

然而,GPT-4o的圖像生成技術仍然存在局限性。華爾街日報稱OpenAI展示的一個案例中,當用戶上傳了一張帶有兩扇窗戶的客廳照片,並要求重新布置家具時,AI在重構圖像時遺漏了一扇窗戶。

 

 

 



華爾街日報關於用戶圖片生成案例的報導


同時,AI圖像生成的使用仍然引發爭議。一些藝術家指控AI圖像生成器剽竊他們的作品,並威脅到他們的生計。

OpenAI首席營運長布拉德·萊特卡普對此回應稱,GPT-4o的訓練數據來自「公開可用的資料」以及與Shutterstock等公司的合作內容。

OpenAI總裁格雷格·布羅克曼早在2024年5月就預告過GPT-4o的原生圖像能力,但出於未公開的原因,該公司直到現在才發布該功能。此前,谷歌AI Studio的Gemini 2 Flash實驗模型已經推出了類似功能。



格雷格·布羅克曼此前預告GPT-4o原生圖像能力

現階段,GPT-4o取得了許多進步,但它仍然存在一些問題,其中包括:

—— 裁剪問題:像海報這樣的較大圖像可能會被過度裁剪;

—— 非拉丁字符的文本準確性:某些非英語字符可能無法正確呈現;

—— 小字體中的細節保留:小字號文本的細節可能會丟失或不夠清晰;

—— 編輯精確度:修改圖像的特定部分時,可能會意外影響其他元素。

OpenAI表示,正在通過持續的模型改進積極解決這些問題。

作為OpenAI對負責任AI開發的承諾的一部分,所有由GPT-4o生成的圖像都包含C2PA元數據,用戶可以驗證其AI來源。此外,OpenAI還建立了一個內部搜索工具,用於幫助檢測AI生成的圖像。

OpenAI強調,涉及真人圖像的內容會受到更嚴格的限制。

 

 

 



山姆·奧特曼在新能力上線後發布「小作文」,稱此次發布標誌著「創作自由的新高峰」,並強調用戶將能夠創建各種視覺內容,OpenAI將在真實世界的使用基礎上觀察並完善其方法。

 

責任編輯: zhongkang  來源:騰訊科技 轉載請註明作者、出處並保持完整。

本文網址:https://tw.aboluowang.com/2025/0326/2195558.html