GPT-4o的多模態生圖,讓整個設計圈開始都emo了＊阿波羅新聞網

GPT4o的多模態生圖前天上線之後。

經過兩天的發酵，含金量還在不斷提升。

在我的群里，已經能看到越來越多的，進入到實際生產環節的例子。

比如@銀海的直接做商品圖的翻譯和合成，這是原來的算法，很難做的效果，但是現在，有手就行。

非常複雜的電商流程，一張原始圖，換產品換臉換衣服。

比如@歸藏的直接把UI圖放樣機裡面的例子，如果做過UI或者產品設計的朋友肯定都知道，以前我們在做展示，或者做匯報的時候，經常做樣機做的挺痛苦的。

比如給他頭像，畫的兩套表情包，是可以直接上架到微信表情商店的那種。

來自一個頂級消費品公司的電商設計團隊負責人@黃花魚，用GPT-4o來直接做之前非常流行的3D品牌海報。

比如我一個很喜歡的小紅書AI博主@Rico有三貓，用GPT-4o給她做小紅書封面。

也用GPT-4o直接做商品圖翻譯出海。

群友@默月僉在用GPT-4o出蜜蜂的解剖科普圖。

一個很專業的公眾號AI博主@阿真lrene，不僅用GPT-4o生成複雜的漫畫，還能摳圖，一鍵直出透明通道的PNG圖。

乾死各種摳圖軟體的不是更牛逼的摳圖軟體，而是大模型。。。

還有朋友@不知名網友虎子哥，用GPT-4o給他自己家的房子裝修。。。

還有一些我確實不知道源頭的但是被傳播的蠻廣的例子（如有作者，歡迎評論區認領）。

給幾個家具做一個展示圖，這個場景在電商領域無敵。

之前我寫可靈的AI模特的時候，很多人問，能不能讓模特戴首飾？現在，可以了。

還用它，直接P圖，消除人物。

老照片一鍵修復+上色。

甚至，還可以模仿字體做字體設計。

在GPT-4o的衝擊下，N多的設計師和創業者，都有點emo了。

比如就有大佬在X上感嘆道：

朋友圈裡還看到了一張圖，是glif的老闆，在X上發的。

紀念ComfyUI，紀念一切的AI圖像工作流。

OpenAI的一次更新，又屠殺了一堆公司。

又一次深刻的闡明了那句《三體》中的經典台詞：

我消滅你，與你無關。

GPT-4o的衝擊當然是有，但是，他的上限在哪？能做到什麼地步？真的能徹底替代ComfyUI的AI圖像工作流嗎？

我想弄清楚這個答案。

首先我覺得我還是要跟大家非常簡單的用一兩句話解釋一下ComfyUI，讓大家知道這玩意是個啥，我們才好繼續往下聊。

ComfyUI是一個非常專業的工作流工具，不局限於AI繪圖，AI視頻啥的也都可以往裡面接。他的界面大概是這樣的，很像電路板。

這個就是在Liblib上搭的ComfyUI工作流。

它是以節點方式，把各個工具、各個模型給串起來，形成一整套的工作流，比如一張圖進去，經過各種節點和插件，輸出一個完全風格不同的AI視頻，這都是OK的。

坦率的講，我不是ComfyUI的專家的，做過的工作流也不多，我覺得在這個領域，我並沒有那麼強的發言權，所以。

我去請教了一下我的1個好朋友，AI繪圖大神@煉丹師忠忠。

我想聽聽，他的看法。

首先是，GPT-4o對電商設計的衝擊到底有多大？

我跟忠忠聊了很久。

最後得到的結論，跟我自己在設計行業里感受到的水溫差不多。

對於普通水平的電商設計師，肯定是有打擊的，他們原有的技能水平也就只能產出跟gpt4o差不多的圖，相對來說意義不大了。

上游的營運專員可以自己操作工具來生產一樣質量的圖。跟被衝擊的插畫師類似，可能會變為幫忙修補gpt4o產出的圖的bug，還有疊加原圖部分細節上去加強細節還原（類似於高低頻修複流程）。

生產成本降低後，需求量會變大，原本用不起各種華麗背景圖包裝的商家，現在也用的起了。

從效果上極簡操作就能生圖的工具有美圖設計室等一堆工具，GPT4o只是在某些效果方面更進一步而已，對於專業級的實際商業生產的影響可能沒有那麼大。

而從視覺設計角度，對現有的整個開源生態，反而是利多作用。

忠忠舉了自己設計的公司IP的例子。

現在，可以一句話把IP的3D模型，直出到品牌海報上，不需要走以前的3D建模+渲染了，大大節省了時間。

同時，更有趣的一點是，GPT-4o可以根據一張IP草圖，來生成這個IP的各角度視圖。

而這些圖，會進一步推動flux等開源模型的微調版本的效果。

你可能會問，都有GPT-4o了，為什麼還要去微調flux，在ComfyUI搭工作流用呢？這不是脫褲子放屁多此一舉呢？

其實有兩個原因。

數據隱私性和精準性。

數據隱私很好解釋，就是GPT-4o是一個閉源的模型，後面最多最多也就是開放一個API，讓大家接到ComfyUI裡面去用，但是，就OpenAI這個尿性，我們給過去的東西，大概率就成他後續的訓練素材了。

舉個例子，《流浪地球3》2027年上映，要是現在美術組把核心概念圖或者設定圖直接灌給GPT-4o做一些處理，到時候，《流浪地球3》電影還沒上映，設定圖你可以直接在GPT-5o裡面讓它畫出來，這特麼就炸了。。。

所以，數據隱私性至關重要，在真正的生產環境裡，特別是一些大廠里，必須只能用本地的ComfyUI搭，真正的輸出，必須是本地環境，用開源的模型。

所以，這個時候，我們就可以用一些不敏感的信息，扔給GPT-4o，來輔助生成數據集，反過來微調自己的flux模型，這個點，真的很有用。

精準性其實也很簡單，我們回過頭來看忠忠用GPT-4o輸出的自己家IP的海報。

先不說其他的細節了，這幾處，你是能發現一些明顯的BUG的。

這其實在生產環境裡，這種BUG是品牌方覺得不可能接受的，就想你給一個手機產品做廣告，你把人手機弄變形了，你跟人說不行AI出得就是這樣的，你看對面會不會把你掛在電風扇上轉著打。

而這個時候，用Flux專門微調的Lora，是可以完美的解決這種精準性和一致性的問題的。

這其實就是普通設計場景和專業設計場景的區別。

GPT-4o當然可以替代大部分的普通工作流，會讓ComfyUI里一大批的工作流失去價值，但是這就不代表，ComfyUI失去價值了。

很簡單的一點是，在專業的設計工作里，純對話式的簡單界面滿足不了複雜專業的需求的。

就像你問一個專業設計師，為什麼設計是用PS做設計，而不用美圖秀秀來做設計，對方只會把你當傻子。

在真正的專業的AI設計工作里，可控性，很多時候非常的重要。

需要精確的規定重繪區域，需要精確的調節風格效果，出圖尺寸比例等，所以在專業生產中需要精確調節的細節，不能指望OpenAI全做成功能。

還有前後處理流程，比如說前置的裁剪，摳圖，語義識別，後置的比如對圖片的放大，貼回原圖細節（高低頻修復），再接入其他工作流繼續處理等。

自動化一鍵完成的效率要比多輪對話高很多。

包括在一些精準度要求高的產品和場景上，GPT-4o目前還達不到專業級的水準。

看個例子。

比如我們要把問界M9這款車，換到另一個場景里。車這種產品，跟筆、戒指、香水等等要求的精細度，完全不一樣。

這是GPT-4o出的圖。

而如果我們用大佬的牛逼工作流呢？

生成出來的效果在整體比例和質感上，是更好的。

對比應該非常直觀了。

這裡我要給自己疊個甲，我並不是在這裡鼓吹，GPT-4o不行，ComfyUI的效果可以吊打GPT-4o。

如果是這樣的話，我也不會連更兩篇，來給大家看一看，GPT-4o，有多酷，有多強。

我想說的是，GPT-4o，跟當年的SD、Midjorney、Runway、可靈等等AI工具是一樣的。

會無差別替代所有這個行業裡面的初級執行職位。

屠殺所有曾經在工程層面對大模型進行的一些優化。

然後，一點一點侵蝕更上層的建築。

它更像是一層層洶湧上漲的潮水，將整個AI圖像領域原有的邊界打得支離破碎。

都說做AI產品，要看到大模型的邊界，在邊界之外的安全地帶做。

但是現在，你根本不知道邊界在何方。

那些看似高聳的技術壁壘與工作流程，如果只是基於簡單組裝或者初級執行的邏輯，正在被GPT-4o以近乎暴力的方式消解。

絕大多數機械式的製作工作，一旦被強大的多模態理解與生成替代，就會像那些轟然倒塌的圍牆一樣，被歷史的風塵輕易覆蓋。

有沒有一種第一次工業革命時候，機器代替手工勞動的即視感？

歷史總是在不斷的重複。

可一如上文所言，這絕不代表ComfyUI之流就會被完全淘汰。

在工業級、專業級的深度工作流里，人們對數據安全、設計精度、可控度的需求不可能憑空消失。

那種圖像與視頻的多次處理、分層輸出、版本管理、腳本化批量運行、自動化節點銜接，只要是大型企業或核心團隊，都會很在意。

GPT-4o會在C端和中小B端市場裡摧枯拉朽，取代了大量低端或者重複性工作。

而ComfyUI、Flux、ControlNet等開源生態則在更專業的領域繼續進化，利用它們精細、可控、可離線部署的特性，為高端客戶或機密項目提供服務。

這氣勢就像雲端辦公與本地辦公的關係一樣，前者無限便捷，後者安全可控。

也如同家用轎車與頂級跑車的分別，各自目標用戶並不衝突。

GPT-4o也一定會不斷進化，去擴大自己的邊界蠶食更多的場景。

開源生態也會有各種可以復刻效果的模型、產品出來，從而進行私有化。

沒什麼能夠阻止浪潮向前。

要麼成為浪潮的追隨者，要麼成為浪潮的推手。

這二者，都肯定比做一塊沉在海底的礁石，要精彩得多。

你說是嗎。

多模態又考驗算力了 ChatGPT文生圖功能火爆奧爾特曼：GPU冒煙了

隨著OpenAI的圖像生成功能完成重大升級，新的問題出現了。

OpenAI創始人Sam Altman表示：ChatGPT的文生圖應用需求過高，我們的GPU「冒煙了」（melting，原為融化之意），在努力提高效率的同時，將暫時對ChatGPT生成圖片的功能引入一些速率限制。

這意味著，OpenAI將對ChatGPT的圖像生成功能實施臨時限速，降低單位時間內的請求處理量，緩解GPU過載壓力，並優先保障文本生成、對話等核心功能的穩定性，或許將暫時放緩圖像生成的技術優化節奏。

此前3月26日，OpenAI推出基於GPT-4o模型的圖像生成功能——Images in ChatGPT，用戶可在ChatGPT及Sora平台直接通過自然語言指令生成、編輯圖像，支持多輪疊代優化。這標誌著ChatGPT正式將文本、圖像、代碼等多模態能力深度整合，實現從單一語言模型向全模態智能體的跨越。

該功能上線後，以「動動嘴就能P圖」的便利迅速火爆，網際網路平台上湧入大量由個人照片、知名梗圖轉變而來的「吉卜力」卡通風格圖片。連Altman也感嘆起該功能帶來的潑天流量：「自己過去十年埋頭苦幹做AI，試圖幫助實現超級智能來治癒癌症之類的事情。前7.5年幾乎無人問津，接下來的兩年半，做什麼都會引來所有人的厭惡。然後某天醒來收到幾百條消息，人們告訴你被畫成了吉卜力風格的美少年。」

Sam Altman在社交平台上的新頭像，生成自Images in ChatGPT

生成自Images in ChatGPT

生成自Images in ChatGPT

與此同時，由於圖像生成功能的受歡迎程度遠超預期，OpenAI原本計劃本周向所有用戶推送這項功能，但現在「被迫」推遲了向免費用戶開放新功能的時間。

與作為擴散模型運行的DALL•E根本區別是，GPT-4o圖像生成是原生嵌入在ChatGPT中的自回歸模型。OpenAI根據在線圖像和文本的聯合分發來訓練模型，使得模型可以學習圖像與語言的關係，使其生成有用、一致且具備上下文感知的圖像。

GPU就像一群超級快的「畫師」，能同時處理大量計算任務，生成圖片（如DALL•E、Stable Diffusion）需要AI逐像素計算，每一步都要處理海量數據。而讓AI生成更精確、更高清的圖像依賴於GPU的大規模並行計算。OpenAI提到，因為這個模型會創建更詳細的圖片，所以圖像需要更長的渲染時間，通常會達到一分鐘。

如此一來，文生圖功能的用戶越多，需要的GPU算力成倍增長。

解決方式主要有兩種，更強的GPU或更高效的AI模型，前者走「力大磚飛」路線，後者寄希望於算法的優化，即通過改進AI算法讓同樣的GPU能處理更多任務（比如用更小的模型或壓縮技術）。

作為AI領域的頭部玩家，OpenAI背後的GPU儲備自然是業內頂尖水準。根據技術諮詢公司Omdia的分析，微軟作為OpenAI的主要投資者，在2024年購買了約48.5萬塊英偉達的Hopper晶片，是其主要競爭對手Meta的兩倍，這使其成為英偉達GPU的最大買家。OpenAI的大模型正是用微軟的Azure雲基礎設施進行訓練。

可以說，OpenAI因新功能面臨的問題，折射了AI多模態技術發展中的資源與需求平衡難題，一方面，AI應用對GPU等算力資源的需求依然龐大，另一方面，行業繼續呼喚技術疊代，以求高效利用現有資源

責任編輯： zhongkang 　來源：數字生命卡茲克/財聯社轉載請註明作者、出處並保持完整。

GPT-4o的多模態生圖,讓整個設計圈開始都emo了

相關新聞