北京時間8月8日凌晨1點,OpenAI推出其最新大型人工智慧模型GPT-5,這是公司迄今最智能、快速且實用的AI系統。
OpenAI執行長薩姆·奧特曼(Sam Altman)稱,GPT-5如同博士級專家團隊,內置推理能力,能在編碼、數學、寫作、醫療和視覺感知等領域提供專家級回答,顯著超越前代模型。
GPT-5現通過ChatGPT向所有用戶開放,包括免費、Plus、Pro和Team用戶。免費用戶首次體驗推理模型,達到限額後切換至GPT-5 mini。Plus用戶享有更高使用限額,Pro用戶可無限制訪問GPT-5及更強大的GPT-5 Pro。企業版和教育版用戶將在約一周後獲得訪問權限。OpenAI還為開發者提供GPT-5、GPT-5 mini和GPT-5 nano三種API版本,滿足不同需求。




GPT-5在多項基準測試中創下新高:數學(AIME 2025無工具得分94.6%)、編碼(SWE-bench Verified 74.9%,Aider Polyglot 88%)、多模態理解(MMMU 84.2%)和醫療(HealthBench Hard 46.2%)。
GPT-5顯著減少「幻覺」,在匿名ChatGPT流量測試中,回答包含事實錯誤的概率比GPT-4o低45%,推理模式下比OpenAI o3低80%。
在LongFact和FActScore等事實性基準測試中,GPT-5(帶推理)的幻覺率約為o3的六分之一,確保長篇內容更準確。OpenAI引入「安全完成」訓練,模型在處理模糊或雙重用途問題時提供高層次、安全的回答,並透明解釋拒絕原因,欺騙率從4.8%降至2.1%。
OpenAI在GPT-5開發過程中進行了廣泛的安全評估,包括5000小時的測試。OpenAI稱,GPT-5不會直接拒絕回答可能存在風險的問題,而是採用「安全完成」策略,提供符合安全限制的高層次回答,以避免潛在危害。
在簡報會上,OpenAI展示了GPT-5的「氛圍編碼」功能,即用戶通過簡單的文字提示即可生成軟體。OpenAI的研究人員要求GPT-5開發一個幫助英語使用者學習法語的網頁應用,需具備吸引人的主題,包括閃卡、測驗和每日進度跟蹤功能。
OpenAI在兩個GPT-5窗口中輸入相同提示,模型在幾秒內生成了兩個不同的應用。OpenAI的研究人員表示,這些應用「有些粗糙」,但用戶可根據需要進一步調整AI生成的軟體,例如更改背景或添加新標籤。

微軟執行長薩蒂亞·納德拉(Satya Nadella)周四在X平台發帖稱:「難以相信當前距奧特曼在雷德蒙德向世界首次展示GPT-4僅過去兩年半時間,技術進步之快令人驚嘆。」他指的是2023年2月奧特曼在微軟華盛頓總部展示GPT-4的場景。
根據微軟的博客文章,GPT-5將迅速集成到微軟產品中,包括Microsoft 365 Copilot、面向消費者的Copilot以及供開發者將AI模型融入第三方應用的Azure AI Foundry。
企業文件管理公司Box近幾周對GPT-5進行了廣泛測試。Box執行長亞倫·列維(Aaron Levie)表示,以往AI模型在處理複雜數學或長文檔邏輯時常失敗,但GPT-5是「徹底的突破」。他在接受CNBC採訪時表示:「該模型能保留更多信息,並運用更高水平的推理和邏輯能力進行決策。」
GPT-5發布:模型能力全面「屠榜」,構建「超級智能」第一步
經歷過無數次「跳票」之後,GPT-5 終於來了。
北京時間 8 月 8 日凌晨一點,頗有新一代「科技春晚」架勢的 OpenAI 夏季發布會拉開帷幕。
與此前 OpenAI 速通式的發布會明顯不同,這次 OpenAI 準備了時長超過一個小時的發布會直播幾波人馬輪番上陣,你方唱罷我登場,從各種角度展示 GPT-5 的強悍性能。

先說重點:GPT-5 在多個領域的表現都迎來了全面提升,在文本、WebDev 和視覺感知能力領域排名第一;在硬提示、編碼、數學、創造力、長查詢等方面排名第一 GPT-5,在代號為「峰會」的測試下,目前保持著截至目前最高的 Arena 分數,可以說是字面意義上的「屠榜」了。

Sam Altman 表示,GPT-4o 就像中學生,而 GPT-5 就像大學生,甚至形容 GPT-5 是第一部配備視網膜顯示屏的 iPhone——「你問它一個問題,也許能得到正確答案,也許會得到一些瘋狂的東西。GPT-4 則感覺像在和一名大學生對話。而 GPT-5,是第一次讓我真正感覺像在與一位博士級別的專家交談。」Sam Altman 這樣介紹 GPT-5 的能力提升。
儘管 ChatGPT 的周活躍用戶已接近 7 億,但 OpenAI 過去一段時間實際上並未擁有行業領先的前沿模型。現在,OpenAI 相信 GPT-5 將使其穩穩地重回排行榜榜首。
Altman 甚至直接在發布會中斷言:「這是世界上編碼能力最強的模型,是世界上寫作能力最強的模型,也是世界上在醫療保健領域最強的模型」
同時 OpenAI 也在發布會上宣稱,除了代碼能力爆表,GPT-5 的寫作功底和回答健康相關問題的準確性也更上一層樓。同時 GPT-5 不僅在智能上實現了「巨大飛躍」,還大幅減少了「一本正經胡說八道」的幻覺問題。它在理解和遵循指令方面表現更出色,拍馬屁的傾向也大大降低了。
01
告別「幻覺」,AI 更可靠了
首先是本次更新的模型陣容,GPT-5 系列一共有 GPT-5, mini, nano, chat 四個版本,其中 Chat 版本對應的是實現更自然、更智能的響應的體驗——你甚至可以用它來學習一門新的語言。

另外,現在當你打開 ChatGPT 網頁之後,首先會注意到 GPT-5 被呈現為一個單一模型,而不是一個常規模型外加一個獨立的推理模型。
這背後其實是 OpenAI 開發的一個路由系統(router),它會自動為更複雜的查詢切換到推理能力更強的版本,或者在你告訴它努力思考時也會這樣做。(Altman 稱之前的模型選擇界面是「一個非常混亂的爛攤子」。)
「AI 幻覺」一直是大家吐槽的重災區。好消息是,GPT-5 在這方面下了大功夫,官方宣稱其產生幻覺的可能性「顯著降低」。具體來說:
在聯網搜索時,GPT-5 的回答出現事實錯誤的概率比 GPT-4o 低了 45%。

在獨立思考時,其回答出錯的概率更是比 OpenAI o3 低了 80%

GPT-5 也在新的 ARC-AGI-2 上進行了測試。除 Grok 4(思考)外,它的表現優於所有主要模型。

此外,GPT-5 還成了一個「老實人」。它不太會再對用戶撒謊,吹噓自己能完成辦不到的任務。當遇到不可能完成、指令不明確或缺少關鍵工具的任務時,它會更誠實地溝通自己的局限。
這次更新最有趣的一點,莫過於引入了四種全新的「人格」模式,用戶可以自由選擇。它們分別是:
犬儒 (Cynic)
機器人 (Robot)
傾聽者 (Listener)
學霸 (Nerd)
這些模式是可選的,你可以根據自己的喜好,設定 ChatGPT 與你互動和回答問題的方式。想讓它跟你抬槓,還是像個耐心的朋友一樣傾聽?現在都可以由你說了算。
「這個模型給人的『感覺』真的很好,」ChatGPT 的負責人 Nick Turley 說,「我認為人們會真切地感受到這一點,特別是那些平時不怎麼研究模型的普通用戶。」
此外,你還可以為單個聊天窗口更改顏色主題,代碼編輯器主題愛好者狂喜了。

02
「軟體按需生成」時代來臨?代碼能力逆天
隨著代碼能力的進一步提升,Altman 預測,GPT-5 強大的編碼能力將開啟一個他稱之為「軟體按需生成」的時代。
在 OpenAI 的測試中,GPT-5 在 SWE-Bench, SWE-Lancer, 和 Aider Polyglot 等多個編碼基準測試中的表現均優於任何其他模型。在人類最終測試中取得 42% 的成績,在 SWE 基準測試中取得 75% 的成績。

一個小插曲是,發布會上的這張圖的坐標軸明顯有不少槽點,不僅有 52.8 > 69.1 這樣的弱智錯誤,也實際上誇大了 GPT-5 的能力提升,在社交媒體上被網友群嘲「你這 PPT 怕最好別是 GPT-5 做的」。
在發布會上,OpenAI 的後期訓練負責人 Yann Dubois 使用 GPT-5 現場演示,要求它生成一個用於學習法語、並帶有互動遊戲的網站。在短短几秒鐘內,GPT-5 就編寫了數百行代碼,並直接展示了網站的前端界面。他在 Zoom 上分享屏幕並進行了簡單的點擊操作,一切看起來都完美運行。

發布會現場,OpenAI 還直接展示了一款僅靠一段提示詞就由 GPT-5 創作的 3D 遊戲。其創作的 3D 場景不僅畫面精緻,其中的物理效果也非常準確的還原出了對應的效果。

03
更安全,更「誠實」
據模型安全研究負責人 Alex Beutel 介紹,為了解其安全風險,OpenAI 對 GPT-5 進行了「超過五千小時」的測試。其中一個重點是「確保模型不會對用戶撒謊」。
雖然 GPT-5 的幻覺(hallucination)比 OpenAI 的 o3 推理模型要少,但「自信地撒謊」仍然是大型語言模型固有的問題。當模型開始像智能體(agent)一樣完成任務時,這個問題會變得更加複雜。不過 OpenAI 表示,GPT-5 在更可靠地處理多步驟任務方面表現更好。「過去,我們看到過模型聲稱完成了某項任務,但實際上並沒有完成的情況,」Beutel 說,「這是個問題。」
對於以前會直接拒絕回答的提示,GPT-5 將提供 OpenAI 所謂的「安全補全」機制(safe completions)。Beutel 解釋說:「比如有人問『點燃某種特定材料需要多少能量?』,這可能是一個試圖繞過安全防護造成傷害的惡意問題,也可能是一個想了解材料物理特性的學生。這給模型如何回應帶來了真正的挑戰。」

通過「安全補全」,GPT-5「試圖在保持安全的約束下,給出儘可能有幫助的答案」。模型通常只會部分遵從,並提供一些無法被實際用於造成傷害的、更宏觀層面的信息。
04
如何用上 GPT-5
那麼,大家最關心的問題來了:怎麼才能用上 GPT-5 呢?
好消息是,所有 ChatGPT 用戶都可以現在立即免費體驗到 GPT-5。這也是 OpenAI 第一次面向所有用戶免費開放前沿模型。當然,不同級別的用戶權限不同:
Plus 訂閱用戶在達到使用上限前,可以有更多的使用次數。
Pro 訂閱用戶則可以訪問具備更強推理能力的GPT-5 Pro版本。
當用戶達到使用上限後,ChatGPT 會自動切換到一個「迷你版」的 GPT-5 來處理後續的請求。同時,隨著 GPT-5 的上線,它將正式取代 GPT-4o, OpenAI o3, OpenAI o4-mini, GPT-4.1 和 GPT-4.5 等一系列舊模型。
此外 Token 定價部分,標準版 GPT-5 為每百萬輸入 Token 1.25 美元,每百萬輸出 Token 10 美元。mini 版 與 Nano 版定價都便宜不少。

詳細定價可參考下圖截取自官網的信息。

此外,OpenAI 還在 API 中發布了一個名為「Minimal」的新參數,這樣你就可以在所有用例中使用 GPT-5,只需改變推理的力度。

除了 OpenAI 的第一方平台,微軟 CEO 納德拉同時也宣布,GPT-5 已在微軟全系平台上線,包括 Microsoft 365 Copilot、Copilot、GitHub Copilot 和 Azure AI Foundry。同時所有這些改進均在 Azure 上進行訓練。
最後,Altman 表示,OpenAI 的使命是開發通用人工智慧(AGI)。GPT-5 使他們更接近這一目標,儘管整個行業已經開始轉向構建所謂的「超級智能」。
「我有點討厭 AGI 這個詞,因為現在每個人對它的定義都略有不同,」Altman 說,「但這是朝著真正強大的模型邁出的重要一步。這顯然是需要一個具備通用智能的模型才能做到。」
然而,他也承認相比起真正的 AGI, GPT-5 仍然「缺少一些非常重要的東西」。
「這不是一個模型,它是從它所發現的新事物中所生長出來的原生事物,對我來說,這正是它為什麼能成為 AGI 「種子」的原因。」Sam Altman 這樣介紹道。
















