OpenAI重回開源!兩大推理模型號稱世界最強＊阿波羅新聞網

【新智元導讀】OpenAI深夜扔出開源核彈，gpt-oss 20B和120B兩款模型同時上線。它們不僅性能比肩o3-mini和o4-mini，而且還能在消費級顯卡甚至手機上輕鬆運行。GPT-2以來，奧特曼終於兌現了Open AI。

他來了！他來了！

就在今夜，奧特曼帶著兩款全新的開源模型走來了！

正如幾天前泄露的，它們分別是總參數1170億，激活參數51億的「gpt-oss-120b」和總參數210億，激活參數36億的「gpt-oss-20b」。

終於，OpenAI再次回歸開源。

gpt-oss-120b適用於需要高推理能力的生產級和通用型場景

在核心推理基準測試中，120B模型的表現與OpenAI o4-mini相當，並且能在單張80GB顯存的GPU上高效運行（如H100）。

gpt-oss-20b適用於低延遲、本地或專業化場景

在常用基準測試中，20B模型的表現與OpenAI o3-mini類似，並且能在僅有16GB顯存的邊緣設備上運行。

除此之外，兩款模型在工具使用、少樣本函數調用、CoT推理以及HealthBench評測中也表現強勁，甚至比OpenAI o1和GPT-4o等專有模型還要更強。

其他亮點如下：

寬鬆的Apache 2.0許可證：可自由用於構建，無copyleft限制或專利風險——是實驗、定製和商業化部署的理想選擇。

可配置的推理投入：可根據用戶的具體用例和延遲需求，輕鬆調整推理投入（低、中、高）。

完整的思維鏈：可完整訪問模型的推理過程，從而簡化調試並提升輸出結果的可信度。

支持微調：支持參數級微調，可根據您的特定用例對模型進行完全定製。

智能體能力：利用模型原生的函數調用、網頁瀏覽、Python代碼執行和結構化輸出等能力。

原生MXFP4量化：在訓練時，模型的混合專家（MoE）層便採用了原生的MXFP4精度，使得gpt-oss-120b在單張H100 GPU上即可運行，而gpt-oss-20b僅需16GB記憶體。

值得一提的是，OpenAI還特地準備了一個playground網站供大家在線體驗。

體驗地址：https://gpt-oss.com/

GitHub項目：https://github.com/openai/gpt-oss

Hugging Face（120B）：https://huggingface.co/openai/gpt-oss-120b

Hugging Face（20B）：https://huggingface.co/openai/gpt-oss-20b

GPT-2以來，首次開源

gpt-oss系模型，是OpenAI自GPT-2以來首次開源的語言模型。

今天，OpenAI同時放出了34頁技術報告，模型採用了最先進的預訓練和後訓練技術。

模型卡：https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf

預訓練與模型架構

相較於此前開源的Whisper和CLIP，gpt-oss模型在推理能力、效率以及在廣泛部署環境中的實用性上更強。

每個模型都採用了Transformer架構，並融入MoE設計，減少處理輸入時激活參數量。

如上所述，gpt-oss-120b總參數1170億，每token激活51億參數，gpt-oss-20b總參數210億，每token激活36億參數。

此外，模型還借鑑了GPT-3設計理念，採用了交替的密集注意力和局部帶狀稀疏注意力模式。

為了提升推理和記憶體效率，模型還採用了分組多查詢注意力機制，組大小為8，以及旋轉位置編碼（RoPE），原生支持128k上下文。

gpt-oss模型的訓練數據以「英語」為主，聚焦STEM、編程和通用知識領域。

OpenAI採用了o200k_harmony分詞器對數據進行分詞，它是OpenAI o4-mini和GPT-4o所用分詞器的「超集」。

今天，這款分詞器同步開源。

利多開發者的是，gpt-oss兩款模型與Responses API⁠兼容，專為智能體工作流打造，在指令遵循、工具使用、推理上極其強大。

比如，它能自主為需要複雜推理，或是目標是極低延遲輸出的任務調整推理投入。

同時完全可定製，並提供完整的思維鏈（CoT），以及支持結構化輸出⁠。

據悉，gpt-oss模型整個預訓練成本，低於50萬美元。

後訓練

在後訓練階段，gpt-oss模型的流程與o4-mini相似，包含了「監督微調」和「高算力強化學習」階段。

訓練過程中，團隊以「OpenAI模型規範⁠」為目標對齊，並教導模型在生成答案前，使用CoT推理和工具。

通過採用與專有o系推理模型的相同技術，讓gpt-oss在後訓練中展現出卓越能力。

與API中的OpenAI o系列推理模型相似，這兩款開源模型支持三種推理投入——低、中、高。

開發者只需在系統提示詞中加入一句話，即可在延遲與性能間靈活切換。

開源小模型，比肩旗艦o3/o4-mini

在多個基準測試中，gpt-oss-120b堪比旗艦級o系模型的性能。

具體來說，在編程競賽（Codeforces）、通用問題解決（MMLU和HLE）以及工具調用（TauBench）方面，它直接超越了o3-mini，達到甚至超越了o4-mini的水平。

此外，在健康相關查詢（HealthBench⁠）、數學競賽（AIME 2024 & 2025）基準中，它的表現甚至優於o4-mini。

儘管gpt-oss-20b規模較小，但在相同的評估中，其表現與o3-mini持平或更優，甚至在AIME、健康領域基準上的表現超越了o3-mini。

在AIME數學測試中，gpt-oss-120b和gpt-oss-20b隨著推理token的增加，準確率折線逐漸逼近。

在博士級知識問答基準中，gpt-oss-120b的性能始終領先於gpt-oss-20b。

此外，OpenAI近期研究表明，未經直接監督訓練的CoT有助於發現模型潛在不當行為。

這一觀點也得到了業內其他同行的認同。

同樣，遵循o1-preview⁠的設計原則，研究團隊並未對gpt-oss模型CoT直接監督，讓模型更加透明。

OpenAI，Open AI了

gpt-oss-120b和gpt-oss-20b的開源，標誌著OpenAI終於在開源模型上，邁出了重要一步。

在同等規模下，它們在推理性能上，可與o3-mini、o4-mini一較高下，甚至是領先。

OpenAI開源模型為所有開發者，提供了強大的工具，補充了託管模型的生態，加速前沿研究、促進創新。

更重要的是，模型開源降低了一些群體，比如新興市場、缺少算力小企業的准入門檻。

一個健康的開放模型生態系統，是讓AI普及並惠及所有人的一個重要方面。

對於這次的開源，奧特曼驕傲地表示：gpt-oss是OpenAI「數十億美元」研究成果的結晶，是全世界最出色、最實用的開放模型！