手记

图解 GPT-OSS

OpenAI 发布的 GPT-OSS 模型 是其自六年前 GPT-2 以来最重要的开源大语言模型。在此期间,LLM 的能力取得了巨大进步。虽然与 DeepSeek、Qwen、Kimi 等现有开源模型相比,该模型本身在能力上未必有飞跃性提升,但这为我们重新审视近年来 LLM 的发展轨迹提供了一个很好的切入点。

与以往开源 GPT 模型的差异

GPT-OSS 与先前模型相似之处在于,它仍是基于自回归架构的 Transformer 模型,每次生成一个 token。

2025 年中期的 LLM 主要差异体现在:它们通过生成 token 所实现的解决问题的能力已大幅提升,能够应对更为复杂的任务,这主要得益于:

  • 使用工具
  • 逻辑推理
  • 提升问题解决和编程能力

下图展示了其主要架构特征,这些特征与当前主流开源模型并无显著差异。与 GPT-2 最大的架构区别在于 GPT-OSS 采用了 专家混合模型 架构。

运用课程中介绍的注意力机制可视化语言,GPT-OSS 的 Transformer 模块结构如下图所示。

需注意这些架构细节大多并非创新设计,与最新开源 MoE 模型的技术路线基本一致。

消息格式化

对更多用户而言,模型推理和工具调用的行为细节与格式化方式比架构本身更为重要。

下图展示了模型的输入输出结构:

消息类型与输出通道

我们通过三类开源 LLM 主要用户群体来解析这个结构:

  • LLM 应用终端用户

  • 示例:ChatGPT 应用使用者

  • 主要关注发送的用户消息和最终答案,某些应用可能会展示部分中间推理过程

  • LLM 应用开发者

  • 示例:Cursor 或 Manus 开发者

  • 输入消息:可自定义系统和开发者消息——定义模型预期行为、安全选项、推理级别和可用工具。还需对用户消息进行大量提示工程和上下文管理

  • 输出消息:可选择是否向用户展示推理轨迹。同时需定义工具集并控制推理深度

  • LLM 后训练工程师

  • 进行模型微调的高级用户需要处理所有消息类型,并按规范格式化数据(包括推理过程、工具调用及响应)

后两类用户(LLM 应用开发者和后训练工程师)可通过理解助手消息的通道概念获益。该功能实现在 OpenAI Harmony 代码库中。

消息通道

模型输出均为助手消息,并通过"通道"类别标识消息类型:

  • 分析通道:用于推理(及部分工具调用)
  • 评论通道:用于函数调用(及多数工具调用)
  • 最终通道:包含最终回复的消息

假设我们给模型一个需要推理并使用多个工具调用的提示,下图展示了一个使用了全部三种消息类型的对话示例:

图中标注为第 1、3、5 轮是因为第 2、4 轮属于工具调用响应。最终答案将是终端用户可见的内容。

推理机制

推理功能存在需要高级用户权衡的利弊:更多推理时间允许模型投入更多计算资源思考复杂问题,但会增加延迟和计算成本。正因如此,市场上才会同时出现强推理能力 LLM 和无需推理的 LLM,它们各自在不同类型的任务上表现优异。

折中方案是采用支持特定"推理资源配额"的推理模型,GPT-OSS 就属于此类。它允许在系统消息中设置推理模式(低/中/高)。模型卡片 中的图 3 展示了不同模式对基准测试得分和推理轨迹(即思维链)token 数量的影响。

这与 Qwen3 的二元推理模式(思考/非思考)形成对比。在思考模式下,Qwen3 展示了在达到特定 token 阈值时停止思考的方法,并 报告 了这对各类推理基准测试得分的影响。

推理模式详解(低/中/高)

为展示不同推理模式的差异,我们选用 AIME25 数据集中的高难度推理题,在 120B 参数模型上测试三种模式:

该题正确答案为 104。中、高推理模式均能得出正确答案,但高模式需要双倍计算/生成时间。

这个例子正好印证了我们之前的观点:必须根据实际应用场景来选择推理模式:

  • 执行智能体任务?若任务链涉及多步骤,高甚至中推理模式可能耗时过长
  • 实时 vs. 离线场景:考虑哪些任务可离线执行而无需用户等待

  • 以搜索引擎为例:通过预先进行的系统优化,可以在查询时实现快速响应
令牌化器(Tokenizer)特性

令牌化器与 GPT-4 类似,但效率略有提升——尤其对非英语 token 的处理。注意表情符号和汉字均被分为两个 token(而非三个),阿拉伯文字更多以完整词而非字母为单位分词。

不过尽管令牌化器有所改进,模型主要仍基于英语数据训练。

代码(及 Python 缩进用的制表符)的分词行为基本保持不变。数字分词方式也类似:三位数以内分配独立 token,更大数字则拆分处理。

延伸阅读

以下推荐几篇深度解析文章:

0人推荐
随时随地看视频
慕课网APP