OpenAI今天发布了o3模型——这是“推理”模型的更进一步发展,也是接替o1的后续版本。
我对它在ARC-AGI-1基准测试上的改进印象深刻——这个基准测试被认为是当前一代LLMs无法超越的。o1的得分是32%,而o3则直接升至88%。发起ARC挑战赛(奖金100万美元,以奖励击败ARC-AGI的人)的团队对基于Transformer的模型能否在他们的基准测试中取得成功有着极高的信心,他们对o1的表现并不满意。然而,o3的博客文章却有着完全不同的态度,其中使用了诸如“令人惊讶”、“新颖”和“突破性”这样的词汇。然而,有一个问题——它非常非常昂贵:达到76%的得分大约需要花费9000美元,而88%的得分——OpenAI没有披露具体数额,据估算,总成本可能高达150万美元,因为其使用了172倍更多的计算资源。
o3 曾经让我想起一个在讨论大语言模型时常常提到的类比。无论任务有多复杂,GPTs 处理每个 token 所消耗的计算资源都是相同的,就像它们在不停地输出潜意识中的信息一样,从不停下来思考。这类似于人类大脑的系统 1 的运作方式。
简单回顾一下,《思考,快与慢》是丹尼尔·卡内曼在2011年出版的一本书。他在书中提到,根据功能(基于实证研究结果),我们的大脑有两个部门(或者说两种思维模式):
- 系统1,快速 - 无意识的努力,自主的反应,联想的思考。
- 系统2,缓慢的 - 有意识的,谨慎的,逻辑的思考。
这两个系统相互合作,塑造了人类的思维过程。我们可以大声朗读一本书而不感到任何压力,却可能一个字也不记得。读书时,我们不断在脑海中重现场景和画面,追踪情节和时间线,不久便感到疲惫——但我们可能从中获得了新知识。
正如安德鲁·恩格曾经说过的,“试着不按删除键输入一段文字”——这听起来像是个挺难的任务,这也就是大语言模型的工作方式。
就这样,这些模型就是这样运作的,直到最近。随着o1(以及后来的Deepseek R1、QwQ、Gemini 2.0 Flash Thinking)的出现,模型学会了暂停,并以类似“慢”模式的方式运行。“Flash Thinking”可以保留英文或解释为“闪电思考”。
最近越来越多的人讨论大型语言模型预训练停滞不前、训练数据用尽以及人工智能发展遇到困难。
我们可能在2025年看到一种正在形成的趋势——将推理/思维模型与传统的大型语言模型结合起来,规划(慢)和行动(快),识别(快)和评估(慢)等等。
这里有一个来自Aider AI编程助理的最近的例子(https://aider.chat/2024/12/03/qwq.html),展示了QwQ作为架构,Qwen 2.5作为编码,采用两步的“架构-编码”流程如何提升编码效率。
这是否会实现还很难说。我们近期在慢模型上也没有看到太多进展,面临着许多挑战。目前还不清楚像o3这样的模型如何应对幻象。上下文窗口还是太小(https://dev.to/maximsaplin/gpt-4-128k-context-it-is-not-big-enough-1h02)。价格正在上涨...尽管这些慢模型在不同的“孤立”评估中取得了进展,但它们离真正的大规模实际应用(比如独立完成大型项目或模拟初级实习生https://x.com/karpathy/status/1868061331355840704)还有很长的路要走。另外,快模型(即演员),他们似乎在计算机操作方面(https://www.theverge.com/2024/10/22/24276822/anthopic-claude-3-5-sonnet-computer-use-ai)和自动化电脑文员方面仍然存在挑战。
PS >
大约在o3宣布的时候,我得到了o1-mini的API访问权限。我运行了自己的LLM Chess Eval,该程序模拟象棋对局,让模型和随机玩家对战。虽然之前的SOTA模型甚至一次胜利都拿不到(我假设这个基准测试和ARC评估一样难)…… o1-mini赢了30%的时间!现在我少了一些疑虑,毕竟应该还是有些道理的。