OpenAI的GPT-4.5：没啥新意，还贵得离谱-原创手记-慕课网

别给OpenAI的GPT4.5付钱

照片由 Jonathan Kemper 拍摄，来自 Unsplash。

OpenAI昨晚意外地推出了GPT-4.5版本。Sam Altman在推特上对此非常兴奋地表示，说这是他见过的最好的模型。

很遗憾，我完全不满意。从基准测试、性能到用户评价，说的都是同一个问题。更别提它还是付费的。

点击 Gumroad 上的 datasciencepocket 订阅，致力于让每个人都能学习 AI

你为什么不应该给GPT4.5付费？

更自然的版本可以是：
为什么你不应该给GPT4.5付费？

基准表现不达标

部分领域的边际改进：在MMLU基准测试中，一个用于比较大型语言模型的常用测试中，GPT-4.5在相对于OpenAI之前模型上仅显示出边际改进。这表明其规模和训练资源的大幅增加可能并未在所有类型的任务中产生相应的性能提升。
特定领域的滞后表现：在标准科学和数学测试中，GPT-4.5 的得分低于 OpenAI 自己的一些推理模型，如 o3。这表明它可能不太适合需要结构化和分步推理的任务，而这些任务在学术研究和科学领域中至关重要。
不是前沿模型：尽管其规模庞大且开发资源投入巨大，OpenAI 自身并不认为 GPT-4.5 是一个前沿的人工智能模型。这表明它可能未能达到用户期望的最新人工智能领域的尖端水平。

看起来是一个绝望的维系相关性的努力。

基于Reddit的用户评价

作为一名活跃的Reddit用户，我感觉社区里对GPT-4.5的评价真是太差了。简单来说：

缺乏创新的感觉：一些批评者认为GPT-4.5感觉像是“给旧车涂了一层新油漆，但本质上还是旧车”。用户可能会失望，尽管该模型在规模和训练上有所提升，但并没有带来革命性的变化或显著提升用户体验的新特性，与之前的版本相比而言。
高昂的成本带来的有限收益：GPT-4.5的API费用大幅增加，输入成本比其前身GPT-4o高出近29倍，输出成本则高出近13倍，这导致了用户的担忧。许多开发者和初创公司可能会发现，整合和使用GPT-4.5在项目中成本过高，性能上的感知改进可能无法证明增加的成本是合理的。
关注非核心方面：虽然听说GPT-4.5在“氛围”、情商和对话语气等方面表现出色，但一些用户可能会认为这些质的改进不如在准确性、推理和效率等核心能力上的进步有价值。强调让模型更像人类和更亲切，可能会被视为偏离了解决技术基本限制的方向。

Claude 3.7 十四行诗模型 vs GPT4.5 模型

最近，Anthropic也发布了Claude 3.7 Sonnet，这个模型表现相当不错。我们来从基准测试、费用和其他方面比较一下这个最先进模型与GPT4.5。

性能：Claude 3.7 Sonnet（代码逻辑推理任务上）优于 GPT-4.5，而 GPT-4.5 在情感智能和自然对话方面表现出色。
成本：GPT-4.5 的价格远高于 Claude 3.7 Sonnet，这使得许多用户难以负担。
用户体验：GPT-4.5 因其更接近人类的互动而受到称赞，但其高昂的价格和有限的访问权限是主要缺点。Claude 3.7 Sonnet 在技术任务方面也非常出色，被认为是一个更实惠的选择。

最后

尽管GPT-4.5虽然引起了很多关注，但它相较于之前的模型，在关键推理任务上仅仅提供了微小的性能提升。高昂的价格和缺乏创新使得它在选择上显得不太吸引人。相比之下，Claude 3.7 Sonnet在编码和推理任务上表现更佳，而价格仅为前者的部分，因此对于寻求强大技术能力的用户而言，它则是一个更为实际的选择。

别买它！买什么啊！