照片由 ThisisEngineering 在 Unsplash 拍摄
自从去年六月以来,差不多有一年没有更新了。原因很简单,我没有遇到足够让我兴奋去分享的东西。这并不意味着在过去的十二个月里,AI领域没有取得任何进展,或者我过去的六个月是不productive的。相反,AI领域在过去的一年中也取得了显著的进步,我的工作也相当有成效。
说起来,我注意到一个日益加剧的脱节,即尖端人工智能开发与现实中的AI应用开发之间的断层。例如,美国政府对Stargate项目的500亿投资。虽然这是一个雄心勃勃的项目,但具体会用到哪些技术真的对我们重要吗?如果这是AI发展的方向,创新的前沿似乎将越来越成为仅属于美国和中国的领域。对于世界其他地方而言,无论你是感兴趣的个人、公司还是国家,你都没机会参与。
然后就是应用层面的技术,比如RAG和AI代理。RAG虽然有用,但最终只是一个设计模式——而不是一个即插即用的解决方案。由于其缺乏推理能力,它其实是一个相当笨拙的解决方案。而AI代理则有很大的潜力,但仍然受限于大型语言模型的推理可靠性。从工程角度来看,两者的核心挑战都在于提高准确性和可靠性以满足实际业务需求。做一个演示是一回事,但将其扩展到生产环境则是完全不同的挑战。
一切都在一个月前Deepseek突然崛起时发生了改变。我的经历就像是在深夜里驾驶在一段漫长而单调的公路上,被引擎的嗡嗡声催眠。突然,一辆呼啸而过的赛车从我身旁疾驰而过,在几秒钟内扬起一片尘土消失在远方。我呆呆地坐在那里,瞪大眼睛,张大嘴巴,盯着那片尘土消散后的空茫。那一刻发生在一个月前,但那震撼的余波至今仍在我脑海中回荡。
Deepseek以无数方式改变了世界。有些人将其称为国家安全威胁、复印机、跟卖者(尾随销售)、数据窃取者(数据盗用者)、提炼者(提炼者)等。我完全驳斥这些说法。在拳击场上(拳台),情绪会蒙蔽判断。如果你变得情绪化,你就输了。泰森在数十亿电视观众面前咬了霍利菲尔德的耳朵,那是他的一个弱点,而不是力量的展示。
在这篇帖子中,我想把讨论转向Deepseek如何重塑机器学习工程的未来。它已经让我为2025年设定了新的目标,我希望它也能激励其他机器学习工程师设定自己的新目标。让我们看看这对于我们的行业意味着什么,以及我们应该如何应对这一挑战。
AI的发展模式被重新定义
长期以来,人们一直认为人工智能的发展严格遵循着规模法则——即模型性能随着数据集的指数级增长和计算资源的增加而提升。这种信念不仅为应用程序开发者设下了障碍,还引发了关于人工智能进步可持续性的严重质疑。当美国政府认为有必要投资5000亿美元用于下一代人工智能时,人们不禁要问:这样的投资如何才能获得正向回报?而“星际之门”第二版的成本会是多少?50万亿美元?这相当于美国联邦政府的年度预算!讽刺的是,“星际之门”通往通用人工智能的路线竟是通过暴力破解,根本谈不上智能。
作为业界领头羊的 OpenAI 还远未实现收支平衡。训练大型语言模型的成本激增,开始呈现出类似庞氏骗局的模式。未来的回报前景只是不断增长开支的唯一理由。这引发了人们对这种模式长期可行性的担忧,以及人工智能行业是否正走向一场财务危机的边缘。
真的吗?AI革命真的在放缓吗?当前AI发展的可持续性问题以及对AI未来的展望 towardsai.net](https://medium.com/really-ai-revolution-is-losing-steam-708269bf4dc5?source=post_page-----5f482a2f954d---------------------------------------)DeepSeek的实践表明,当算力达到一定规模后,进一步提升算力对模型性能的提升效果逐渐减弱。凭借其十几种优化和创新算法,它大幅节省成本和资源,达到甚至超越其他领先LLM的性能。一些分析师称此为“计算资源匮乏的拐点”。
深寻通过优化算法和设计大幅提升了计算效率,挑战了传统上认为计算能力是决定性因素的观念。
我从Deepseek得到的最重要的鼓励是,虽然庞大的训练数据集并非不可克服的障碍,昂贵的硬件也不是不可逾越的门槛。只要拥有正确的技能、坚定的决心和勇敢的心,我们就能克服一切困难。
话说,在这篇帖子的几个小时之后,埃隆·马斯克通过宣布GroK 3在由200,000个GPU组成的巨大集群上训练,炫耀了他的财力。对此,DeepSeek则公开了一项突破性的新技术——NSA。不到24小时内,NSA的公告吸引了令人印象深刻的160万次浏览量。
重新定义机器学习工程
与大多数只实验少量新算法的大型语言模型技术报告不同,DeepSeek大方地列出了一个新发展列表。
- 128K-1M 个 token 的长上下文窗口
- MOE 负载均衡,
- GRPO,
- HAI——他们自建的超级高效的训练平台,
- 混合精度训练,
- 多 token 预测,
- 解耦的旋转位置嵌入,
- 首次在 LLM 训练中使用 RL,
- 首次在模型训练中使用 PTX(GPU 编程中的汇编语言)。
这看起来像是 Deepseek 抄袭了领先公司的成果吗?我认为他们是从10年后的未来穿越来的。
Deepseek凭借其顶级工程技术取得了惊人的成果,同时也为机器学习工程师们激发了许多新的灵感和可能性。
新的数据质量标准
Deepseek在理解训练数据质量对AI模型开发的影响方面取得了显著进展。研究显示,高质量的数据比单纯的数据量更有影响力,因为即使计算资源丰富,嘈杂或有偏见的数据也会削弱模型性能。为解决这一问题,Deepseek采用了严格的过滤和去重措施,确保仅使用相关且准确的数据。他们还专注于减少偏见,使用数据增强、合成数据生成和平衡采样等方法来创建多样化的代表性数据集。
Deepseek倡导以数据为中心的方法,优先考虑数据质量而不是模型架构的改进。他们开发了自动化数据清洗、标签验证和错误分析的工具,能够高效识别并修正数据问题。他们的实验表明,精心整理过的数据集能产生更稳健和可靠的模型,即使数据量较小也,这也挑战了传统上对数据量重视的观点。
混合精度的模型带来了一种新的可能性
低精度部署并不是什么新鲜事。最常见的方式是将全精度训练好的LLM以低精度模式进行部署。不过,这种方法的缺点是其准确性不如全精度部署。
Deepseek的混合精度设计是一项开创性的创新,通过结合不同的数值精度来优化AI模型训练和推断。这种方法带来了显著的好处。通过使用较低精度(主要是FP-8)进行大部分计算,Deepseek减少了内存使用和计算负担,从而实现更快速的训练和推断,同时保持模型的准确性。在关键操作中战略性地使用较高精度确保了模型性能既稳健又可靠。因此,它达到了效率与准确性的良好平衡。
大多数大型语言模型(LLM)都是以FP-32格式发布的,开发人员需要将它们部署到更大的配置环境中,或使用称为量化的技术部署到低配置环境。DeepSeek模型则以FP-8格式发布,这意味着一个7b的DeepSeek模型可以在消费级GPU上运行而不会影响性能。这使开发人员能够用较低的预算进行实验,享受更快的实时应用推理速度,或者利用更大的集群实现更高的吞吐量。
基于RL的惊人精调
利用RL的微调的新用途是重大突破。
传统上,诸如监督微调(SFT)之类的技巧在提升模型性能和领域适应性方面起着关键作用。SFT 涉及在特定任务的标注数据集上进一步训练预训练模型以改进其输出结果。虽然在许多应用中有效,但 SFT 实质上依赖于一种粗暴的策略——更多的数据、更长的训练时间和更高的计算需求。尽管有这些好处,SFT 遵循的是边际效益递减的模式,即仅仅增加计算资源和数据量并不能成比例地提升性能。更不用说收集特定任务所需标注数据的难度了。
与依赖静态数据集的传统微调方法不同,基于强化学习的调整利用动态反馈机制来改进模型行为,使其在复杂的现实世界应用中特别有用。具体来说,它的好处包括:
-
动态适应性
基于强化学习(Reinforcement Learning,简称 RL)的微调使模型能够通过实时反馈学习,从而适应不断变化的环境和用户需求,更好地满足用户需求。这在推荐系统和自主系统等应用中尤为宝贵,因为这些应用的条件不断变化,需要灵活应对。 -
任务特定优化
通过设定特定的奖励函数,开发人员可以引导模型针对特定目标进行优化,如最大化用户参与、减少错误或提高效率。这样定向的方法能确保模型在预期任务中表现出色。 -
处理复杂场景
强化学习擅长在稀疏或延迟奖励的环境中表现,使其成为在传统监督学习难以应对的复杂场景中进行优化的理想选择。例如,在机器人或战略游戏中,基于强化学习的微调使模型能够随着时间的推移学习复杂的策略。 - 持续改进
与一次性的微调不同,基于强化学习的方法支持持续学习。模型可以通过与新数据和环境的交互迭代地提高其性能,确保长期的相关性和准确性,保持模型的实用性和有效性。
RAG 已被广泛认为是生成式人工智能技术的一个重要进步。然而,由于缺乏推理能力,它在处理复杂查询方面存在局限。同样,代理开发也依赖于高精度的、可调的推理大模型。这就是 Deepseek 大显身手的地方,其强大的推理能力使其成为 RAG 和代理的理想补充。我设想,未来具备先进推理能力的模型如 Deepseek 能够与 RAG 和代理无缝集成,处理更为复杂的任务。
RAG的缺点 | 这是RAG分析的第一部分:medium.com我特别欣赏的一个特点是RL驱动的FT技术能够持续改进的能力。这一点是当前GenAI开发中的一个重要不足,因为它缺乏持续增强的机制。从应用开发者角度来看,持续改进对于将概念验证扩展成完整产品至关重要。Deepseek的方法不仅满足了这一需求,而且还为构建灵活且可扩展的AI解决方案树立了新的标准。
高绩效团队的重新定义
Deepseek居然能够赶上甚至超越OpenAI的顶级模型,这真是令人惊叹。更令人震惊的是团队规模的差异:Deepseek只有136名员工,而OpenAI则有3,500名员工。这并不是孤立的例子,历史上有很多类似的例子,这些小而灵活的独角兽公司在逆境中取得了惊人的成功。
- 2001年,埃里克·施密特接任谷歌首席执行官时,员工人数还不到300人。
- 成立更早的亚马逊,在1997年上市前夕也只有158名员工。
- 2014年,当WhatsApp以190亿被卖了时,它只有50名员工。
- 2012年,当Instagram以10亿被卖了时,它只有13名员工。
有件事我们可以确定的是:成功的创新需要团队内部创意的连锁反应,还需要一点运气。但是,随着它们规模的扩大,它们往往难以维持最初的劲头。尽管如此,为什么那么多的大公司会失败,尽管它们能够提供高薪、吸引顶尖人才,并拥有更多资源?
这些问题引发了众多有趣的讨论。我想分享我在刚开始咨询生涯时从我的导师那里学到的一个教训:
大型企业通常集体智慧较低。
这可能看起来很激进甚至冒犯人,但这不是你所想的那样。经过一些调整,这个概念可以作为管理咨询中的破冰话题。虽然大型公司通常雇佣更聪明的个人,但它们复杂的结构减慢了信息和知识的流动,阻碍了合作和沟通,并使它们对市场和技术趋势的反应更加迟钝。这就是所说的“低智商的企业”。
Deepseek的CEO梁文锋,在一次访谈中分享道,每当有年轻工程师提出关于最佳模型结构的新想法时,一个团队就会自动围绕他形成。结果就是这个非常成功的MLA:多头潜在注意力(Multi-head Latent Attention)。他还提到,在他的公司里,主要会议室的门总是开着的,允许路过的人随时加入讨论,只要他们有想法。这样的情况在你的公司里常见吗?
这就是企业间智慧的差别。
别灰心,如果你的公司不是这样。的确,顶尖团队其实很少见。大多数公司的设计并没有设计来激发团队的连锁反应。在小团队里这很难做到,在大公司里更是不可能实现。从我们的讨论来看,Deepseek作为一家小公司取得的显著成功其实并不稀奇。当它规模扩大十倍时,谁知道,到时候它可能就变成一家普通的公司了。
顶尖团队总是稀有,就像能与奥运奖牌得主成为队友一样。如果你幸运地成为其中一员,不要因为任何微不足道的诱惑而离开。你可能一生再也没有机会如此开心地将心投入工作,去享受工作的乐趣。
照片由 Allen Taylor 拍摄,来自 Unsplash。
临走前的话
Deepseek表明生成式AI正处在关键的转折点上。虽然之前工程师们主要依赖RAG或Agent技术,现在大型语言模型的设计和工程却比任何时候都更易于实现,使得以前各自独立的功能现在可以无缝集成。这种转变使得LLM的调优和训练对应用项目团队来说更为容易实现,使他们能够根据特定场景定制模型。因此,利用尖端AI技术的门槛已经大大降低,为各行各业带来了新的创新机会。
展望2025,我将专注于深入研究强化学习,这是下一代大规模语言模型微调及应用构建所需的关键能力。此外,我计划亲自动手进行定制化的大规模语言模型微调、数据准备和部署,确保我能构建和部署既强大又高效的模型。通过掌握这些技能,我准备迎接下一波由人工智能驱动的解决方案的到来。