继续浏览精彩内容
慕课网APP
程序员的梦工厂
打开
继续
感谢您的支持,我会继续努力的
赞赏金额会直接到老师账户
将二维码发送给自己后长按识别
微信支付
支付宝支付

别让GPU在“等快递”:DeepSeek联手清北,用一套“双通道”系统让智能体推理速度翻倍

拉莫斯之舞
关注TA
已关注
手记 361
粉丝 26
获赞 112

AI领域的风向标正在发生微妙的偏转。如果说过去两年的关键词是“大模型”,那么2026年的核心命题无疑是“智能体(Agent)”。

就在外界翘首以盼DeepSeek-V4正式亮相之际,DeepSeek团队并未闲歇。2月底,他们联合清华大学、北京大学,在arXiv上抛出了一篇重磅论文,推出了一套名为DualPath的全新推理系统。

这次发布的虽然不是新一代基座模型,却可能比模型本身更具颠覆性——它直击当前智能体落地的最大痛点:在长上下文、多轮交互的场景下,如何让昂贵的GPU不再因为“等待数据”而空转?

实测数据显示,这套系统能让推理吞吐量提升近2倍。这不仅仅是一次优化,更是一场针对AI基础设施的“交通革命”。

一、智能体时代的“新堵车”:算力过剩,带宽饥渴

要理解DualPath的价值,首先得看清智能体(Agent)与传统对话机器人的本质区别。

传统的对话模式是“一问一答”,用户输入一段话,模型思考后输出结果,交互链条短,上下文压力小。但智能体不同,它是一个能自主调用工具、规划任务、与环境持续交互的“数字员工”。

  • 交互频次爆炸:一个复杂的编程或数据分析任务,智能体可能需要自我反思、调用浏览器、运行代码解释器,交互轮次轻松突破几十甚至上百轮。
  • 上下文滚雪球:每一轮交互产生的新内容可能只有几百个token,但随着轮次增加,历史记忆(Context)会像滚雪球一样膨胀至几十万token。
  • “短追加,长记忆”:这是智能体任务的典型特征。每次推理只需计算极少量的新token,但却需要读取海量的历史KV-Cache(键值缓存)。

这就引出了一个尴尬的瓶颈:KV-Cache命中率极高,但数据搬运太慢。

打个比方,GPU就像一位顶级大厨,炒一盘新菜(计算新token)只需要1秒钟。但是,为了炒这道菜,他需要先从前面的仓库里把前19集的剧情资料(几十GB的KV-Cache)全部搬进厨房。如果搬运工(存储网络)太慢,让大厨等了10秒钟才拿到资料,那么哪怕大厨手艺再高,整体效率也被拖累了。

在当前的智能体推理中,I/O(输入输出)速度已经取代算力,成为了新的拦路虎。

二、旧架构的困局:一边堵死,一边闲置

为了解决推理延迟问题,业界主流采用了“预填充 - 解码分离”(PD分离)架构。简单来说,就是把GPU集群分成两拨人:

  • 预填充引擎(Prefill):负责“读题”,处理海量输入,计算密集型。
  • 解码引擎(Decode):负责“答题”,逐字生成,对延迟敏感。

在这种架构下,出现了一个严重的资源错配现象:

  • 预填充引擎需要疯狂地从外部存储拉取巨大的KV-Cache数据,其存储网卡带宽瞬间被占满,堵得水泄不通。
  • 解码引擎在生成阶段主要依赖显存,其存储网卡大部分时间处于闲置状态,无所事事。

这就像是一个物流仓库,进货大门排起了长龙,而出货大门却空空荡荡。明明有闲置的运力,却因为流程设计问题,导致整体物流线瘫痪。在算力成本高昂的今天,这种硬件资源的浪费是难以接受的。

三、DualPath登场:明修栈道,暗度陈仓

面对这一困境,DeepSeek与清北的研究团队没有选择简单粗暴地“加宽带”(成本高且受限),而是提出了一种极具巧思的双路径KV-Cache加载(Dual-path KV-Cache loading)机制。

灵感来源于现代AI数据中心(如NVIDIA DGX SuperPOD)的硬件特性:每个GPU通常配备两套网卡。

  1. 计算网卡(Compute NIC):带宽极大,专用于GPU间的高速通信。
  2. 存储网卡(Storage NIC):带宽较小,用于读写硬盘数据。

DualPath的核心逻辑是:让闲置的解码引擎帮忙“进货”。

  • 传统路径:存储 $\rightarrow$ 预填充引擎(单一路径,容易拥堵)。
  • DualPath路径
    1. 利用解码引擎闲置的存储网卡,从硬盘拉取KV-Cache数据到其内存。
    2. 再通过带宽极大的计算网卡,将数据快速传输给急需数据的预填充引擎。

这就好比进货大门堵车时,调度员指挥空闲的出货车辆绕道去仓库拉货,然后通过内部高速路转运给生产线。通过这种方式,整个集群的存储网卡带宽被“池化”利用了,不对称的带宽瓶颈被彻底打破。

四、技术深水区:如何在微秒级世界里当“交警”?

想法很美好,落地却极难。在微秒级运行的推理系统中,引入额外的数据流转路径,稍有不慎就会引发新的混乱。研究团队解决了两大核心挑战:

1. 流量优先级博弈:确保VIP通道畅通

GPU之间的集体通信(All-Reduce等)对延迟极度敏感,是推理同步的关键。如果解码引擎在后台大规模拉取数据,可能会挤占网络带宽,导致核心通信阻塞,反而拖慢推理。

为此,团队在网卡层面设计了一位严格的“交警”:

  • VIP通道:GPU间的集体通信拥有最高优先级,必须无条件优先通行。
  • 普通通道:KV-Cache数据拉取任务优先级较低,只有在VIP通道空闲时才能上路。一旦检测到高优先级通信,数据拉取必须立即避让。

这种机制确保了“帮忙进货”绝不会影响“核心生产”。

2. 动态负载均衡:聪明的任务调度

智能体的请求是动态变化的,有时长有时短,有时多有时少。如果机械地让解码引擎帮忙,可能会造成“帮倒忙”。

团队设计了自适应请求调度器,它能实时监控:

  • 各节点存储网卡的队列长度。
  • GPU的计算负载(待处理Token数)。
  • 请求的特征。

系统会根据实时路况,动态决定是直接拉取还是绕行拉取,并将任务智能分配给最空闲的节点。此外,针对多卡协同中的“木桶效应”(快卡等慢卡),算法还能基于计算配额将长任务拆分,确保所有GPU步调一致,最大化并行效率。

五、实测成绩:吞吐量逼近理论极限

理论推导再完美,也得看疗效。研究团队在基于InfiniBand互联的NVIDIA Hopper GPU集群上,使用DeepSeek-V3.2(660B及27B版本)和Qwen2.5-32B进行了严格测试。

  • 离线批处理:在处理长上下文智能体任务时,DualPath将系统吞吐量提升了1.87倍,性能表现几乎逼近“无I/O延迟”的理想状态。
  • 在线服务:在模拟真实用户并发请求的场景下(要求首字延迟<4秒),DualPath承载的并发请求量平均达到基线系统的1.96倍,极端负载下甚至提升了2.25倍
  • 规模化能力:在扩展至1152张GPU的超大规模实验中,系统展现出接近线性的加速比,证明其具备极强的工程落地潜力。
六、结语:软硬件协同的又一里程碑

从“大模型”到“智能体”,AI基础设施的挑战重心正在转移:

  • 早期挑战是算力(如何算得快);
  • 中期挑战是显存(如何装得下);
  • 如今智能体爆发,挑战变成了I/O与网络(如何传得快)。

DeepSeek联合清华、北大推出的DualPath,正是对这一新趋势的精准回应。它没有堆砌更多的硬件,而是通过巧妙的软件架构设计,挖掘了现有硬件集群的潜在效能。

这不仅是一次技术的突围,更是软硬件协同设计的教科书级示范。它证明了在摩尔定律放缓的今天,通过系统级的创新,依然能让AI基础设施的性能实现跨越式增长。

虽然DeepSeek-V4尚未正式官宣,但DualPath的出现已经释放了一个强烈信号:底层的推理基石正在变得愈发坚固。当数据流动的阻碍被清除,更强大、更敏捷的下一代智能体应用,或许真的指日可待。

打开App,阅读手记
0人推荐
发表评论
随时随地看视频慕课网APP