DeepSeek联合清北重磅硬核论文:发力智能体底层基建 击穿Agent推理I/O瓶颈
DeepSeekV4发布前夕硬核重磅论文上线。大模型正在从单轮对话机器人,快速进化为能够自主规划、调用工具并解决实际问题的Agent。然而,这种转变在底层算力架构上引发了一场大地震。当大模型在长期的上下文中与环境进行几十甚至上百轮的交互时,计算的瓶颈从GPU的算力转为存储I/O带宽。由于每次只追加极少的Token,导致KV-Cache命中率极高(通常大于95%),GPU大量的时间被用来等待从外部存储中读取海量的历史KV-Cache数据。
为了打破这一僵局,DeepSeek联合北大、清华研究团队提出了一种全新的大模型推理系统——DualPath。该系统针对Agentic大模型场景中KV-Cache读取造成的I/O带宽瓶颈,创新性地开辟"存储→解码→预填充"双路径加载机制,充分利用解码节点闲置存储带宽,将Agentic大模型负载的离线推理吞吐量提升了最高1.87倍,在线服务吞吐量平均提升了1.96倍。目前,这项研究已在包含多达1152张GPU的集群上完成了大规模验证,支持DeepSeek-V3.2660B等顶级大模型。
感谢提供信息分享。 好好学习,天天向上! 好好学习,天天向上!
页:
[1]