发布日期:2026-05-06 07:11 点击次数:161

智东西
智东西4月30日报谈,今天,智谱发布了一篇名为《Scaling Pain:超大限制Coding Agent推理本质》的时刻申诉,露馅了GLM-5系列模子在Coding Agent场景下遇到的推理基础步伐挑战与对应解法。
申诉炫夸,在逐日数亿次Coding Agent调用压力下,部分用户遭逢了GLM-5系列模子乱码、复读和淡薄字等特殊,这些时局在名义上与长凹凸文场景下常见的“降智”相似,但智谱并未进行缩短模子精度的优化,关连问题主要由高并发、长凹凸文的极点要求触发。
通过数周排查,智谱锁定了两个底层竞态问题:PD隔离架构下的KV Cache异步Abort激发显存写入冲破,以及HiCache加载活水线短缺同步敛迹导致“数据未就绪即被读取”。针对性开采后,关连特殊发生率从约万分之十几降至万分之三以下。
申诉还公开了智谱自研的KV Cache分层存储决策LayerSplit,在Context Parallel场景下将单卡KV Cache显存压力大幅缩短,实测系统概述普及10%至132%,且凹凸文越长收益越大。
一、腹地无法复现,高压才露头:投契采样主义成“照妖镜”从本年3月起,智谱GLM-5出现了三类特殊:乱码、复读、淡薄字。排查初期,智谱对线上特殊案例作念了腹地回放,但未能复现,讲明或者率不是模子问题。进一步模拟线上高压环境后,在每万次央求中安详复现3-5次特殊。这种“与实质无关、与压力关连的特征”,将问题指向高负载下的推理景况处罚。
三类特殊中,复读较易检测,乱码和淡薄字则难以用正则或模子判别高效覆盖。分析推理日记后,智谱发现投契采样主义可算作贫乏参考:
投契采样本为性能优化而瞎想:草稿模子生成draft token,地点模子校验后决定是否接管,并记载spec_accept_length与spec_accept_rate,从而在不转变最终输出散播的前提下普及解码效果。
针对乱码/淡薄字问题,智谱发现spec_accept_length极低,draft token险些全被拒却,标明KV Cache景况存在显赫偏差。
针对复读问题,智谱发现spec_accept_rate偏高,损坏的KV Cache使牢固力退化,堕入重复轮回。
据此,智谱团队成立了在线监控战略。将投契采样从一项单纯的性能优化时刻,拓展为质地监控信号。
二、锁定时序毛病,两个竞态Bug奈何导致输出特殊定位问题后,智谱进一步分析其原因。通过对央求生命周期以及推理引擎中PD隔离实施时序的分析,智谱发现该问题源于央求生命周期与KV Cache回收与复用时序之间的不一致,从而激发的KV Cache复用冲破。

为排斥上述问题,智谱在推理引擎中引入了更严格的时序敛迹,在央求间隔与KV Cache写入完成之间成立显式同步关系。
这一问题的具体开采决策是在Decode触发Abort后见告Prefill侧,仅在RDMA未运行或已完成时才允许追思附用,确保KV写入不向上显存复用鸿沟。开采后,特殊发生率从万分之十几降至万分之三以下。
智谱濒临的第二个bug与Coding Agent场景的特点联系。Coding Agent场景输入长、前缀复用率高,HiCache成为关键优化。但KV Cache换入与策画重复实施时,未保证数据加载完成后再使用。
为开采这一问题,智谱在Indexer算子启动前引入同步点,确保数据就绪后才启动策画。开采后,关连问题澈底隐没,关连开采已提交至SGLang社区。
三、Prefill概述成瓶颈,LayerSplit让概述最上升132%上述两个问题揭示了一个共同的系统瓶颈:在长凹凸文的Coding Agent作事场景中,Prefill阶段主导了系统性能。开采景况一致性问题后,中枢挑战追思瓶颈自己,也即是奈何普及Prefill概述、缩短KV Cache显存占用。为此,智谱团队瞎想并杀青了KV Cache分层存储决策LayerSplit。
Coding Agent负载具有凹凸文长、Prefix Cache掷中率高的特征,使得Context Parallel(CP,凹凸文并行)成为Prefill节点的主要并行战略。但是,SGLang开源杀青中每张GPU保存统共层的KV Cache,冗孑遗储导致显存容量成为策画资源应用率的瓶颈。
LayerSplit决策的中枢想路是:每张GPU仅抓有部分层的KV Cache,从而显赫缩短单卡显存占用。策画时,抓有某一层Cache的CP rank会在Attention策画前将其播送给其他rank。

为进一步减少支出,智谱瞎想了KV Cache播送与Indexer策画的重复机制,使二者在时候上相互障翳。统共经由仅非凡引入约为KV Cache体量1/8的Indexer Cache播送,通讯资本对性能影响可忽略。
实验狂放标明,在Cache掷中率90%的要求下,央求长度从40k到120k区间内,系统概述量普及幅度在10%至132%之间,且凹凸文越长收益越显赫。

该优化从架构层面缓解了Prefill侧的显存瓶颈,与此前两项BugFix共同组成了一套完好的推理基础步伐优化决策,普及了智谱GLM-5在Coding Agent场景下的作事材干。
结语:输出质地成高并发长凹凸文场景新痛点高并发长凹凸文场景下,推理基础步伐的挑战已不啻于概述和延长,输出质地一样不能忽视。智谱这次公开的时刻细节,从特殊识别步伐、两个竞态Bug的定位与开采,到LayerSplit显存优化,组成了一套相对完好的排查与优化链路。
关于一样在大限制部署推理作事的团队而言,这份申诉在故障复现、主义选型、架构层面的时序一致性等方面提供了可参考的本质教育。智谱将这些教育公开共享足球直播app哪个好用,客不雅上为社区填补了部分长凹凸文推理场景下的工程贵府空缺。
上一篇:足球投注app户外工装品类在李佳琦直播间增长迅猛-足球直播app哪个好用
下一篇:没有了
