面向真实负载与真实行为的解耦式后训练基础设施
2026-6-8
引言 · 解耦谱系
训练 · 推理 · rollout · 评测 · 数据不再属于同一种 job。后训练系统的核心是把这些天然各异的 workload 解耦成可独立优化的部分,再用数据与状态通道连接成闭环。
训练面向万亿参数、动态长序列优化 MFU,推理面向高并发沙盒提供稳定高吞吐。开源后训练框架正从强耦合走向完全解耦,耦合越深、关键组件越难独立迭代:
从强耦合到完全解耦:训推从同进程走向独立资源池,由数据与权重通道连接。
我们走向完全解耦:把后训练拆成可独立优化、独立扩展的几部分,再通过数据与权重通道连接成闭环;低耦合天然利于整合开源,又能针对闭环短板独立迭代关键组件。
引言 · 路线图
I 模型训练框架优化
把真实负载(长尾长序列 + 稀疏 MoE)高效吸收进模型。
II 数据基础设施建设
把真实行为变成下一轮经验的低延迟闭环:生成 → 记录 → 同步 → 训练。
III Workload Harness
在云原生底座上承载组合,提供机制而不定义算法策略。
Agent 时代的代表性假设失效,指向需要重建的关键系统组件:
定长、静态 batch:轨迹长尾、统一 padding 大量浪费
SACP按真实 batch 结构即时编译执行
文件级 checkpoint 同步:IO 重、易产生全量副本
Etha张量级在线重分布,权重直达 rollout
只学习最终 response:丢失中间 agent 行为
LLMM完整 agent trajectory 即学习对象
离线 pipeline 反复搬运:重复存储、延迟堆积
Lakestream在线、低延迟数据闭环
Ⅰ · 训练框架
可组合的多维并行
把 DP · TP · PP · EP · CP 等主流 ND 并行有机结合,按模型结构组合出 best practice:
dense · MoE:FSDP2 · EP 加异步 offload / recompute,较 Megatron TP/PP 扩展性更好、侵入更低、效率更高。
多模态:VLM · DiT · VLA 子结构异构并行、细粒度调优,提升吞吐。
新增挑战 · 后训练更动态
agent 轨迹序列长且 长尾、上下文更长、在线生成 无法预先分桶;定长、静态、均匀 batch 不再适用。后训练把上下文并行 CP 这一维压成最棘手的瓶颈,本部分深入 SACP。
| 模型 | 规格 | MFU |
|---|---|---|
| DeepSeek-V3.1 | 685B-A37B | >40 |
| GPT-OSS | 120B / 20B | >30 |
| Qwen3 | 235B-A22B / 30B-A3B | 35~40 |
| Gemma4 | 31B / 26B · 256K ctx | >35 |
已在 DeepSeek · Qwen · GPT-OSS · Gemma · Flux · Wan 等验证:dense、万亿稀疏 MoE、256K 长上下文均稳定高利用。
Ⅰ · 训练框架 ▸ CP · SACP
Ⅱ · 数据基础设施 ▸ Etha
on-policy / RL 要让训练更新与推理采样高频循环,但文件级 checkpoint 延迟高 IO 重、gather-broadcast 又产生全量权重副本,撑不住高频刷新。Etha 把权重同步变成张量级在线重分布,让刷新后的权重直达 rollout。
全量同步 ~2.5s(32 卡 DeepSeek)· 聚合带宽 ~270 GB/s · 每卡等效 ~33 GB/s · 小 tensor 3~5× · ≈2× over gather-broadcast,已驱动 vLLM-RL 权重同步。
Ⅱ · 数据基础设施 ▸ LLMM
推理服务产出的不是文本,而是可训练的经验;但 agent 行为被拆散在各家异构、快速演化的接口里,只看最终 response 学到的是接口折叠后的残影。LLMM 借鉴 MLIR,把接口异构当成编译问题:一条 typed IR ladder,各家 surface dialect 经 lift / lower 汇入中性 agentic 表示,再逐层 lower 到 token。
各家 dialect 经 LLMM 汇成中性 IR · 结构化为轨迹 → Lakestream → 训练。
与 SACP 呼应:一个把上下文并行编译成执行计划,一个把接口异构编译成行为表示。
Ⅱ · 数据基础设施 ▸ Lakestream
后训练数据既要长期存储 · 批处理,又要低延迟流式消费。同一组诉求,两种应对:
传统 · 两套系统数据湖管存储、消息队列管流动,数据来回搬运 · 重复存储 · 延迟堆积
Lakestream · 数据湖即消息队列一套 lakehouse(Lance)底座既存又流,无 broker / sequencer,多生产者并发写
吞吐受对象存储 CAS 限制(秒级提交 · 约万行/秒):定位是「零运维 + 强一致」的训练 / ETL 数据面,而非 Kafka 量级的低延迟队列。
Ⅱ · 数据基础设施 ▸ Rollout
Agent 后训练的单位是完整交互轨迹(think → code → execute → observe),轨迹长度、执行耗时、失败模式都高度动态。难点在于一条轨迹横跨两类性质相反的资源:
GPU 侧 · 模型生成要稳定、高吞吐
CPU 侧 · 工具执行长耗时 · IO 密集 · 失败模式复杂
同进程必然互相拖累。我们把执行与推理解耦,用高并发沙盒承载执行侧。
覆盖 Math · Code Agent · Deep Research 与多轮工具调用。
Ⅲ · 云原生底座 ▸ Workload Harness
一次完整的算法实验是一组资源形态各异的 workload。我们把 Kubernetes 融入后训练生命周期,在统一的资源 · 网络 · 存储 · 身份 · 观测模型下提供机制、而不是策略:承载组合,不规定算法。
资源调度
真实 GPU 开发环境与训练 / rollout 大任务共享集群,反负载均衡调度尽量保留完整 GPU 节点给大型 workload。
anti-balancing GPU/RDMA
数据与工作区底座
JuiceFS 以远低于 PFS 的成本提供 POSIX 家目录与统一 workspace;Alluxio 缓解 all-in S3 的对象存储瓶颈,数据湖直达训练与评测。
JuiceFS Alluxio S3
可复现环境与编排
Pixi 把环境复现从镜像构建中解耦;Argo 沉淀复杂后训练 workflow,不把 workload 压成静态 pipeline。
Pixi Argo
Kubernetes 原生能力
服务发现、label 聚合、统一观测、镜像管理、网络、RBAC、namespace 与资源治理,统一在声明式 API 与 controller 调谐之下。
service-discovery observability RBAC namespace
综合
Ⅰ 训练框架多维并行 · SACP —— 真实后训练负载下的高效训练:长尾长序列、稀疏 MoE、万亿参数。
Ⅱ 数据与状态基础设施Etha · LLMM · Lakestream · Rollout —— 训练 / 推理 / rollout / 评测 / 数据的低延迟闭环。
底座 · Workload HarnessKubernetes 融入训练生命周期 —— 提供机制,而不是策略,异构 workload 自由组合。
系统价值不只是单点提速,而是把后训练从工程拼接组织成可组合、可复现的训练 · 推理 · 数据闭环:
后训练数据闭环:生成行为 → 记录评估 → 训练 → 同步部署,低延迟连接四个阶段。
大模型后训练系统构建与算法实践