大模型后训练系统构建和算法实践

面向真实负载与真实行为的解耦式后训练基础设施

狮子山人工智能实验室 基础设施团队

2026-6-8

后训练已经从 training job 变成异构 workload 系统

引言 · 解耦谱系

训练 · 推理 · rollout · 评测 · 数据不再属于同一种 job。后训练系统的核心是把这些天然各异的 workload 解耦成可独立优化的部分,再用数据与状态通道连接成闭环。

训练面向万亿参数、动态长序列优化 MFU,推理面向高并发沙盒提供稳定高吞吐。开源后训练框架正从强耦合走向完全解耦,耦合越深、关键组件越难独立迭代:

从强耦合到完全解耦:训推从同进程走向独立资源池,由数据与权重通道连接。

从强耦合到完全解耦:训推从同进程走向独立资源池,由数据与权重通道连接。

我们走向完全解耦:把后训练拆成可独立优化、独立扩展的几部分,再通过数据与权重通道连接成闭环;低耦合天然利于整合开源,又能针对闭环短板独立迭代关键组件

解耦成三条工作线:失效假设导向要重建的关键组件

引言 · 路线图

I 模型训练框架优化

把真实负载(长尾长序列 + 稀疏 MoE)高效吸收进模型。

II 数据基础设施建设

把真实行为变成下一轮经验的低延迟闭环:生成 → 记录 → 同步 → 训练。

III Workload Harness

在云原生底座上承载组合,提供机制而不定义算法策略。

Agent 时代的代表性假设失效,指向需要重建的关键系统组件:

定长、静态 batch:轨迹长尾、统一 padding 大量浪费

SACP按真实 batch 结构即时编译执行

文件级 checkpoint 同步:IO 重、易产生全量副本

Etha张量级在线重分布,权重直达 rollout

只学习最终 response:丢失中间 agent 行为

LLMM完整 agent trajectory 即学习对象

离线 pipeline 反复搬运:重复存储、延迟堆积

Lakestream在线、低延迟数据闭环

分布式训练框架:可组合的多维并行

Ⅰ · 训练框架

可组合的多维并行

DP · TP · PP · EP · CP 等主流 ND 并行有机结合,按模型结构组合出 best practice

dense · MoE:FSDP2 · EP 加异步 offload / recompute,较 Megatron TP/PP 扩展性更好、侵入更低、效率更高。

多模态:VLM · DiT · VLA 子结构异构并行、细粒度调优,提升吞吐。

新增挑战 · 后训练更动态

agent 轨迹序列长且 长尾、上下文更长、在线生成 无法预先分桶;定长、静态、均匀 batch 不再适用。后训练把上下文并行 CP 这一维压成最棘手的瓶颈,本部分深入 SACP

模型 规格 MFU
DeepSeek-V3.1 685B-A37B >40
GPT-OSS 120B / 20B >30
Qwen3 235B-A22B / 30B-A3B 35~40
Gemma4 31B / 26B · 256K ctx >35

已在 DeepSeek · Qwen · GPT-OSS · Gemma · Flux · Wan 等验证:dense、万亿稀疏 MoE、256K 长上下文均稳定高利用。

并行层把 DP·TP·PP·EP·CP 当正交维度,在统一 mesh 上自由组合;后训练把上下文并行 CP 压成最棘手的瓶颈,本节深入 SACP。

并行层把 DP·TP·PP·EP·CP 当正交维度,在统一 mesh 上自由组合;后训练把上下文并行 CP 压成最棘手的瓶颈,本节深入 SACP。

拓扑感知序列并行(SACP):上下文并行的即时编译执行

Ⅰ · 训练框架 ▸ CP · SACP

后训练轨迹长尾、RL 在线生成无法预先分桶,按最长序列统一 padding 会浪费大量注意力计算与显存。SACP 不再按模型手工配置上下文并行,而是对每个真实批次即时编译出分布式执行计划。

  • 序列并行 IR:序列打包 + 样本边界 + CP 切分生成 batch-level 注意力 / P2P / buffer 复用计划
  • 算子运行时接入:FlashAttention · 变长 FA · FlexAttention · Ulysses 统一接入,按当前批次择优调度
  • 长尾负载均衡:CP / 算子感知成本模型做均衡 packing,配合重算、卸载与预取控制显存峰值

SACP 前向+反向时延对比 8×8K 长序列下 SACP 的前向+反向时延(37.8ms)显著低于 TE FlashAttn、DistFlashAttn、Flash Attention 2 与 Torch CP;SP16×8K 下 Torch CP OOM 而 SACP 仍最低。 前向 + 反向时延 · 8×8K(ms,越低越好) FW BW 0100200300 SACP 37.8 TE FlashAttn 53.4 DistFlashAttn 54.1 Flash Attn 2 187.3 Torch CP 316.8 SP16×8K:SACP 136.2 仍最低 · Torch CP OOM

Etha:训推之间的张量级在线权重重分布

Ⅱ · 数据基础设施 ▸ Etha

on-policy / RL 要让训练更新与推理采样高频循环,但文件级 checkpoint 延迟高 IO 重、gather-broadcast 又产生全量权重副本,撑不住高频刷新。Etha 把权重同步变成张量级在线重分布,让刷新后的权重直达 rollout。

源 rank 只发目标所需 shard,训练布局 ↔ 推理布局零拷贝在线重分布。

源 rank 只发目标所需 shard,训练布局 ↔︎ 推理布局零拷贝在线重分布。

Worker 注册 tensor、Agent 跑 NCCL,CommandQueue 与 KVStore 协调全程。

Worker 注册 tensor、Agent 跑 NCCL,CommandQueue 与 KVStore 协调全程。

全量同步 ~2.5s(32 卡 DeepSeek)· 聚合带宽 ~270 GB/s · 每卡等效 ~33 GB/s · 小 tensor 3~5× · ≈2× over gather-broadcast,已驱动 vLLM-RL 权重同步。

LLMM:从模型服务接口到结构化 Rollout 数据

Ⅱ · 数据基础设施 ▸ LLMM

推理服务产出的不是文本,而是可训练的经验;但 agent 行为被拆散在各家异构、快速演化的接口里,只看最终 response 学到的是接口折叠后的残影LLMM 借鉴 MLIR,把接口异构当成编译问题:一条 typed IR ladder,各家 surface dialect 经 lift / lower 汇入中性 agentic 表示,再逐层 lower 到 token。

  • response → trajectory:训练对象升级为完整 agent 行为链路,接口差异隔离在边界 dialect 层
  • 多厂商一等支持:Responses · Messages · GenAI · Codex · Claude Code 各保持原貌,schema 修正与 quirk 收敛在边界
  • 同一份事实:trace / replay 记录转换 · 执行 · loss · 状态,训练 / 评测 / 线上共享行为账本
  • 贯通到 token:高级 agent API → chat → completion → token 逐层 lower,如编译器降到机器码
各家 dialect 经 LLMM 汇成中性 IR · 结构化为轨迹 → Lakestream → 训练。

各家 dialect 经 LLMM 汇成中性 IR · 结构化为轨迹 → Lakestream → 训练。

与 SACP 呼应:一个把上下文并行编译成执行计划,一个把接口异构编译成行为表示。

Lakestream:以数据湖为中心的流式数据底座

Ⅱ · 数据基础设施 ▸ Lakestream

后训练数据既要长期存储 · 批处理,又要低延迟流式消费。同一组诉求,两种应对:

传统 · 两套系统数据湖管存储、消息队列管流动,数据来回搬运 · 重复存储 · 延迟堆积

Lakestream · 数据湖即消息队列一套 lakehouse(Lance)底座既存又流,无 broker / sequencer,多生产者并发写

  • CAS 即协调:准入、并发追加、终止屏障与僵尸隔离(fencing)全用对象存储的条件写组合而成,无 leader、写操作幂等
  • 精确一次:数据与生产者游标在同一个 Lance 事务里原子提交,恢复 O(1);消费者按 stable row-id 取模做静态分区,无运行时再均衡
  • 数据与计算解耦:各阶段「生产 → 消费」连成持续数据流,缩短新行为 / 新经验进入模型迭代的路径

吞吐受对象存储 CAS 限制(秒级提交 · 约万行/秒):定位是「零运维 + 强一致」的训练 / ETL 数据面,而非 Kafka 量级的低延迟队列。

大规模 Agent Rollout:执行与推理的解耦

Ⅱ · 数据基础设施 ▸ Rollout

Agent 后训练的单位是完整交互轨迹(think → code → execute → observe),轨迹长度、执行耗时、失败模式都高度动态。难点在于一条轨迹横跨两类性质相反的资源

GPU 侧 · 模型生成要稳定、高吞吐

CPU 侧 · 工具执行长耗时 · IO 密集 · 失败模式复杂

同进程必然互相拖累。我们把执行与推理解耦,用高并发沙盒承载执行侧。

  • 高并发沙盒化 rollout:每条 trajectory 跑在独立沙盒,隔离文件系统 · workspace · 日志,互不干扰
  • 执行推理解耦采样:GPU server 只负责生成,沙盒 worker 负责工具执行,执行侧独立扩展、不抢训练 / 推理资源
  • 任务编排与容错:TaskServer 统一远程调度 · 并发 · 超时 · 重试 · 清理,撑住长轨迹的高失败率

覆盖 Math · Code Agent · Deep Research 与多轮工具调用。

Workload Harness 提供机制,而不定义算法策略

Ⅲ · 云原生底座 ▸ Workload Harness

一次完整的算法实验是一组资源形态各异的 workload。我们把 Kubernetes 融入后训练生命周期,在统一的资源 · 网络 · 存储 · 身份 · 观测模型下提供机制、而不是策略:承载组合,不规定算法。

资源调度

真实 GPU 开发环境与训练 / rollout 大任务共享集群,反负载均衡调度尽量保留完整 GPU 节点给大型 workload。

anti-balancing GPU/RDMA

数据与工作区底座

JuiceFS 以远低于 PFS 的成本提供 POSIX 家目录与统一 workspace;Alluxio 缓解 all-in S3 的对象存储瓶颈,数据湖直达训练与评测。

JuiceFS Alluxio S3

可复现环境与编排

Pixi 把环境复现从镜像构建中解耦;Argo 沉淀复杂后训练 workflow,不把 workload 压成静态 pipeline。

Pixi Argo

Kubernetes 原生能力

服务发现、label 聚合、统一观测、镜像管理、网络、RBAC、namespace 与资源治理,统一在声明式 API 与 controller 调谐之下。

service-discovery observability RBAC namespace

后训练闭环来自三层独立优化与数据状态通道连接

综合

Ⅰ 训练框架多维并行 · SACP —— 真实后训练负载下的高效训练:长尾长序列、稀疏 MoE、万亿参数。

Ⅱ 数据与状态基础设施Etha · LLMM · Lakestream · Rollout —— 训练 / 推理 / rollout / 评测 / 数据的低延迟闭环。

底座 · Workload HarnessKubernetes 融入训练生命周期 —— 提供机制,而不是策略,异构 workload 自由组合。

系统价值不只是单点提速,而是把后训练从工程拼接组织成可组合、可复现的训练 · 推理 · 数据闭环:

后训练数据闭环:生成行为 → 记录评估 → 训练 → 同步部署,低延迟连接四个阶段。

后训练数据闭环:生成行为 → 记录评估 → 训练 → 同步部署,低延迟连接四个阶段。