From 75d666fe914bd30bc0521f5ea01f01bc8758eda3 Mon Sep 17 00:00:00 2001 From: Mira <163523387+Mira190@users.noreply.github.com> Date: Wed, 17 Sep 2025 09:22:26 +1000 Subject: [PATCH] =?UTF-8?q?Create=20=E5=A4=A7=E6=A8=A1=E5=9E=8B=E5=B7=A5?= =?UTF-8?q?=E5=85=B7=E9=93=BE=E5=85=A8=E6=99=AF=E5=88=86=E7=B1=BB.mdx?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- ...0\346\231\257\345\210\206\347\261\273.mdx" | 81 +++++++++++++++++++ 1 file changed, 81 insertions(+) create mode 100644 "app/docs/ai/foundation-models/\345\244\247\346\250\241\345\236\213\345\267\245\345\205\267\351\223\276\345\205\250\346\231\257\345\210\206\347\261\273.mdx" diff --git "a/app/docs/ai/foundation-models/\345\244\247\346\250\241\345\236\213\345\267\245\345\205\267\351\223\276\345\205\250\346\231\257\345\210\206\347\261\273.mdx" "b/app/docs/ai/foundation-models/\345\244\247\346\250\241\345\236\213\345\267\245\345\205\267\351\223\276\345\205\250\346\231\257\345\210\206\347\261\273.mdx" new file mode 100644 index 0000000..7c48090 --- /dev/null +++ "b/app/docs/ai/foundation-models/\345\244\247\346\250\241\345\236\213\345\267\245\345\205\267\351\223\276\345\205\250\346\231\257\345\210\206\347\261\273.mdx" @@ -0,0 +1,81 @@ +--- +title:大规模模型开发框架体系 +description: +date: 2025-09-16 +tags: [] +--- + +# 大模型工具链全景分类 + +大规模模型的开发一般包括 **预训练、微调、对齐和推理部署** 四个阶段。围绕这些环节,逐渐形成了较为成熟的框架体系,不同工具在定位和使用场景上各有侧重。 + +--- + +## 大规模训练类(Large-scale Training Frameworks) +这类框架主要面向数十亿至千亿参数规模的模型训练,重点解决显存和通信瓶颈。 + +**Megatron-LM** 提供张量并行、流水并行和专家并行,适合超大规模集群的预训练。 + +**DeepSpeed** 包含 ZeRO 优化、MoE 和低精度训练,并内置推理加速模块,可与 Megatron 联合使用,常用于科研机构和大型企业的基础模型训练。 + +**对比表** + +| 框架 | 适用场景 | 优势 | 局限 | +|--------------|----------------------------------|----------------------------------------|--------------------------------| +| Megatron-LM | 超大规模模型预训练,百亿级以上参数 | 张量/流水/专家并行,扩展性强 | 学习曲线陡峭,依赖大规模 GPU 集群 | +| DeepSpeed | 大规模模型预训练与推理 | ZeRO 优化、MoE、低精度支持,推理加速 | 配置复杂,生态相对分散 | + +--- + +## 微调类(Fine-tuning Frameworks) +微调框架用于在已有基础模型上进行定制化训练,可选择全参数或 **LoRA、QLoRA** 等高效方法,资源需求较低。 + +**LLaMA Factory** 支持 SFT、LoRA/QLoRA、DPO,提供命令行与 Web UI,易于上手。 + +**Swift** 面向多模态任务,覆盖训练、推理和部署,并与 ModelScope 生态结合紧密。常用于行业场景定制和小规模集群的低成本调优。 + +**对比表** + +| 框架 | 适用场景 | 优势 | 局限 | +|-----------------|-------------------------|-------------------------------------|-------------------------------| +| LLaMA Factory | 文本任务微调与对齐 | 支持多种高效微调方法,UI 友好 | 主要集中于文本模型,生态较窄 | +| Swift | 多模态任务微调与部署 | 训练-推理-部署一体化,结合 ModelScope | 依赖 ModelScope 生态,独立性弱 | + +--- + +## 对齐类(RLHF & Preference Alignment) +对齐框架通过人类反馈或偏好数据调整模型输出,使其更符合使用预期。 + +**OpenRLHF** 基于 DeepSpeed 与 Megatron,支持 PPO、DPO、KTO,适合大规模集群。 + +**TRL** 是轻量化库,能与 Transformers 配合,多用于实验和教学。 + +**VERL** 是 NVIDIA 的通用强化学习框架,可用于模型对齐及控制任务,主要应用于奖励模型训练、偏好建模和交互优化。 + +**对比表** + +| 框架 | 适用场景 | 优势 | 局限 | +|-------------|---------------------------|-------------------------------------|-------------------------------| +| OpenRLHF | 大规模 RLHF 训练 | 深度结合 Megatron/DeepSpeed,扩展性强 | 对硬件要求高,上手成本大 | +| TRL | 教学/小规模实验 | 轻量化,结合 Transformers 使用方便 | 不适合大规模集群,功能有限 | +| VERL | 通用强化学习+模型对齐任务 | 通用性强,可扩展至控制/模拟任务 | 针对 NLP 任务生态支持不足 | + +--- + +## 推理与部署类(Inference & Deployment Frameworks) +推理与部署框架提升推理效率,降低延迟和资源消耗,保证生产环境稳定运行。 + +**vLLM** 通过 PagedAttention 机制突破 KV Cache 限制,大幅提升吞吐。 + +**TensorRT-LLM** 基于 NVIDIA TensorRT,适合企业级 GPU 部署。 + +**DeepSpeed-Inference** 支持低精度和并行优化,常用于在线推理服务和企业生产落地。 + +**对比表** + +| 框架 | 适用场景 | 优势 | 局限 | +|---------------------|---------------------------|--------------------------------------|-------------------------------| +| vLLM | 在线推理服务,高并发场景 | PagedAttention 提升吞吐,突破 KV Cache | 仍在快速演进,功能稳定性待验证 | +| TensorRT-LLM | 企业级 GPU 部署 | NVIDIA 原生优化,延迟低,性能高 | 强依赖 NVIDIA 硬件,生态闭环 | +| DeepSpeed-Inference | 通用推理优化 | 低精度推理+并行优化,灵活兼容 | 配置复杂,性能依赖调优 | +