Skip to content
Closed
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
81 changes: 81 additions & 0 deletions app/docs/ai/foundation-models/大模型工具链全景分类.mdx
Original file line number Diff line number Diff line change
@@ -0,0 +1,81 @@
---
title:大规模模型开发框架体系
description:
date: 2025-09-16
tags: []
---

# 大模型工具链全景分类

大规模模型的开发一般包括 **预训练、微调、对齐和推理部署** 四个阶段。围绕这些环节,逐渐形成了较为成熟的框架体系,不同工具在定位和使用场景上各有侧重。

---

## 大规模训练类(Large-scale Training Frameworks)
这类框架主要面向数十亿至千亿参数规模的模型训练,重点解决显存和通信瓶颈。

**Megatron-LM** 提供张量并行、流水并行和专家并行,适合超大规模集群的预训练。

**DeepSpeed** 包含 ZeRO 优化、MoE 和低精度训练,并内置推理加速模块,可与 Megatron 联合使用,常用于科研机构和大型企业的基础模型训练。

**对比表**

| 框架 | 适用场景 | 优势 | 局限 |
|--------------|----------------------------------|----------------------------------------|--------------------------------|
| Megatron-LM | 超大规模模型预训练,百亿级以上参数 | 张量/流水/专家并行,扩展性强 | 学习曲线陡峭,依赖大规模 GPU 集群 |
| DeepSpeed | 大规模模型预训练与推理 | ZeRO 优化、MoE、低精度支持,推理加速 | 配置复杂,生态相对分散 |

---

## 微调类(Fine-tuning Frameworks)
微调框架用于在已有基础模型上进行定制化训练,可选择全参数或 **LoRA、QLoRA** 等高效方法,资源需求较低。

**LLaMA Factory** 支持 SFT、LoRA/QLoRA、DPO,提供命令行与 Web UI,易于上手。

**Swift** 面向多模态任务,覆盖训练、推理和部署,并与 ModelScope 生态结合紧密。常用于行业场景定制和小规模集群的低成本调优。

**对比表**

| 框架 | 适用场景 | 优势 | 局限 |
|-----------------|-------------------------|-------------------------------------|-------------------------------|
| LLaMA Factory | 文本任务微调与对齐 | 支持多种高效微调方法,UI 友好 | 主要集中于文本模型,生态较窄 |
| Swift | 多模态任务微调与部署 | 训练-推理-部署一体化,结合 ModelScope | 依赖 ModelScope 生态,独立性弱 |

---

## 对齐类(RLHF & Preference Alignment)
对齐框架通过人类反馈或偏好数据调整模型输出,使其更符合使用预期。

**OpenRLHF** 基于 DeepSpeed 与 Megatron,支持 PPO、DPO、KTO,适合大规模集群。

**TRL** 是轻量化库,能与 Transformers 配合,多用于实验和教学。

**VERL** 是 NVIDIA 的通用强化学习框架,可用于模型对齐及控制任务,主要应用于奖励模型训练、偏好建模和交互优化。

**对比表**

| 框架 | 适用场景 | 优势 | 局限 |
|-------------|---------------------------|-------------------------------------|-------------------------------|
| OpenRLHF | 大规模 RLHF 训练 | 深度结合 Megatron/DeepSpeed,扩展性强 | 对硬件要求高,上手成本大 |
| TRL | 教学/小规模实验 | 轻量化,结合 Transformers 使用方便 | 不适合大规模集群,功能有限 |
| VERL | 通用强化学习+模型对齐任务 | 通用性强,可扩展至控制/模拟任务 | 针对 NLP 任务生态支持不足 |

---

## 推理与部署类(Inference & Deployment Frameworks)
推理与部署框架提升推理效率,降低延迟和资源消耗,保证生产环境稳定运行。

**vLLM** 通过 PagedAttention 机制突破 KV Cache 限制,大幅提升吞吐。

**TensorRT-LLM** 基于 NVIDIA TensorRT,适合企业级 GPU 部署。

**DeepSpeed-Inference** 支持低精度和并行优化,常用于在线推理服务和企业生产落地。

**对比表**

| 框架 | 适用场景 | 优势 | 局限 |
|---------------------|---------------------------|--------------------------------------|-------------------------------|
| vLLM | 在线推理服务,高并发场景 | PagedAttention 提升吞吐,突破 KV Cache | 仍在快速演进,功能稳定性待验证 |
| TensorRT-LLM | 企业级 GPU 部署 | NVIDIA 原生优化,延迟低,性能高 | 强依赖 NVIDIA 硬件,生态闭环 |
| DeepSpeed-Inference | 通用推理优化 | 低精度推理+并行优化,灵活兼容 | 配置复杂,性能依赖调优 |

Loading