From 75d666fe914bd30bc0521f5ea01f01bc8758eda3 Mon Sep 17 00:00:00 2001
From: Mira <163523387+Mira190@users.noreply.github.com>
Date: Wed, 17 Sep 2025 09:22:26 +1000
Subject: [PATCH] =?UTF-8?q?Create=20=E5=A4=A7=E6=A8=A1=E5=9E=8B=E5=B7=A5?=
 =?UTF-8?q?=E5=85=B7=E9=93=BE=E5=85=A8=E6=99=AF=E5=88=86=E7=B1=BB.mdx?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 ...0\346\231\257\345\210\206\347\261\273.mdx" | 81 +++++++++++++++++++
 1 file changed, 81 insertions(+)
 create mode 100644 "app/docs/ai/foundation-models/\345\244\247\346\250\241\345\236\213\345\267\245\345\205\267\351\223\276\345\205\250\346\231\257\345\210\206\347\261\273.mdx"

diff --git "a/app/docs/ai/foundation-models/\345\244\247\346\250\241\345\236\213\345\267\245\345\205\267\351\223\276\345\205\250\346\231\257\345\210\206\347\261\273.mdx" "b/app/docs/ai/foundation-models/\345\244\247\346\250\241\345\236\213\345\267\245\345\205\267\351\223\276\345\205\250\346\231\257\345\210\206\347\261\273.mdx"
new file mode 100644
index 0000000..7c48090
--- /dev/null
+++ "b/app/docs/ai/foundation-models/\345\244\247\346\250\241\345\236\213\345\267\245\345\205\267\351\223\276\345\205\250\346\231\257\345\210\206\347\261\273.mdx"
@@ -0,0 +1,81 @@
+---
+title:大规模模型开发框架体系
+description:
+date: 2025-09-16
+tags: []
+---
+
+# 大模型工具链全景分类
+
+大规模模型的开发一般包括 **预训练、微调、对齐和推理部署** 四个阶段。围绕这些环节，逐渐形成了较为成熟的框架体系，不同工具在定位和使用场景上各有侧重。
+
+---
+
+## 大规模训练类（Large-scale Training Frameworks）
+这类框架主要面向数十亿至千亿参数规模的模型训练，重点解决显存和通信瓶颈。
+
+**Megatron-LM** 提供张量并行、流水并行和专家并行，适合超大规模集群的预训练。  
+
+**DeepSpeed** 包含 ZeRO 优化、MoE 和低精度训练，并内置推理加速模块，可与 Megatron 联合使用，常用于科研机构和大型企业的基础模型训练。  
+
+**对比表**
+
+| 框架         | 适用场景                         | 优势                                   | 局限                           |
+|--------------|----------------------------------|----------------------------------------|--------------------------------|
+| Megatron-LM  | 超大规模模型预训练，百亿级以上参数 | 张量/流水/专家并行，扩展性强             | 学习曲线陡峭，依赖大规模 GPU 集群 |
+| DeepSpeed    | 大规模模型预训练与推理            | ZeRO 优化、MoE、低精度支持，推理加速    | 配置复杂，生态相对分散           |
+
+---
+
+## 微调类（Fine-tuning Frameworks）
+微调框架用于在已有基础模型上进行定制化训练，可选择全参数或 **LoRA、QLoRA** 等高效方法，资源需求较低。
+
+**LLaMA Factory** 支持 SFT、LoRA/QLoRA、DPO，提供命令行与 Web UI，易于上手。  
+
+**Swift** 面向多模态任务，覆盖训练、推理和部署，并与 ModelScope 生态结合紧密。常用于行业场景定制和小规模集群的低成本调优。  
+
+**对比表**
+
+| 框架            | 适用场景                | 优势                                | 局限                          |
+|-----------------|-------------------------|-------------------------------------|-------------------------------|
+| LLaMA Factory   | 文本任务微调与对齐       | 支持多种高效微调方法，UI 友好         | 主要集中于文本模型，生态较窄   |
+| Swift           | 多模态任务微调与部署     | 训练-推理-部署一体化，结合 ModelScope | 依赖 ModelScope 生态，独立性弱 |
+
+---
+
+## 对齐类（RLHF & Preference Alignment）
+对齐框架通过人类反馈或偏好数据调整模型输出，使其更符合使用预期。
+
+**OpenRLHF** 基于 DeepSpeed 与 Megatron，支持 PPO、DPO、KTO，适合大规模集群。  
+
+**TRL** 是轻量化库，能与 Transformers 配合，多用于实验和教学。  
+
+**VERL** 是 NVIDIA 的通用强化学习框架，可用于模型对齐及控制任务，主要应用于奖励模型训练、偏好建模和交互优化。  
+
+**对比表**
+
+| 框架        | 适用场景                  | 优势                                | 局限                          |
+|-------------|---------------------------|-------------------------------------|-------------------------------|
+| OpenRLHF    | 大规模 RLHF 训练          | 深度结合 Megatron/DeepSpeed，扩展性强 | 对硬件要求高，上手成本大       |
+| TRL         | 教学/小规模实验            | 轻量化，结合 Transformers 使用方便   | 不适合大规模集群，功能有限     |
+| VERL        | 通用强化学习+模型对齐任务  | 通用性强，可扩展至控制/模拟任务      | 针对 NLP 任务生态支持不足      |
+
+---
+
+## 推理与部署类（Inference & Deployment Frameworks）
+推理与部署框架提升推理效率，降低延迟和资源消耗，保证生产环境稳定运行。
+
+**vLLM** 通过 PagedAttention 机制突破 KV Cache 限制，大幅提升吞吐。  
+
+**TensorRT-LLM** 基于 NVIDIA TensorRT，适合企业级 GPU 部署。  
+
+**DeepSpeed-Inference** 支持低精度和并行优化，常用于在线推理服务和企业生产落地。  
+
+**对比表**
+
+| 框架                | 适用场景                  | 优势                                 | 局限                          |
+|---------------------|---------------------------|--------------------------------------|-------------------------------|
+| vLLM                | 在线推理服务，高并发场景   | PagedAttention 提升吞吐，突破 KV Cache | 仍在快速演进，功能稳定性待验证 |
+| TensorRT-LLM        | 企业级 GPU 部署           | NVIDIA 原生优化，延迟低，性能高       | 强依赖 NVIDIA 硬件，生态闭环   |
+| DeepSpeed-Inference | 通用推理优化              | 低精度推理+并行优化，灵活兼容        | 配置复杂，性能依赖调优         |
+