diff --git a/app/docs/Language/pte-intro.md b/app/docs/CommunityShare/Language/pte-intro.md similarity index 100% rename from app/docs/Language/pte-intro.md rename to app/docs/CommunityShare/Language/pte-intro.md diff --git a/app/docs/ai-projects/index.mdx b/app/docs/ai-projects/index.mdx new file mode 100644 index 0000000..dc14db9 --- /dev/null +++ b/app/docs/ai-projects/index.mdx @@ -0,0 +1,21 @@ +--- +title: 实战项目 +description: 团队项目集合与协作入口,包含多模态、强化学习等方向的实战项目。 +date: "2025-10-17" +tags: + - projects + - ai + - collaboration +--- + +欢迎来到项目分区(AI Projects)。这里将汇总团队正在推进或计划开展的工程化项目,聚焦“从想法到可用原型(MVP)”的落地过程与文档化沉淀。 + +## 当前项目 + +- 前往: [多模态强化学习项目(MVP)](./ai-projects/multimodal-rl/) + +## 使用说明 + +- 项目文档包含:项目愿景、MVP 范围、系统架构、里程碑与分工。 +- 鼓励以小步快跑的方式推进,每个阶段产出可验证的原型与记录。 +- 欢迎贡献:问题讨论、改进建议、实现细节与复盘总结。 diff --git a/app/docs/ai-projects/multimodal-rl/index.mdx b/app/docs/ai-projects/multimodal-rl/index.mdx new file mode 100644 index 0000000..5c641b7 --- /dev/null +++ b/app/docs/ai-projects/multimodal-rl/index.mdx @@ -0,0 +1,89 @@ +--- +title: 多模态强化学习项目(MVP 目标) +description: 构建轻量化的多模态理解与生成系统,实现从视觉感知到语言表达的闭环,并引入强化学习与答案可视化生成。 +date: "2025-10-17" +tags: + - projects + - multimodal + - reinforcement-learning + - RLHF +--- + +# Multimodal Group – MVP 目标说明文档 + +**项目版本:** v0.1 +**仓库:** [involutionhell.github.io](https://github.com/InvolutionHell/involutionhell.github.io) + +--- + + +## 一、项目愿景 + +构建一个轻量化的多模态理解与生成系统,让模型能够看懂图片、检索相关信息,并生成逻辑清晰的文字内容。 +目标是实现从视觉感知到语言表达的完整闭环,并进一步具备以图解释答案的能力。 + + +## 二、MVP 阶段目标 + + +### 阶段 1:基础多模态闭环 + +- 图像内容识别(物体、场景、语义标签)。 +- 语义检索(图→文 / 文→图)。 +- 生成式理解与文本输出。 +- 模型参考:CLIP / SigLIP / BLIP-2 / LLaVA / Qwen-VL。 + + +### 阶段 2:多模态强化学习(Multimodal RL) + +- 引入用户反馈和奖励信号,优化模型生成与检索表现。 +- 主要方向: + 1. RLHF / DPO 微调,学习用户偏好。 + 2. 基于行为数据的检索策略优化。 + 3. 生成质量控制与一致性提升。 + +- 目标:让系统具备自我学习与偏好适应能力。 + + +### 阶段 2.5:答案可视化生成(Answer-to-Image) + +- 根据模型生成的答案内容自动生成配图,辅助理解。 +- 实现方式:使用 Stable Diffusion / SDXL,将回答文本转为图像提示词。 +- 应用示例: + - 回答“黑洞形成过程”→ 生成结构示意图。 + - 解释小说场景 → 生成概念画面。 + +- 目标:让系统不仅能理解图片并回答,还能用图像解释答案。 + + +## 三、系统架构 + +``` +[Frontend] → 上传图片 / 展示结果 + ↓ +[Backend API] → FastAPI + LangChain + Vector Search + ↓ +[Multimodal Models] → CLIP / BLIP / LLaVA / Qwen-VL + ↓ +[RL Module + Answer-to-Image] (阶段 2 与 2.5) +``` + + +## 四、里程碑 + +| 阶段 | 目标 | 产出 | +| --------- | ---------------- | ------------------------ | +| Phase 1 | 多模态识别与生成 | 图像识别、检索、文本生成 | +| Phase 2 | 强化学习优化 | RLHF / DPO、检索策略优化 | +| Phase 2.5 | 答案可视化生成 | 自动生成配图 | +| Phase 3 | 扩展与部署 | Web 展示与 API 接口 | + + +## 五、组员分工 + +| 模块 | 负责人 | +| -------------------- | ------ | +| 图像识别与编码 | 组员 A | +| 语义检索与数据处理 | 组员 B | +| 生成模块与模型集成 | 组员 C | +| 强化学习与可视化输出 | 组员 D | diff --git a/app/docs/frontend/frontend-learning/index.mdx b/app/docs/computer-science/frontend/frontend-learning/index.mdx similarity index 100% rename from app/docs/frontend/frontend-learning/index.mdx rename to app/docs/computer-science/frontend/frontend-learning/index.mdx diff --git a/app/docs/frontend/index.mdx b/app/docs/computer-science/frontend/index.mdx similarity index 100% rename from app/docs/frontend/index.mdx rename to app/docs/computer-science/frontend/index.mdx