Skip to content
Closed
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
53 changes: 52 additions & 1 deletion app/docs/ai/agents-todo/index.mdx
Original file line number Diff line number Diff line change
Expand Up @@ -4,4 +4,55 @@ description: "大语言模型智能体:CS294/194-196课程、ReAct、FireAct
status: todo
---

本节聚合 LLM 智能体相关的课程与技术框架,后续补充。
本节聚合 LLM 智能体相关的课程与技术框架。

---

## OpenHands(原 OpenDevin)

- **链接**:
- [GitHub 仓库](https://github.com/All-Hands-AI/OpenHands)
- [论文 arXiv:2407.16741](https://arxiv.org/pdf/2407.16741)
- **简介**:
OpenHands 是一个开源 Agent 平台,能执行代码 / shell / 网页 / API 操作等任务,适合开发者日常自动化与工具链集成。

---

## Kimi-Researcher

- **链接**:
- [官网介绍](https://moonshotai.github.io/Kimi-Researcher/)
- [知乎文章](https://zhuanlan.zhihu.com/p/1921119537757140195)
- **简介**:
一个以强化学习 (RL) 驱动的科研 Agent,可自我规划、多轮检索 & 推理任务,用于技术研究/报告撰写等复杂任务。

---

## OpenAI Deep Research

- **链接**:
- [Introducing Deep Research — OpenAI](https://openai.com/index/introducing-deep-research/)
- [ChatGPT Deep Research — Wikipedia](https://en.wikipedia.org/wiki/ChatGPT_Deep_Research)
- **简介**:
Deep Research 是 OpenAI 在 2025 年推出的 Agent 模式,支持多步骤互联网研究任务,能浏览网页、PDF、图像资料并合成报告。适用于专业研究工作,如科学、政策、工程等领域。

---

## KAG: Knowledge Augmented Generation

- **链接**:
- [arXiv:2409.13731 (KAG)](https://arxiv.org/abs/2409.13731)
- **简介**:
KAG 是一个面向专业领域的大型语言模型增强框架,旨在结合 **知识图谱 + 向量检索** 来弥补 RAG 在专业场景下的不足。尤其强调知识逻辑(如数值、时间、专家规则等)的融合,从而在问答与推理任务中表现更靠谱。

---

## DeepResearchAgent / DeepResearcher & DR Agent Survey

- **链接**:
- [Deep Research Agents: A Systematic Examination and Roadmap (arXiv)](https://arxiv.org/abs/2506.18096)
- [DeepResearcher: Scaling Deep Research via Reinforcement Learning (arXiv:2504.03160)](https://arxiv.org/abs/2504.03160)
- **简介**:
这些工作研究 Agent 在真实环境中做深度研究 (Deep Research) 的架构组件、检索方法、工具使用与规划流程。
- DR Survey 提供 Agent 系统分类、关键挑战与未来方向。
- DeepResearcher 用 RL + 网页交互训练 Agent,在开放域研究任务上相比传统基于检索或提示的方法表现更强。
8 changes: 4 additions & 4 deletions app/docs/ai/llm-basics/index.mdx
Original file line number Diff line number Diff line change
Expand Up @@ -13,15 +13,15 @@ tags:

## 核心学习模块

### 📚 深度学习基础
### 深度学习基础

- 前往: [深度学习基础](./deep-learning/)
- 李沐动手学深度学习
- NLP 基础课程
- 机器学习经典教材
- 理论与实践结合

### 🔧 PyTorch 框架
### PyTorch 框架

- 前往: [PyTorch框架](./pytorch/)
- 小土堆入门教程
Expand All @@ -45,15 +45,15 @@ tags:
- 位置编码设计
- 架构可视化学习

### 🎯 Embedding 模型
### Embedding 模型

- 前往: [Embedding模型](./embeddings/)
- Qwen3-embedding 深度解读
- SLERP 权重合并算法
- 向量化表示技术
- 相似度计算方法

### 📖 入门课程
### 入门课程

- 前往: [入门课程](./courses/)
- CS224N 斯坦福 NLP 课程
Expand Down
98 changes: 34 additions & 64 deletions app/docs/ai/llm-basics/pytorch/index.mdx
Original file line number Diff line number Diff line change
Expand Up @@ -15,66 +15,53 @@ PyTorch是现代深度学习最重要的框架之一,特别在研究和大模

### 小土堆PyTorch教程

- **视频地址**: [PyTorch深度学习快速入门教程](https://www.bilibili.com/video/BV1hE411t7RN/)
- **特色**: 绝对通俗易懂,适合零基础学习者
- **视频**: [PyTorch深度学习快速入门教程](https://www.bilibili.com/video/BV1hE411t7RN/?spm_id_from=333.337.search-card.all.click&vd_source=14245d272f6606a31fe299db9e47ca84)
- **特色**: 通俗易懂,适合零基础学习者
- **内容覆盖**:
- PyTorch基础概念
- 基础概念
- 张量操作
- 神经网络构建
- 训练循环设计
- 实际项目案例

### 官方资源
### 官方与社区资源

- **PyTorch官方中文教程**: [https://pytorch.ac.cn/tutorials/](https://pytorch.ac.cn/tutorials/)
- **菜鸟教程**: [https://www.runoob.com/pytorch/pytorch-tensor.html](https://www.runoob.com/pytorch/pytorch-tensor.html)
- **特色**: 权威性强,内容全面,持续更新
- **PyTorch官方中文教程**: [pytorch.ac.cn/tutorials](https://pytorch.ac.cn/tutorials/)
- **菜鸟教程**: [runoob.com/pytorch](https://www.runoob.com/pytorch/pytorch-tensor.html)
- **PyTorch面试精华**: [mstx.cn](https://www.mstx.cn/pytorch.html)

### PyTorch面试精华

- **资源链接**: [https://www.mstx.cn/pytorch.html](https://www.mstx.cn/pytorch.html)
- **覆盖内容**:
- PyTorch基础概念
- 常见面试问题
- 代码实现要点
- 性能优化技巧

## 张量操作进阶

### einops库

- **GitHub**: [https://github.com/arogozhnikov/einops](https://github.com/arogozhnikov/einops)
- **特色**: 优雅的张量操作,代码可读性强
- **核心功能**: `rearrange`, `reduce`, `repeat`

### The Tensor Cookbook

- **网站**: [https://tensorcookbook.com/](https://tensorcookbook.com/)
- **GitHub**: [https://github.com/thomasahle/tensorgrad](https://github.com/thomasahle/tensorgrad)
- **特色**: 可视化张量操作指南
- **知乎讨论**: [张量食谱相关讨论](https://www.zhihu.com/search?type=content&q=%E5%BC%A0%E9%87%8F%E9%A3%9F%E8%B0%B1)
---

## 经典教材
## 核心概念

### Deep Learning with PyTorch Step-by-Step
- **张量 (Tensor)**:PyTorch 的核心数据结构,支持 GPU 加速的多维数组
![](/images/word/word-img-01.png)
![](/images/word/word-img-02.png)
- **自动梯度 (Autograd)**:动态计算图与自动微分系统
- **神经网络模块 (nn.Module)**:模块化构建神经网络
- **训练循环**:优化器、损失函数、学习率调度等

- **特色**: 从基础到高级的完整路径,逐步深入的PyTorch学习
- **适用**: 有一定基础的学习者
- **内容**: 包含完整的项目实战案例
---

## 核心概念
## 张量操作进阶

### 张量 (Tensor)
### 工具与库

PyTorch的核心数据结构,支持GPU加速的多维数组。
- **einops**: [GitHub](https://github.com/arogozhnikov/einops) — 优雅的张量操作(`rearrange`, `reduce`, `repeat`)
- **The Tensor Cookbook**:
- [官网](https://tensorcookbook.com/)
- [知乎讨论](https://www.zhihu.com/search?type=content&q=%E5%BC%A0%E9%87%8F%E9%A3%9F%E8%B0%B1)
- [tensorgrad (GitHub)](https://github.com/thomasahle/tensorgrad)
- [Cookbook PDF]

### 自动梯度 (Autograd)
---

动态计算图和自动微分系统,深度学习训练的核心。
## 经典教材

### 神经网络模块 (nn.Module)
- **Deep Learning with PyTorch Step-by-Step: A Beginner’s Guide** (Daniel Voigt Godoy)
- [PDF (Z-Library)]

构建神经网络的基础类,支持模块化设计。
---

## 实践建议

Expand All @@ -90,36 +77,19 @@ PyTorch的核心数据结构,支持GPU加速的多维数组。

1. **多动手**: 每个概念都要亲自实现
2. **读源码**: 理解底层实现原理
3. **做项目**: 通过项目巩固知识
3. **做项目**: 通过实战巩固知识
4. **参与社区**: 贡献开源项目

PyTorch作为深度学习的主流框架,掌握其核心概念和高级特性对于大模型开发至关重要。

1. [PyTorch 深度学习快速入门教程(绝对通俗易懂!)【小土堆】](https://www.bilibili.com/video/BV1hE411t7RN/?spm_id_from=333.337.search-card.all.click&vd_source=14245d272f6606a31fe299db9e47ca84)
2. [PyTorch 面试精华](https://www.mstx.cn/pytorch.html)
3. [菜鸟教程 - PyTorch](https://www.runoob.com/pytorch/pytorch-tensor.html)
4. [PyTorch 官方中文教程](https://pytorch.ac.cn/tutorials/)

## 张量 (Tensor)

### 张量工具与库

- [einops (Github)](https://github.com/arogozhnikov/einops)

### Tensor Cookbook 及相关资料
---

- [The Tensor Cookbook(可视化张量)](https://tensorcookbook.com/)
- [知乎 - 张量食谱相关讨论](https://www.zhihu.com/search?type=content&q=%E5%BC%A0%E9%87%8F%E9%A3%9F%E8%B0%B1)
- [tensorgrad (Github)](https://github.com/thomasahle/tensorgrad)
- [Cookbook PDF]
- Deep Learning with PyTorch Step-by-Step: A Beginner’s Guide (Daniel Voigt Godoy) PDF (Z-Library)
## 附录:环境准备

## Jupyter 内核注册(来自群文档摘录)
### Jupyter 内核注册

```bash
pip install ipykernel

# 注册内核(示例)
# 注册内核示例
python -m ipykernel install --user --name myenv
python -m ipykernel install --user --name yourname --display-name yourname
```
15 changes: 15 additions & 0 deletions app/docs/ai/multimodal/mllm/index.mdx
Original file line number Diff line number Diff line change
Expand Up @@ -2,3 +2,18 @@
title: "MLLM 多模态大模型"
description: "多模态大模型(MLLM)资料"
---

- Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration — arXiv:2412.13180
https://arxiv.org/abs/2412.13180

- Token Activation Map to Visually Explain Multimodal LLMs — arXiv:2506.23270
https://arxiv.org/abs/2506.23270

- GLM-4.5V and GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Training — arXiv:2507.01006
https://arxiv.org/abs/2507.01006

- Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers — arXiv:2506.23918
https://arxiv.org/abs/2506.23918

- Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations — arXiv:2506.18898
https://arxiv.org/abs/2506.18898
92 changes: 89 additions & 3 deletions app/docs/ai/multimodal/video-mm-todo/index.mdx
Original file line number Diff line number Diff line change
@@ -1,7 +1,93 @@
---
title: "多模态视频大模型"
description: "视频多模态资料与方向"
status: todo
description: "学习笔记:细粒度感知与长视频理解问题"
status: note
---

资料后续补充。
# 多模态视频大模型学习笔记

## 1. 背景

多模态视频大模型(MVM)结合了视觉、语言、音频等信息。
相比图像模型,视频任务难度更大,主要痛点是:

- **细粒度感知**:需要精准定位视频中的对象、动作、关系。
- **长视频理解**:需要跨越长时间跨度,抓取关键事件并保持全局一致性。

---

## 2. 细粒度感知问题

### 2.1 现象

- 识别动作不够细,比如“拿起” vs “举起”容易混淆。
- 模型回答缺少时间戳或关键帧作为证据。
- 不同模态(字幕 vs 画面)不同步。

### 2.2 难点

- **数据**:精细标注成本高,长尾动作样本稀少。
- **计算**:高分辨率视频导致 token 数量暴涨。
- **表征**:局部细节 vs 全局语义之间的矛盾。

### 2.3 方法

- 动作/事件的**分层建模**:全局 -> 局部 -> 原子动作。
- **Token 剪枝 / 压缩**:保留关键帧或关键patch,减少冗余。
- **多任务训练**:分类 + 定位 + QA 联合学习。
- **证据可视化**:输出 frame index 或 bounding box。

---

## 3. 长视频理解问题

### 3.1 现象

- 模型只能处理几秒视频,超过几分钟就“遗忘”。
- 问答缺乏全局上下文,经常答非所问。
- 摘要或检索偏向“局部”,忽略主线。

### 3.2 难点

- **Token 预算**:分钟级视频动辄几十万帧,不可能直接全输入。
- **结构复杂**:电影/课堂/会议往往包含多场景、多角色、多事件。
- **跨模态异步**:字幕、音频、动作不一定同时发生。

### 3.3 方法

- **层次化建模**:Shot → Scene → Event → Video。
- **检索增强**:先通过索引定位关键片段,再送入大模型推理。
- **记忆机制**:滑窗+缓存、外部记忆库、摘要链。
- **多模态协作**:结合字幕(ASR)、OCR、音频,辅助视觉。

---

## 4. 常见评测指标

- **细粒度感知**:
- 动作定位 mAP@tIoU
- QA 正确率 + 时间戳一致性
- 可解释性(证据帧与答案匹配度)
- **长视频理解**:
- QA 准确率(长上下文)
- 检索 Recall@K / mAP
- 摘要质量(ROUGE、人类评价)
- 计算效率(fps、显存占用)

---

## 5. 其他思考

- 细粒度问题更像 **计算机视觉 + NLP 联合的小任务**(检测/分割/动作识别 + QA)。
- 长视频理解更像 **系统工程**:需要数据预处理(分段/索引)、模型(层次化)、推理(检索+规划)。
- 未来方向可能是:**多模态协同记忆 + 可解释推理**。

---

## 6. 参考文献

- Feather the Throttle: Revisiting Visual Token Pruning — [arXiv:2412.13180](https://arxiv.org/abs/2412.13180)
- Token Activation Map to Visually Explain Multimodal LLMs — [arXiv:2506.23270](https://arxiv.org/abs/2506.23270)
- GLM-4.5V / 4.1V-Thinking — [arXiv:2507.01006](https://arxiv.org/abs/2507.01006)
- Thinking with Images for Multimodal Reasoning — [arXiv:2506.23918](https://arxiv.org/abs/2506.23918)
- Vision as a Dialect — [arXiv:2506.18898](https://arxiv.org/abs/2506.18898)
6 changes: 3 additions & 3 deletions app/docs/ai/recommender-systems/index.mdx
Original file line number Diff line number Diff line change
Expand Up @@ -72,7 +72,7 @@ tags:

## 8.4 推荐系统学习笔记

📊 **推荐系统学习笔记表格**: 查看完整的学习笔记整理
**推荐系统学习笔记表格**: 查看完整的学习笔记整理

**核心内容包括**:

Expand All @@ -85,7 +85,7 @@ tags:

GitHub论文合集,持续更新。内容比较贴近业务,不太涉及生成式推荐。

📊 **推荐系统论文筛选表格**: 查看完整的论文筛选列表
**推荐系统论文筛选表格**: 查看完整的论文筛选列表

**筛选状态**:

Expand Down Expand Up @@ -164,7 +164,7 @@ GitHub论文合集,持续更新。内容比较贴近业务,不太涉及生
4. **工程能力**: 重视系统设计和工程实现能力
5. **持续学习**: 关注大模型等前沿技术在推荐中的应用

## 来自群文档摘录
## 其他摘要

- LLM4REC(大模型推荐)
- 学习路径(WIP):学习业务、学习模型
Expand Down
2 changes: 1 addition & 1 deletion app/docs/ai/reinforcement-learning/index.mdx
Original file line number Diff line number Diff line change
Expand Up @@ -138,7 +138,7 @@ DeepSeek-R1作为推理能力突出的大模型,其技术细节值得深入研
3. **安全强化学习**: 确保学习过程和结果的安全性
4. **可解释强化学习**: 提升决策过程的可解释性

## 来自 UNSW IT-AI内卷地狱 文档摘录
## 其他文档摘录

- 思维链 COT / Multi-step COT(MCOT)/ Latent CoT

Expand Down