diff --git a/app/docs/ai/agents-todo/index.mdx b/app/docs/ai/agents-todo/index.mdx index bae9951..0c56646 100644 --- a/app/docs/ai/agents-todo/index.mdx +++ b/app/docs/ai/agents-todo/index.mdx @@ -4,4 +4,55 @@ description: "大语言模型智能体:CS294/194-196课程、ReAct、FireAct status: todo --- -本节聚合 LLM 智能体相关的课程与技术框架,后续补充。 +本节聚合 LLM 智能体相关的课程与技术框架。 + +--- + +## OpenHands(原 OpenDevin) + +- **链接**: + - [GitHub 仓库](https://github.com/All-Hands-AI/OpenHands) + - [论文 arXiv:2407.16741](https://arxiv.org/pdf/2407.16741) +- **简介**: + OpenHands 是一个开源 Agent 平台,能执行代码 / shell / 网页 / API 操作等任务,适合开发者日常自动化与工具链集成。 + +--- + +## Kimi-Researcher + +- **链接**: + - [官网介绍](https://moonshotai.github.io/Kimi-Researcher/) + - [知乎文章](https://zhuanlan.zhihu.com/p/1921119537757140195) +- **简介**: + 一个以强化学习 (RL) 驱动的科研 Agent,可自我规划、多轮检索 & 推理任务,用于技术研究/报告撰写等复杂任务。 + +--- + +## OpenAI Deep Research + +- **链接**: + - [Introducing Deep Research — OpenAI](https://openai.com/index/introducing-deep-research/) + - [ChatGPT Deep Research — Wikipedia](https://en.wikipedia.org/wiki/ChatGPT_Deep_Research) +- **简介**: + Deep Research 是 OpenAI 在 2025 年推出的 Agent 模式,支持多步骤互联网研究任务,能浏览网页、PDF、图像资料并合成报告。适用于专业研究工作,如科学、政策、工程等领域。 + +--- + +## KAG: Knowledge Augmented Generation + +- **链接**: + - [arXiv:2409.13731 (KAG)](https://arxiv.org/abs/2409.13731) +- **简介**: + KAG 是一个面向专业领域的大型语言模型增强框架,旨在结合 **知识图谱 + 向量检索** 来弥补 RAG 在专业场景下的不足。尤其强调知识逻辑(如数值、时间、专家规则等)的融合,从而在问答与推理任务中表现更靠谱。 + +--- + +## DeepResearchAgent / DeepResearcher & DR Agent Survey + +- **链接**: + - [Deep Research Agents: A Systematic Examination and Roadmap (arXiv)](https://arxiv.org/abs/2506.18096) + - [DeepResearcher: Scaling Deep Research via Reinforcement Learning (arXiv:2504.03160)](https://arxiv.org/abs/2504.03160) +- **简介**: + 这些工作研究 Agent 在真实环境中做深度研究 (Deep Research) 的架构组件、检索方法、工具使用与规划流程。 + - DR Survey 提供 Agent 系统分类、关键挑战与未来方向。 + - DeepResearcher 用 RL + 网页交互训练 Agent,在开放域研究任务上相比传统基于检索或提示的方法表现更强。 diff --git a/app/docs/ai/llm-basics/index.mdx b/app/docs/ai/llm-basics/index.mdx index 2501e9e..0857d8a 100644 --- a/app/docs/ai/llm-basics/index.mdx +++ b/app/docs/ai/llm-basics/index.mdx @@ -13,7 +13,7 @@ tags: ## 核心学习模块 -### 📚 深度学习基础 +### 深度学习基础 - 前往: [深度学习基础](./deep-learning/) - 李沐动手学深度学习 @@ -21,7 +21,7 @@ tags: - 机器学习经典教材 - 理论与实践结合 -### 🔧 PyTorch 框架 +### PyTorch 框架 - 前往: [PyTorch框架](./pytorch/) - 小土堆入门教程 @@ -45,7 +45,7 @@ tags: - 位置编码设计 - 架构可视化学习 -### 🎯 Embedding 模型 +### Embedding 模型 - 前往: [Embedding模型](./embeddings/) - Qwen3-embedding 深度解读 @@ -53,7 +53,7 @@ tags: - 向量化表示技术 - 相似度计算方法 -### 📖 入门课程 +### 入门课程 - 前往: [入门课程](./courses/) - CS224N 斯坦福 NLP 课程 diff --git a/app/docs/ai/llm-basics/pytorch/index.mdx b/app/docs/ai/llm-basics/pytorch/index.mdx index ddca14a..1fe4210 100644 --- a/app/docs/ai/llm-basics/pytorch/index.mdx +++ b/app/docs/ai/llm-basics/pytorch/index.mdx @@ -15,66 +15,53 @@ PyTorch是现代深度学习最重要的框架之一,特别在研究和大模 ### 小土堆PyTorch教程 -- **视频地址**: [PyTorch深度学习快速入门教程](https://www.bilibili.com/video/BV1hE411t7RN/) -- **特色**: 绝对通俗易懂,适合零基础学习者 +- **视频**: [PyTorch深度学习快速入门教程](https://www.bilibili.com/video/BV1hE411t7RN/?spm_id_from=333.337.search-card.all.click&vd_source=14245d272f6606a31fe299db9e47ca84) +- **特色**: 通俗易懂,适合零基础学习者 - **内容覆盖**: - - PyTorch基础概念 + - 基础概念 - 张量操作 - 神经网络构建 - 训练循环设计 - 实际项目案例 -### 官方资源 +### 官方与社区资源 -- **PyTorch官方中文教程**: [https://pytorch.ac.cn/tutorials/](https://pytorch.ac.cn/tutorials/) -- **菜鸟教程**: [https://www.runoob.com/pytorch/pytorch-tensor.html](https://www.runoob.com/pytorch/pytorch-tensor.html) -- **特色**: 权威性强,内容全面,持续更新 +- **PyTorch官方中文教程**: [pytorch.ac.cn/tutorials](https://pytorch.ac.cn/tutorials/) +- **菜鸟教程**: [runoob.com/pytorch](https://www.runoob.com/pytorch/pytorch-tensor.html) +- **PyTorch面试精华**: [mstx.cn](https://www.mstx.cn/pytorch.html) -### PyTorch面试精华 - -- **资源链接**: [https://www.mstx.cn/pytorch.html](https://www.mstx.cn/pytorch.html) -- **覆盖内容**: - - PyTorch基础概念 - - 常见面试问题 - - 代码实现要点 - - 性能优化技巧 - -## 张量操作进阶 - -### einops库 - -- **GitHub**: [https://github.com/arogozhnikov/einops](https://github.com/arogozhnikov/einops) -- **特色**: 优雅的张量操作,代码可读性强 -- **核心功能**: `rearrange`, `reduce`, `repeat` - -### The Tensor Cookbook - -- **网站**: [https://tensorcookbook.com/](https://tensorcookbook.com/) -- **GitHub**: [https://github.com/thomasahle/tensorgrad](https://github.com/thomasahle/tensorgrad) -- **特色**: 可视化张量操作指南 -- **知乎讨论**: [张量食谱相关讨论](https://www.zhihu.com/search?type=content&q=%E5%BC%A0%E9%87%8F%E9%A3%9F%E8%B0%B1) +--- -## 经典教材 +## 核心概念 -### Deep Learning with PyTorch Step-by-Step +- **张量 (Tensor)**:PyTorch 的核心数据结构,支持 GPU 加速的多维数组 + ![](/images/word/word-img-01.png) + ![](/images/word/word-img-02.png) +- **自动梯度 (Autograd)**:动态计算图与自动微分系统 +- **神经网络模块 (nn.Module)**:模块化构建神经网络 +- **训练循环**:优化器、损失函数、学习率调度等 -- **特色**: 从基础到高级的完整路径,逐步深入的PyTorch学习 -- **适用**: 有一定基础的学习者 -- **内容**: 包含完整的项目实战案例 +--- -## 核心概念 +## 张量操作进阶 -### 张量 (Tensor) +### 工具与库 -PyTorch的核心数据结构,支持GPU加速的多维数组。 +- **einops**: [GitHub](https://github.com/arogozhnikov/einops) — 优雅的张量操作(`rearrange`, `reduce`, `repeat`) +- **The Tensor Cookbook**: + - [官网](https://tensorcookbook.com/) + - [知乎讨论](https://www.zhihu.com/search?type=content&q=%E5%BC%A0%E9%87%8F%E9%A3%9F%E8%B0%B1) + - [tensorgrad (GitHub)](https://github.com/thomasahle/tensorgrad) + - [Cookbook PDF] -### 自动梯度 (Autograd) +--- -动态计算图和自动微分系统,深度学习训练的核心。 +## 经典教材 -### 神经网络模块 (nn.Module) +- **Deep Learning with PyTorch Step-by-Step: A Beginner’s Guide** (Daniel Voigt Godoy) + - [PDF (Z-Library)] -构建神经网络的基础类,支持模块化设计。 +--- ## 实践建议 @@ -90,36 +77,19 @@ PyTorch的核心数据结构,支持GPU加速的多维数组。 1. **多动手**: 每个概念都要亲自实现 2. **读源码**: 理解底层实现原理 -3. **做项目**: 通过项目巩固知识 +3. **做项目**: 通过实战巩固知识 4. **参与社区**: 贡献开源项目 -PyTorch作为深度学习的主流框架,掌握其核心概念和高级特性对于大模型开发至关重要。 - -1. [PyTorch 深度学习快速入门教程(绝对通俗易懂!)【小土堆】](https://www.bilibili.com/video/BV1hE411t7RN/?spm_id_from=333.337.search-card.all.click&vd_source=14245d272f6606a31fe299db9e47ca84) -2. [PyTorch 面试精华](https://www.mstx.cn/pytorch.html) -3. [菜鸟教程 - PyTorch](https://www.runoob.com/pytorch/pytorch-tensor.html) -4. [PyTorch 官方中文教程](https://pytorch.ac.cn/tutorials/) - -## 张量 (Tensor) - -### 张量工具与库 - -- [einops (Github)](https://github.com/arogozhnikov/einops) - -### Tensor Cookbook 及相关资料 +--- -- [The Tensor Cookbook(可视化张量)](https://tensorcookbook.com/) -- [知乎 - 张量食谱相关讨论](https://www.zhihu.com/search?type=content&q=%E5%BC%A0%E9%87%8F%E9%A3%9F%E8%B0%B1) -- [tensorgrad (Github)](https://github.com/thomasahle/tensorgrad) -- [Cookbook PDF] -- Deep Learning with PyTorch Step-by-Step: A Beginner’s Guide (Daniel Voigt Godoy) PDF (Z-Library) +## 附录:环境准备 -## Jupyter 内核注册(来自群文档摘录) +### Jupyter 内核注册 ```bash pip install ipykernel -# 注册内核(示例) +# 注册内核示例 python -m ipykernel install --user --name myenv python -m ipykernel install --user --name yourname --display-name yourname ``` diff --git a/app/docs/ai/multimodal/mllm/index.mdx b/app/docs/ai/multimodal/mllm/index.mdx index 6c8c9b3..9759403 100644 --- a/app/docs/ai/multimodal/mllm/index.mdx +++ b/app/docs/ai/multimodal/mllm/index.mdx @@ -2,3 +2,18 @@ title: "MLLM 多模态大模型" description: "多模态大模型(MLLM)资料" --- + +- Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration — arXiv:2412.13180 + https://arxiv.org/abs/2412.13180 + +- Token Activation Map to Visually Explain Multimodal LLMs — arXiv:2506.23270 + https://arxiv.org/abs/2506.23270 + +- GLM-4.5V and GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Training — arXiv:2507.01006 + https://arxiv.org/abs/2507.01006 + +- Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers — arXiv:2506.23918 + https://arxiv.org/abs/2506.23918 + +- Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations — arXiv:2506.18898 + https://arxiv.org/abs/2506.18898 diff --git a/app/docs/ai/multimodal/video-mm-todo/index.mdx b/app/docs/ai/multimodal/video-mm-todo/index.mdx index d84d248..c41f76a 100644 --- a/app/docs/ai/multimodal/video-mm-todo/index.mdx +++ b/app/docs/ai/multimodal/video-mm-todo/index.mdx @@ -1,7 +1,93 @@ --- title: "多模态视频大模型" -description: "视频多模态资料与方向" -status: todo +description: "学习笔记:细粒度感知与长视频理解问题" +status: note --- -资料后续补充。 +# 多模态视频大模型学习笔记 + +## 1. 背景 + +多模态视频大模型(MVM)结合了视觉、语言、音频等信息。 +相比图像模型,视频任务难度更大,主要痛点是: + +- **细粒度感知**:需要精准定位视频中的对象、动作、关系。 +- **长视频理解**:需要跨越长时间跨度,抓取关键事件并保持全局一致性。 + +--- + +## 2. 细粒度感知问题 + +### 2.1 现象 + +- 识别动作不够细,比如“拿起” vs “举起”容易混淆。 +- 模型回答缺少时间戳或关键帧作为证据。 +- 不同模态(字幕 vs 画面)不同步。 + +### 2.2 难点 + +- **数据**:精细标注成本高,长尾动作样本稀少。 +- **计算**:高分辨率视频导致 token 数量暴涨。 +- **表征**:局部细节 vs 全局语义之间的矛盾。 + +### 2.3 方法 + +- 动作/事件的**分层建模**:全局 -> 局部 -> 原子动作。 +- **Token 剪枝 / 压缩**:保留关键帧或关键patch,减少冗余。 +- **多任务训练**:分类 + 定位 + QA 联合学习。 +- **证据可视化**:输出 frame index 或 bounding box。 + +--- + +## 3. 长视频理解问题 + +### 3.1 现象 + +- 模型只能处理几秒视频,超过几分钟就“遗忘”。 +- 问答缺乏全局上下文,经常答非所问。 +- 摘要或检索偏向“局部”,忽略主线。 + +### 3.2 难点 + +- **Token 预算**:分钟级视频动辄几十万帧,不可能直接全输入。 +- **结构复杂**:电影/课堂/会议往往包含多场景、多角色、多事件。 +- **跨模态异步**:字幕、音频、动作不一定同时发生。 + +### 3.3 方法 + +- **层次化建模**:Shot → Scene → Event → Video。 +- **检索增强**:先通过索引定位关键片段,再送入大模型推理。 +- **记忆机制**:滑窗+缓存、外部记忆库、摘要链。 +- **多模态协作**:结合字幕(ASR)、OCR、音频,辅助视觉。 + +--- + +## 4. 常见评测指标 + +- **细粒度感知**: + - 动作定位 mAP@tIoU + - QA 正确率 + 时间戳一致性 + - 可解释性(证据帧与答案匹配度) +- **长视频理解**: + - QA 准确率(长上下文) + - 检索 Recall@K / mAP + - 摘要质量(ROUGE、人类评价) + - 计算效率(fps、显存占用) + +--- + +## 5. 其他思考 + +- 细粒度问题更像 **计算机视觉 + NLP 联合的小任务**(检测/分割/动作识别 + QA)。 +- 长视频理解更像 **系统工程**:需要数据预处理(分段/索引)、模型(层次化)、推理(检索+规划)。 +- 未来方向可能是:**多模态协同记忆 + 可解释推理**。 + +--- + +## 6. 参考文献 + +- Feather the Throttle: Revisiting Visual Token Pruning — [arXiv:2412.13180](https://arxiv.org/abs/2412.13180) +- Token Activation Map to Visually Explain Multimodal LLMs — [arXiv:2506.23270](https://arxiv.org/abs/2506.23270) +- GLM-4.5V / 4.1V-Thinking — [arXiv:2507.01006](https://arxiv.org/abs/2507.01006) +- Thinking with Images for Multimodal Reasoning — [arXiv:2506.23918](https://arxiv.org/abs/2506.23918) +- Vision as a Dialect — [arXiv:2506.18898](https://arxiv.org/abs/2506.18898) diff --git a/app/docs/ai/recommender-systems/index.mdx b/app/docs/ai/recommender-systems/index.mdx index dba4ab4..3701d9c 100644 --- a/app/docs/ai/recommender-systems/index.mdx +++ b/app/docs/ai/recommender-systems/index.mdx @@ -72,7 +72,7 @@ tags: ## 8.4 推荐系统学习笔记 -📊 **推荐系统学习笔记表格**: 查看完整的学习笔记整理 +**推荐系统学习笔记表格**: 查看完整的学习笔记整理 **核心内容包括**: @@ -85,7 +85,7 @@ tags: GitHub论文合集,持续更新。内容比较贴近业务,不太涉及生成式推荐。 -📊 **推荐系统论文筛选表格**: 查看完整的论文筛选列表 +**推荐系统论文筛选表格**: 查看完整的论文筛选列表 **筛选状态**: @@ -164,7 +164,7 @@ GitHub论文合集,持续更新。内容比较贴近业务,不太涉及生 4. **工程能力**: 重视系统设计和工程实现能力 5. **持续学习**: 关注大模型等前沿技术在推荐中的应用 -## 来自群文档摘录 +## 其他摘要 - LLM4REC(大模型推荐) - 学习路径(WIP):学习业务、学习模型 diff --git a/app/docs/ai/reinforcement-learning/index.mdx b/app/docs/ai/reinforcement-learning/index.mdx index ca5c9a0..2f99add 100644 --- a/app/docs/ai/reinforcement-learning/index.mdx +++ b/app/docs/ai/reinforcement-learning/index.mdx @@ -138,7 +138,7 @@ DeepSeek-R1作为推理能力突出的大模型,其技术细节值得深入研 3. **安全强化学习**: 确保学习过程和结果的安全性 4. **可解释强化学习**: 提升决策过程的可解释性 -## 来自 UNSW IT-AI内卷地狱 文档摘录 +## 其他文档摘录 - 思维链 COT / Multi-step COT(MCOT)/ Latent CoT