Knowledge and Memory Management（知识和记忆体管理）

超越「记住」——知识采集 → 笔记生成 → 语义检索 → 云盘同步 全链路插件扩展。

📦 定位：hermes-memory-installer 的能力扩展层。底座解决「记住」，KMM 解决「知识从哪来、如何用」。

架构总览

采集层（40+ 工具）  →  分析层（AI 处理）  →  存储层（三层记忆）
   │                        │                       │
   ├─ 网页引擎(9)           ├─ 笔记自动生成        ├─ Hot(Memory tool)
   ├─ 视频引擎(12)          ├─ 知识图谱提取        ├─ Warm(Hindsight, 10K节点)
   ├─ 文章/内容(10)         ├─ NLI 事实核查        └─ Cold(gbrain, 11K页)
   ├─ 文档/OCR(9)           ├─ 知识发现与召回
   ├─ 知识检索/分析(7)      └─ 书籍自动精炼
   └─ 知识管理(4)
                                            ┌─ OneDrive / Google Drive
                                            ├─ 阿里云盘 / 百度网盘
              云盘同步层（rclone, 12+ 驱动）──┼─ Dropbox / Mega / pCloud
                                            ├─ WebDAV / S3 / 天翼云
                                            └─ 更多 rclone 支持的所有驱动

模块组成

模块	目录	功能
知识采集器	`src/knowledge_collector/`	9 个子模块覆盖网页/视频/文章/文档/分析/笔记生成/知识精炼/知识管理
笔记 RAG	`src/notes_rag/`	语义搜索、向量检索、三层上下文召回
云盘同步	`src/cloud_sync/`	rclone 统一驱动，12+ 云盘双向同步
SenseNova 引擎	`src/sensenova/`	PDF/PPT/Word 三件套文档智能分析
知识增广	`src/knowledge_augmentation/`	本地笔记优先 + AnySearch 全网回落
采集管线	`docs/collection-pipeline.md`	40+ 工具详细说明和链路图
工具版本	`docs/tool-versions.md`	已验证工具链版本表
快速开始	`docs/quick-start.md`	安装和第一个采集

40+ 采集分析工具全集

🌐 网页采集（9 引擎）

工具	类型	能力	适用场景
Scrapling	MCP	⭐⭐⭐⭐⭐	反检测采集，Cloudflare 绕过，stealthy/dynamic/http 三模式
Chrome DevTools	MCP	⭐⭐⭐⭐⭐	浏览器自动化，JS 执行，网络分析，性能追踪
GStack Browser	内置	⭐⭐⭐⭐⭐	Hermes 内置浏览器 + 视觉分析
knowledge_fetch_router	脚本	⭐⭐⭐⭐	智能路由（trafilatura→readability→Crawl4AI）
knowledge_site_crawler	脚本	⭐⭐⭐⭐	Crawlee 同域名批量爬取
obscura_fetch_bridge	桥接	⭐⭐⭐	动态网页 Markdown 提取
opensquilla_bridge	桥接	⭐⭐⭐	轻量侧车采集
web_extract	内置	⭐⭐	纯 HTTP 内容提取
ripgrep_kb_scan	脚本	⭐⭐	知识库预筛去重

🎬 视频采集（12 工具）

工具	类型	能力	适用场景
douyin_video_intake	脚本	⭐⭐⭐⭐⭐	抖音元数据+字幕+ASR
douyin_batch_transcriber	脚本	⭐⭐⭐⭐⭐	抖音批量多视频并发转录
social_video_intake	脚本	⭐⭐⭐⭐⭐	通用社交视频统一入口
universal-video-analyzer	Skill	⭐⭐⭐⭐⭐	多语言OCR/人脸/质量/BGM/情感
media_transcriber_wrapper	脚本	⭐⭐⭐⭐	通用媒体转录包装器
yt-dlp	CLI	⭐⭐⭐⭐	1000+网站视频下载
Whisper ASR	引擎	⭐⭐⭐⭐	99+语言语音转文字
EasyOCR	引擎	⭐⭐⭐	视频关键帧文字提取
PaddleOCR	引擎	⭐⭐⭐⭐	70k⭐ 高精度 OCR
FFmpeg	CLI	⭐⭐⭐	视频切分/转码/音频提取
Tesseract OCR	CLI	⭐⭐⭐	开源 OCR（中文支持）
YouTube Analytics	Skill	⭐⭐⭐⭐	频道/视频数据分析

📄 文档/OCR（9 工具）—— 新增 SenseNova

工具	能力	说明
SenseNova PDF 分析	⭐⭐⭐⭐⭐	文字型+扫描型 PDF，表格/图表/多页全量提取
SenseNova PPT 分析	⭐⭐⭐⭐⭐	全 Slide 文本/表格/图表/嵌入图片提取
SenseNova Word 分析	⭐⭐⭐⭐⭐	正文/表格/高亮/格式/多文档对比
umi_ocr_bridge	⭐⭐⭐⭐	中文 OCR 增强桥接
doc_parse_router	⭐⭐⭐⭐	多格式路由（PDF/HTML/MD/Office）
Magic-PDF	⭐⭐⭐⭐	PDF → Markdown 转换
MinerU	⭐⭐⭐⭐	文档内容智能提取
PaddleOCR	⭐⭐⭐⭐	70k⭐ 百度开源高精度 OCR
book_cache_manager	⭐⭐⭐⭐	710+书索引+按需缓存+自动精炼

📝 文章/内容（10 来源）

微信公众号 / 微博 / 新闻聚合 / 科技新闻 / AI 中文日报 / RSS/博客 / GitHub 热门 / 通用网络文档 / 多格式文档解析

🔬 知识分析（7 工具）

web_search / web_extract / NLI 事实核查 / 评论摘要 / 新闻丰富 / 关键词提取 / 交叉验证

🧠 知识管理（4 工具）—— 全新

工具	能力	说明
knowledge_discovery	⭐⭐⭐⭐⭐	每周日自动扫描 OneDrive→本地→gbrain 录入
lightweight_recall	⭐⭐⭐⭐⭐	三层跨层召回（FTS5 + Hindsight语义 + gbrain关键词）
onedrive_bidirectional_sync	⭐⭐⭐⭐⭐	OneDrive 双向增量同步（每4小时）
nightly_maintenance	⭐⭐⭐⭐⭐	凌晨维护母脚本（含知识发现+孤页链接+compact）

📚 知识精炼（6 工具）

工具	能力	说明
book_to_skill 管线	⭐⭐⭐⭐⭐	PDF/EPUB → 结构化 Skill + KMM 笔记
pdfplumber 引擎	⭐⭐⭐⭐	表格保留提取（技术书首选）
pdftotext 引擎	⭐⭐⭐⭐	快速文本提取
双引擎降级链	⭐⭐⭐⭐	pdfplumber→pdftotext→pdfminer 自动降级
章节自动分割	⭐⭐⭐⭐	三层分割策略
自动触发管线	⭐⭐⭐⭐⭐	`book_cache_manager` 下载后自动精炼

快速安装

# 要求：已安装 hermes-memory-installer（gbrain + Hindsight）
source ~/.hermes/hermes-agent/.venv/bin/activate

# 克隆仓库
git clone https://github.com/mage0535/Knowledge-and-Memory-Management.git
cd Knowledge-and-Memory-Management

# 运行安装程序
bash install.sh

安装程序自动完成：

检测 Hermes 环境（venv、gbrain 端口 8787、Hindsight 端口 8890）
安装/升级 Python 依赖（yt-dlp、scrapling、paddleocr 等）
检测系统工具（ffmpeg、tesseract、rclone）
配置云盘双向同步规则
注册定时知识采集 cron 任务
配置知识发现自动管线

使用指南

1. 快速采集

# 采集网页，自动提取重点并生成笔记
python3 -c "
from knowledge_collector import collect_web
result = collect_web('https://example.com/article')
print(f'笔记已生成: {result.note_path}')
print(f'gbrain 页面: {result.gbrain_slug}')
"

# 采集视频（自动字幕+OCR+ASR）
python3 -c "
from knowledge_collector import collect_video
result = collect_video('https://www.youtube.com/watch?v=xxx')
print(f'字幕已提取: {len(result.subtitles)} 条')
print(f'关键帧截图: {result.frames}')
"

# 采集微信公众号文章
python3 $AGENT_HOME/scripts/network_doc_intake.py "https://mp.weixin.qq.com/s/xxx"

2. 文档智能分析

# SenseNova PDF 分析 — 文字型/扫描型都支持
python3 $AGENT_HOME/scripts/sensenova_dispatcher.py pdf report.pdf

# SenseNova PPT 分析 — 全Slide提取
python3 $AGENT_HOME/scripts/sensenova_dispatcher.py ppt presentation.pptx

# SenseNova Word 分析 — 正文+表格+格式
python3 $AGENT_HOME/scripts/sensenova_dispatcher.py word document.docx

3. 书籍自动精炼

# 方式一：手动触发
python3 $AGENT_HOME/scripts/book_to_skill.py all book.pdf --name machine-learning

# 方式二：通过缓存管理器（自动触发精炼）
python3 $AGENT_HOME/scripts/book_cache_manager.py cache book.pdf
# → 自动触发 book_to_skill.py all → Skill + KMM 笔记

4. 知识检索

# 三层召回（FTS5 + Hindsight + gbrain）
python3 $AGENT_HOME/scripts/lightweight_recall.py --query "Agent 记忆系统设计" --limit 10

# gbrain 语义搜索
gbrain search "知识图谱构建" --limit 5

# 笔记全文搜索
python3 $AGENT_HOME/scripts/ripgrep_kb_scan.py "深度学习"

5. 知识发现（自动化）

每周日凌晨自动执行，也可手动触发：

# 扫描本地笔记 → 自动录入 gbrain
python3 $AGENT_HOME/scripts/knowledge_discovery.py

6. 云盘双向同步

# 自动（每4小时 cron）
# 手动：
bash $AGENT_HOME/scripts/onedrive_bidirectional_sync.sh

知识增广（Knowledge Augmentation）

当本地笔记不够用，自动走 AnySearch 垂直搜索补全。

用户搜索 → search_notes("比亚迪 2026Q1 财报")
    │
    ├─ 本地命中 (score ≥ 0.6) → 直接返回笔记结果
    │
    └─ 本地不足 (score < 0.6) → AnySearch 垂直搜索
         ├─ domain=finance (财务数据)
         ├─ domain=academic (论文)
         └─ 结果自动标注来源 web，可导入笔记库

# 安装后即可使用
export ANYSEARCH_API_KEY="as_sk_xxxx"
python -c "
from knowledge_augmentation import AugmentedSearch
s = AugmentedSearch()
r = s.search('中国 2026 年 GDP 预测', domain='finance')
print(r['source'], '-', len(r['results']), '条结果')
"

云盘同步

支持 12+ 云盘驱动，全部通过 rclone 统一接口：

云盘	认证方式	同步模式
OneDrive	OAuth	双向增量（每4h）
Google Drive	OAuth	单向 + 按需
阿里云盘	Token	单向备份
百度网盘	OAuth	单向备份
Dropbox / Mega / pCloud / 天翼云 / 123云盘 / S3 / WebDAV	按 rclone 标准	可配置

采集编排

采集不是孤立的——它与记忆体、知识图谱、笔记、云盘形成闭环：

采集 → 处理 → 笔记 → gbrain 知识图谱 → 云盘双向同步
  │                                              │
  └──────────── 下次采集先去重 ────────────────┘

自动化调度（10 cron 体系）

调度	模块	频率
凌晨维护(含知识发现)	nightly_maintenance.py	每日 03:30
OneDrive 双向同步	onedrive_bidirectional_sync.sh	每 4 小时
知识图谱孤页修复	gbrain_link_orphans.py	每日 03:30
书籍缓存清理	book_cache_cleanup.sh	每周日 03:30
知识图谱压缩	gbrain_compact.py	每周日 03:30
渠道内容总管线	channel_publish.sh	每日 13 次

Skill 链路

knowledge-intake-collector
  → knowledge-carrier-extraction
    → knowledge-refinery-graph-ingest
      → 笔记成品 + gbrain 节点 + 云盘双向同步

knowledge-discovery（自动化）
  → OneDrive 扫描 → 本地匹配 → gbrain 自动录入

API 接口

knowledge_collector

函数	功能
`collect_web(url)`	采集网页内容并入库
`collect_video(url)`	采集视频内容（OCR+ASR）
`collect_article(source, keyword)`	采集文章内容
`generate_note(material, template)`	生成结构化笔记

notes_rag

函数	功能
`create_note(title, content, domain)`	创建笔记
`search_notes(query, domains)`	跨域检索（三层召回）
`sync_notes_to_cloud()`	同步笔记到云盘

cloud_sync

函数	功能
`list_cloud_drives()`	列出已配置云盘
`sync_to_cloud(local, remote)`	本地→云盘
`sync_from_cloud(remote, local)`	云盘→本地

knowledge_augmentation

函数	功能
`augmented_search(query, domain)`	本地优先 + AnySearch 回落
`augmented_search.list_domains()`	查询 AnySearch 全部垂直领域

更新日志

2026-06-16

知识采集管线 v2.0：工具从 30+ 扩展至 40+
SenseNova 文档引擎：PDF/PPT/Word 三件套智能分析
知识管理模块：自动发现 + 三层召回 + 双向云同步
视频采集扩展：douyin_batch_transcriber + media_transcriber_wrapper
10 cron 精简体系：34→10，凌晨维护母脚本统管所有维护任务
知识精炼自动触发：book_cache_manager 下载后自动走精炼管线

2026-06-07

知识增广模块：AnySearch 垂直搜索集成，本地笔记优先+全网回落
新增 src/knowledge_augmentation/ 目录

2026-06-06

方法论蒸馏管线：cron 每日自动从 Horizon trending 知识蒸馏
4 个外部工具集成：PaddleOCR / Trivy / Spec-Kit / Copilot-SDK

2026-06-05

知识精炼管线：book_cache_manager 缓存后自动分析提取结构化知识

2026-06-04

初始发布 — 知识采集、笔记 RAG、云盘同步全链路
30+ 采集分析工具全景
rclone 12+ 云盘驱动统一接口

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
docs		docs
scripts		scripts
src		src
.gitignore		.gitignore
AGENTS.md		AGENTS.md
README.md		README.md
README_EN.md		README_EN.md
install.sh		install.sh
plugin.yaml		plugin.yaml
requirements.txt		requirements.txt
uninstall.sh		uninstall.sh

Folders and files

Latest commit

History

Repository files navigation

Knowledge and Memory Management（知识和记忆体管理）

架构总览

模块组成

40+ 采集分析工具全集

🌐 网页采集（9 引擎）

🎬 视频采集（12 工具）

📄 文档/OCR（9 工具）—— 新增 SenseNova

📝 文章/内容（10 来源）

🔬 知识分析（7 工具）

🧠 知识管理（4 工具）—— 全新

📚 知识精炼（6 工具）

快速安装

使用指南

1. 快速采集

2. 文档智能分析

3. 书籍自动精炼

4. 知识检索

5. 知识发现（自动化）

6. 云盘双向同步

知识增广（Knowledge Augmentation）

云盘同步

采集编排

自动化调度（10 cron 体系）

Skill 链路

API 接口

knowledge_collector

notes_rag

cloud_sync

knowledge_augmentation

更新日志

2026-06-16

2026-06-07

2026-06-06

2026-06-05

2026-06-04

许可证

相关项目

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases 1

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages