Knowledge and Memory Management(知识和记忆体管理)
超越「记住」——知识采集 → 笔记生成 → 语义检索 → 云盘同步 全链路插件扩展。
📦 定位 :hermes-memory-installer 的能力扩展层。
底座解决「记住」,KMM 解决「知识从哪来、如何用」。
English | 采集管线
采集层(40+ 工具) → 分析层(AI 处理) → 存储层(三层记忆)
│ │ │
├─ 网页引擎(9) ├─ 笔记自动生成 ├─ Hot(Memory tool)
├─ 视频引擎(12) ├─ 知识图谱提取 ├─ Warm(Hindsight, 10K节点)
├─ 文章/内容(10) ├─ NLI 事实核查 └─ Cold(gbrain, 11K页)
├─ 文档/OCR(9) ├─ 知识发现与召回
├─ 知识检索/分析(7) └─ 书籍自动精炼
└─ 知识管理(4)
┌─ OneDrive / Google Drive
├─ 阿里云盘 / 百度网盘
云盘同步层(rclone, 12+ 驱动)──┼─ Dropbox / Mega / pCloud
├─ WebDAV / S3 / 天翼云
└─ 更多 rclone 支持的所有驱动
模块
目录
功能
知识采集器
src/knowledge_collector/
9 个子模块覆盖网页/视频/文章/文档/分析/笔记生成/知识精炼/知识管理
笔记 RAG
src/notes_rag/
语义搜索、向量检索、三层上下文召回
云盘同步
src/cloud_sync/
rclone 统一驱动,12+ 云盘双向同步
SenseNova 引擎
src/sensenova/
PDF/PPT/Word 三件套文档智能分析
知识增广
src/knowledge_augmentation/
本地笔记优先 + AnySearch 全网回落
采集管线
docs/collection-pipeline.md
40+ 工具 详细说明和链路图
工具版本
docs/tool-versions.md
已验证工具链版本表
快速开始
docs/quick-start.md
安装和第一个采集
工具
类型
能力
适用场景
Scrapling
MCP
⭐⭐⭐⭐⭐
反检测采集,Cloudflare 绕过,stealthy/dynamic/http 三模式
Chrome DevTools
MCP
⭐⭐⭐⭐⭐
浏览器自动化,JS 执行,网络分析,性能追踪
GStack Browser
内置
⭐⭐⭐⭐⭐
Hermes 内置浏览器 + 视觉分析
knowledge_fetch_router
脚本
⭐⭐⭐⭐
智能路由(trafilatura→readability→Crawl4AI)
knowledge_site_crawler
脚本
⭐⭐⭐⭐
Crawlee 同域名批量爬取
obscura_fetch_bridge
桥接
⭐⭐⭐
动态网页 Markdown 提取
opensquilla_bridge
桥接
⭐⭐⭐
轻量侧车采集
web_extract
内置
⭐⭐
纯 HTTP 内容提取
ripgrep_kb_scan
脚本
⭐⭐
知识库预筛去重
工具
类型
能力
适用场景
douyin_video_intake
脚本
⭐⭐⭐⭐⭐
抖音元数据+字幕+ASR
douyin_batch_transcriber
脚本
⭐⭐⭐⭐⭐
抖音批量多视频并发转录
social_video_intake
脚本
⭐⭐⭐⭐⭐
通用社交视频统一入口
universal-video-analyzer
Skill
⭐⭐⭐⭐⭐
多语言OCR/人脸/质量/BGM/情感
media_transcriber_wrapper
脚本
⭐⭐⭐⭐
通用媒体转录包装器
yt-dlp
CLI
⭐⭐⭐⭐
1000+网站视频下载
Whisper ASR
引擎
⭐⭐⭐⭐
99+语言语音转文字
EasyOCR
引擎
⭐⭐⭐
视频关键帧文字提取
PaddleOCR
引擎
⭐⭐⭐⭐
70k⭐ 高精度 OCR
FFmpeg
CLI
⭐⭐⭐
视频切分/转码/音频提取
Tesseract OCR
CLI
⭐⭐⭐
开源 OCR(中文支持)
YouTube Analytics
Skill
⭐⭐⭐⭐
频道/视频数据分析
📄 文档/OCR(9 工具)—— 新增 SenseNova
工具
能力
说明
SenseNova PDF 分析
⭐⭐⭐⭐⭐
文字型+扫描型 PDF,表格/图表/多页全量提取
SenseNova PPT 分析
⭐⭐⭐⭐⭐
全 Slide 文本/表格/图表/嵌入图片提取
SenseNova Word 分析
⭐⭐⭐⭐⭐
正文/表格/高亮/格式/多文档对比
umi_ocr_bridge
⭐⭐⭐⭐
中文 OCR 增强桥接
doc_parse_router
⭐⭐⭐⭐
多格式路由(PDF/HTML/MD/Office)
Magic-PDF
⭐⭐⭐⭐
PDF → Markdown 转换
MinerU
⭐⭐⭐⭐
文档内容智能提取
PaddleOCR
⭐⭐⭐⭐
70k⭐ 百度开源高精度 OCR
book_cache_manager
⭐⭐⭐⭐
710+书索引+按需缓存+自动精炼
微信公众号 / 微博 / 新闻聚合 / 科技新闻 / AI 中文日报 / RSS/博客 / GitHub 热门 / 通用网络文档 / 多格式文档解析
web_search / web_extract / NLI 事实核查 / 评论摘要 / 新闻丰富 / 关键词提取 / 交叉验证
工具
能力
说明
knowledge_discovery
⭐⭐⭐⭐⭐
每周日自动扫描 OneDrive→本地→gbrain 录入
lightweight_recall
⭐⭐⭐⭐⭐
三层跨层召回(FTS5 + Hindsight语义 + gbrain关键词)
onedrive_bidirectional_sync
⭐⭐⭐⭐⭐
OneDrive 双向增量同步(每4小时)
nightly_maintenance
⭐⭐⭐⭐⭐
凌晨维护母脚本(含知识发现+孤页链接+compact)
工具
能力
说明
book_to_skill 管线
⭐⭐⭐⭐⭐
PDF/EPUB → 结构化 Skill + KMM 笔记
pdfplumber 引擎
⭐⭐⭐⭐
表格保留提取(技术书首选)
pdftotext 引擎
⭐⭐⭐⭐
快速文本提取
双引擎降级链
⭐⭐⭐⭐
pdfplumber→pdftotext→pdfminer 自动降级
章节自动分割
⭐⭐⭐⭐
三层分割策略
自动触发管线
⭐⭐⭐⭐⭐
book_cache_manager 下载后自动精炼
# 要求:已安装 hermes-memory-installer(gbrain + Hindsight)
source ~ /.hermes/hermes-agent/.venv/bin/activate
# 克隆仓库
git clone https://github.com/mage0535/Knowledge-and-Memory-Management.git
cd Knowledge-and-Memory-Management
# 运行安装程序
bash install.sh
安装程序自动完成:
检测 Hermes 环境(venv、gbrain 端口 8787、Hindsight 端口 8890)
安装/升级 Python 依赖(yt-dlp、scrapling、paddleocr 等)
检测系统工具(ffmpeg、tesseract、rclone)
配置云盘双向同步规则
注册定时知识采集 cron 任务
配置知识发现自动管线
# 采集网页,自动提取重点并生成笔记
python3 -c "
from knowledge_collector import collect_web
result = collect_web('https://example.com/article')
print(f'笔记已生成: {result.note_path}')
print(f'gbrain 页面: {result.gbrain_slug}')
"
# 采集视频(自动字幕+OCR+ASR)
python3 -c "
from knowledge_collector import collect_video
result = collect_video('https://www.youtube.com/watch?v=xxx')
print(f'字幕已提取: {len(result.subtitles)} 条')
print(f'关键帧截图: {result.frames}')
"
# 采集微信公众号文章
python3 $AGENT_HOME /scripts/network_doc_intake.py " https://mp.weixin.qq.com/s/xxx"
# SenseNova PDF 分析 — 文字型/扫描型都支持
python3 $AGENT_HOME /scripts/sensenova_dispatcher.py pdf report.pdf
# SenseNova PPT 分析 — 全Slide提取
python3 $AGENT_HOME /scripts/sensenova_dispatcher.py ppt presentation.pptx
# SenseNova Word 分析 — 正文+表格+格式
python3 $AGENT_HOME /scripts/sensenova_dispatcher.py word document.docx
# 方式一:手动触发
python3 $AGENT_HOME /scripts/book_to_skill.py all book.pdf --name machine-learning
# 方式二:通过缓存管理器(自动触发精炼)
python3 $AGENT_HOME /scripts/book_cache_manager.py cache book.pdf
# → 自动触发 book_to_skill.py all → Skill + KMM 笔记
# 三层召回(FTS5 + Hindsight + gbrain)
python3 $AGENT_HOME /scripts/lightweight_recall.py --query " Agent 记忆系统设计" --limit 10
# gbrain 语义搜索
gbrain search " 知识图谱构建" --limit 5
# 笔记全文搜索
python3 $AGENT_HOME /scripts/ripgrep_kb_scan.py " 深度学习"
每周日凌晨自动执行,也可手动触发:
# 扫描本地笔记 → 自动录入 gbrain
python3 $AGENT_HOME /scripts/knowledge_discovery.py
# 自动(每4小时 cron)
# 手动:
bash $AGENT_HOME /scripts/onedrive_bidirectional_sync.sh
知识增广(Knowledge Augmentation)
当本地笔记不够用,自动走 AnySearch 垂直搜索补全。
用户搜索 → search_notes("比亚迪 2026Q1 财报")
│
├─ 本地命中 (score ≥ 0.6) → 直接返回笔记结果
│
└─ 本地不足 (score < 0.6) → AnySearch 垂直搜索
├─ domain=finance (财务数据)
├─ domain=academic (论文)
└─ 结果自动标注来源 web,可导入笔记库
# 安装后即可使用
export ANYSEARCH_API_KEY=" as_sk_xxxx"
python -c "
from knowledge_augmentation import AugmentedSearch
s = AugmentedSearch()
r = s.search('中国 2026 年 GDP 预测', domain='finance')
print(r['source'], '-', len(r['results']), '条结果')
"
支持 12+ 云盘驱动,全部通过 rclone 统一接口:
云盘
认证方式
同步模式
OneDrive
OAuth
双向增量(每4h)
Google Drive
OAuth
单向 + 按需
阿里云盘
Token
单向备份
百度网盘
OAuth
单向备份
Dropbox / Mega / pCloud / 天翼云 / 123云盘 / S3 / WebDAV
按 rclone 标准
可配置
采集不是孤立的——它与记忆体、知识图谱、笔记、云盘形成闭环:
采集 → 处理 → 笔记 → gbrain 知识图谱 → 云盘双向同步
│ │
└──────────── 下次采集先去重 ────────────────┘
调度
模块
频率
凌晨维护(含知识发现)
nightly_maintenance.py
每日 03:30
OneDrive 双向同步
onedrive_bidirectional_sync.sh
每 4 小时
知识图谱孤页修复
gbrain_link_orphans.py
每日 03:30
书籍缓存清理
book_cache_cleanup.sh
每周日 03:30
知识图谱压缩
gbrain_compact.py
每周日 03:30
渠道内容总管线
channel_publish.sh
每日 13 次
knowledge-intake-collector
→ knowledge-carrier-extraction
→ knowledge-refinery-graph-ingest
→ 笔记成品 + gbrain 节点 + 云盘双向同步
knowledge-discovery(自动化)
→ OneDrive 扫描 → 本地匹配 → gbrain 自动录入
函数
功能
collect_web(url)
采集网页内容并入库
collect_video(url)
采集视频内容(OCR+ASR)
collect_article(source, keyword)
采集文章内容
generate_note(material, template)
生成结构化笔记
函数
功能
create_note(title, content, domain)
创建笔记
search_notes(query, domains)
跨域检索(三层召回)
sync_notes_to_cloud()
同步笔记到云盘
函数
功能
list_cloud_drives()
列出已配置云盘
sync_to_cloud(local, remote)
本地→云盘
sync_from_cloud(remote, local)
云盘→本地
函数
功能
augmented_search(query, domain)
本地优先 + AnySearch 回落
augmented_search.list_domains()
查询 AnySearch 全部垂直领域
知识采集管线 v2.0 :工具从 30+ 扩展至 40+
SenseNova 文档引擎 :PDF/PPT/Word 三件套智能分析
知识管理模块 :自动发现 + 三层召回 + 双向云同步
视频采集扩展 :douyin_batch_transcriber + media_transcriber_wrapper
10 cron 精简体系 :34→10,凌晨维护母脚本统管所有维护任务
知识精炼自动触发 :book_cache_manager 下载后自动走精炼管线
知识增广模块 :AnySearch 垂直搜索集成,本地笔记优先+全网回落
新增 src/knowledge_augmentation/ 目录
方法论蒸馏管线 :cron 每日自动从 Horizon trending 知识蒸馏
4 个外部工具集成 :PaddleOCR / Trivy / Spec-Kit / Copilot-SDK
知识精炼管线 :book_cache_manager 缓存后自动分析提取结构化知识
初始发布 — 知识采集、笔记 RAG、云盘同步全链路
30+ 采集分析工具全景
rclone 12+ 云盘驱动统一接口
MIT License © 2026