From 89b1307a74843633d0510d035297ebf861f2a2c6 Mon Sep 17 00:00:00 2001
From: Penghao Jiang <123258594+PenghaoJiang@users.noreply.github.com>
Date: Mon, 29 Sep 2025 17:22:44 +1000
Subject: [PATCH 1/2] Create introduction_of_multi-agents_system.md

Introduction of multi-agents
---
 .../introduction_of_multi-agents_system.md    | 107 ++++++++++++++++++
 1 file changed, 107 insertions(+)
 create mode 100644 app/docs/ai/Introduction-of-Multi-agents-system/introduction_of_multi-agents_system.md

diff --git a/app/docs/ai/Introduction-of-Multi-agents-system/introduction_of_multi-agents_system.md b/app/docs/ai/Introduction-of-Multi-agents-system/introduction_of_multi-agents_system.md
new file mode 100644
index 0000000..7fb5423
--- /dev/null
+++ b/app/docs/ai/Introduction-of-Multi-agents-system/introduction_of_multi-agents_system.md
@@ -0,0 +1,107 @@
+---
+title: 'Introduction of Multi-agents system(In any task you want)'
+description: ""
+date: "2025-09-29"
+tags:
+  - tag-one
+---
+
+# Introduction of Multi-agents system(In any task you want)
+
+1. 什么是 Multi-Agent System（多智能体系统）？
+
+多智能体系统（MAS）指由多个相对自治的“智能体（agent）”组成、在共享环境中交互、协作或竞争以达成个体或群体目标的计算系统。它关注的不是单个智能体的最优行为，而是群体层面的组织、协调与涌现行为。你可以理解为你使用LLM去模拟一个团队或者是一个真实存在的部门进行合作和任务的完成。
+
+2.可能应用的问题或者任务是什么？
+
+  （1）很多现实问题（电网调度、智慧交通、供应链、灾害应对）天然是分布式、动态且不确定，单体系统难以全局最优与鲁棒的任务都可以用多智能体进行合作。
+  （2）research topic：Generation，translation，repair，judge...
+
+
+3. 那么，多智能体的核心概念是什么？
+
+  （1）智能体（Agent）：在环境中感知（Perception）、决策（Deliberation/Policy）、行动（Action）的计算实体。典型特性： 自治性、反应性、前瞻性（主动性）、社会性（可交互）。
+      环境（Environment）：智能体感知与行动的客体，可为完全/部分可观测、确定/随机、静态/动态、连续/离散。
+      交互（Interaction）：通信、协商、竞争、合作、博弈等。
+      组织（Organization）：角色、层级、规范、协议与团队结构的总和。
+      目标（Goals/Utility）：个体目标与全局社会福利可能一致或冲突，牵涉到机制设计。最终的目的应当是针对当前的任务的完成。
+
+4. 系统构成与典型架构
+   
+1) 智能体内部架构
+
+反射式/行为式（Reactive）：如 subsumption（抑制/分层行为），快但缺少计划。
+
+计划-信念-愿望（BDI）：以 Belief/Desire/Intention 建模理性决策，适合需要可解释规划的场景。
+
+学习型：基于 RL/监督/自监督学习；在 MARL 中共享/独立训练策略。
+
+LLM-Agent：以大语言模型为核心，结合工具调用、记忆、检索、反思与执行器，擅长复杂推理与开放环境任务。
+
+2) 多智能体体系结构
+
+集中式编排（Orchestrator）：中央调度（Planner/Router）分配任务，优点是全局视角强，缺点是单点瓶颈。
+
+分布式协同（Peer-to-Peer）：各智能体平等交互，弹性高但协议复杂。
+
+分层/混合式（Hierarchical/Hybrid）：上层规划、下层执行，兼顾全局与局部效率。
+
+黑板（Blackboard）/共享记忆：通过公共工作区交换假设与部分解。
+
+3）通信与协调机制
+
+通信语言与协议：早期有 KQML、FIPA-ACL；工程上常用基于消息队列（MQ/HTTP/gRPC）的结构化消息（JSON/Proto）。
+
+4）协调方式：
+
+契约网（Contract Net）与拍卖/竞价：适合任务分派与资源竞争。
+
+协商/投票/共识：如分布式一致性（Paxos/Raft）或多方投票策略。
+
+编队/编组与角色切换：队形控制、动态角色分配。
+
+机制设计：通过激励兼容的规则让个体理性行为产生期望的群体结果。
+
+组织结构：层级（Hierarchy）、合弄（Holarchy）、团队/联盟（Team/Coalition）、基于角色与规范（Roles & Norms）的社会化组织。
+
+5）多智能体强化学习（MARL）要点
+
+非平稳性：他人策略变化导致环境对单体“非静态”，训练更难。
+
+训练-执行范式：集中式训练、分布式执行（CTDE）**较常见。
+
+6）方法族：
+
+值分解：VDN、QMIX 把全局价值分解为个体价值。
+
+Actor-Critic：如 MADDPG（集中式 Critic、分布式 Actor）。
+
+对手建模/博弈学习：纳什均衡、可转移策略、元学习。
+
+关键挑战：信用分配、可扩展性、部分可观测、探索-利用平衡、通信带宽与延迟。
+
+7）LLM 驱动的多智能体范式（main focus on this)
+
+角色分工：Planner（计划）、Researcher（检索/分析）、Coder/Executor（工具执行）、Critic/Verifier（审查校验）、Refiner（修复）。
+
+  协作模式：
+  
+  辩论/对话式求解（Debate/Deliberation）：通过互评提升推理稳健性。
+  
+  反思与记忆（Reflection/Memory）：总结经验、长期记忆库、外部知识检索。
+  
+  图式编排（Graph-of-Agents）：用有向图把任务流程显式化（如 DAG/状态机）。
+  
+  工程要点：提示（prompt）模板化、工具/数据库/代码执行器接入、消息路由、缓存、成本与延迟控制、安全防护（越权/数据泄露/注入）。
+
+
+5.经典论文推荐：
+
+(1)AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation
+(2)CAMEL: Communicative Agents for “Mind” Exploration of LLM Society
+(3)Improving Factuality and Reasoning in Language Models through Multi-Agent Debate
+(4)Should We Be Going MAD? A Look at Multi-Agent Debate
+(5)Reflexion: Language Agents with Verbal Reinforcement Learning
+(6)Self-Refine: Iterative Refinement with Self-Feedback
+(7)Language Agents as Optimizable Graphs (GPTSwarm)
+(8)Graph of Thoughts: Solving Elaborate Problems with LLMs

From 0a63b34325beda2bb8b3181a10c93385949c3fa4 Mon Sep 17 00:00:00 2001
From: Penghao Jiang <123258594+PenghaoJiang@users.noreply.github.com>
Date: Mon, 29 Sep 2025 20:32:11 +1000
Subject: [PATCH 2/2] Update introduction_of_multi-agents_system.md

change format
---
 .../introduction_of_multi-agents_system.md    | 146 +++++++++++-------
 1 file changed, 94 insertions(+), 52 deletions(-)

diff --git a/app/docs/ai/Introduction-of-Multi-agents-system/introduction_of_multi-agents_system.md b/app/docs/ai/Introduction-of-Multi-agents-system/introduction_of_multi-agents_system.md
index 7fb5423..d9255fd 100644
--- a/app/docs/ai/Introduction-of-Multi-agents-system/introduction_of_multi-agents_system.md
+++ b/app/docs/ai/Introduction-of-Multi-agents-system/introduction_of_multi-agents_system.md
@@ -8,71 +8,88 @@ tags:
 
 # Introduction of Multi-agents system(In any task you want)
 
-1. 什么是 Multi-Agent System（多智能体系统）？
+Multi-Agent System（多智能体系统）概览
+1. 什么是 Multi-Agent System（多智能体系统, MAS）？
 
-多智能体系统（MAS）指由多个相对自治的“智能体（agent）”组成、在共享环境中交互、协作或竞争以达成个体或群体目标的计算系统。它关注的不是单个智能体的最优行为，而是群体层面的组织、协调与涌现行为。你可以理解为你使用LLM去模拟一个团队或者是一个真实存在的部门进行合作和任务的完成。
+多智能体系统（MAS）指由多个相对自治的 智能体（agent） 组成、在共享环境中交互、协作或竞争以达成个体或群体目标的计算系统。
+它关注的并非单个智能体的最优行为，而是 群体层面的组织、协调与涌现行为。
+直观理解：可把 LLM 作为多个“角色”来 模拟团队/部门协作，共同完成任务。
 
-2.可能应用的问题或者任务是什么？
+2. 典型应用与问题类型
 
-  （1）很多现实问题（电网调度、智慧交通、供应链、灾害应对）天然是分布式、动态且不确定，单体系统难以全局最优与鲁棒的任务都可以用多智能体进行合作。
-  （2）research topic：Generation，translation，repair，judge...
+现实分布式问题：电网调度、智慧交通、供应链、灾害应对等——天然具备分布式、动态与不确定特性，单体系统难以兼顾全局最优与鲁棒性。
 
+研究方向示例：generation、translation、repair、judge 等。
 
-3. 那么，多智能体的核心概念是什么？
+3. 多智能体的核心概念
+3.1 智能体（Agent）
 
-  （1）智能体（Agent）：在环境中感知（Perception）、决策（Deliberation/Policy）、行动（Action）的计算实体。典型特性： 自治性、反应性、前瞻性（主动性）、社会性（可交互）。
-      环境（Environment）：智能体感知与行动的客体，可为完全/部分可观测、确定/随机、静态/动态、连续/离散。
-      交互（Interaction）：通信、协商、竞争、合作、博弈等。
-      组织（Organization）：角色、层级、规范、协议与团队结构的总和。
-      目标（Goals/Utility）：个体目标与全局社会福利可能一致或冲突，牵涉到机制设计。最终的目的应当是针对当前的任务的完成。
+在环境中 感知（Perception）—决策（Deliberation/Policy）—行动（Action） 的计算实体。
+
+典型特性：自治性、反应性、前瞻性（主动性）、社会性（可交互）。
+
+3.2 环境（Environment）
+
+智能体感知与行动的客体；可为 完全/部分可观测、确定/随机、静态/动态、连续/离散。
+
+3.3 交互（Interaction）
+
+形式包括 通信、协商、竞争、合作、博弈 等。
+
+3.4 组织（Organization）
+
+角色、层级、规范、协议与团队结构 的总和。
+
+3.5 目标（Goals/Utility）
+
+个体目标与全局社会福利可能 一致或冲突，涉及 机制设计。最终目的应指向 任务完成与效用最优。
 
 4. 系统构成与典型架构
-   
-1) 智能体内部架构
+4.1 智能体内部架构
 
-反射式/行为式（Reactive）：如 subsumption（抑制/分层行为），快但缺少计划。
+反射式/行为式（Reactive）：如 subsumption（抑制/分层行为），响应快但规划能力弱。
 
-计划-信念-愿望（BDI）：以 Belief/Desire/Intention 建模理性决策，适合需要可解释规划的场景。
+BDI（Belief–Desire–Intention）：以信念/愿望/意图建模理性决策，适合可解释规划场景。
 
-学习型：基于 RL/监督/自监督学习；在 MARL 中共享/独立训练策略。
+学习型：基于 RL/监督/自监督；在 MARL 中可共享或独立训练策略。
 
-LLM-Agent：以大语言模型为核心，结合工具调用、记忆、检索、反思与执行器，擅长复杂推理与开放环境任务。
+LLM-Agent：以 大语言模型 为核心，结合 工具调用、记忆、检索、反思与执行器，擅长复杂推理与开放环境任务。
 
-2) 多智能体体系结构
+4.2 多智能体体系结构
 
-集中式编排（Orchestrator）：中央调度（Planner/Router）分配任务，优点是全局视角强，缺点是单点瓶颈。
+集中式编排（Orchestrator）：中央调度（如 Planner/Router）分配任务；全局视角强，但有 单点瓶颈。
 
-分布式协同（Peer-to-Peer）：各智能体平等交互，弹性高但协议复杂。
+分布式协同（Peer-to-Peer）：各智能体平等交互；弹性高但 协议复杂。
 
-分层/混合式（Hierarchical/Hybrid）：上层规划、下层执行，兼顾全局与局部效率。
+分层/混合式（Hierarchical/Hybrid）：上层规划、下层执行；兼顾全局与局部效率。
 
 黑板（Blackboard）/共享记忆：通过公共工作区交换假设与部分解。
 
-3）通信与协调机制
+4.3 通信与协调机制
 
-通信语言与协议：早期有 KQML、FIPA-ACL；工程上常用基于消息队列（MQ/HTTP/gRPC）的结构化消息（JSON/Proto）。
+通信语言/协议：早期如 KQML、FIPA-ACL；工程上常用 MQ/HTTP/gRPC 与结构化消息（JSON/Proto）。
 
-4）协调方式：
+4.4 协调方式
 
 契约网（Contract Net）与拍卖/竞价：适合任务分派与资源竞争。
 
-协商/投票/共识：如分布式一致性（Paxos/Raft）或多方投票策略。
+协商/投票/共识：如 Paxos/Raft 或多方投票策略。
 
 编队/编组与角色切换：队形控制、动态角色分配。
 
-机制设计：通过激励兼容的规则让个体理性行为产生期望的群体结果。
+机制设计：通过激励相容规则引导个体理性行为产生期望群体结果。
 
-组织结构：层级（Hierarchy）、合弄（Holarchy）、团队/联盟（Team/Coalition）、基于角色与规范（Roles & Norms）的社会化组织。
+组织结构：层级（Hierarchy）、合弄（Holarchy）、团队/联盟（Team/Coalition）、基于角色与规范（Roles & Norms） 的社会化组织。
 
-5）多智能体强化学习（MARL）要点
+4.5 多智能体强化学习（MARL）要点
 
-非平稳性：他人策略变化导致环境对单体“非静态”，训练更难。
+非平稳性：他人策略变化使环境对单体呈现非静态，训练更难。
 
-训练-执行范式：集中式训练、分布式执行（CTDE）**较常见。
+训练-执行范式：集中式训练、分布式执行（CTDE） 常见。
 
-6）方法族：
+4.6 方法族（举例）
 
-值分解：VDN、QMIX 把全局价值分解为个体价值。
+值分解：VDN、QMIX 将全局价值分解为个体价值。
 
 Actor-Critic：如 MADDPG（集中式 Critic、分布式 Actor）。
 
@@ -80,28 +97,53 @@ Actor-Critic：如 MADDPG（集中式 Critic、分布式 Actor）。
 
 关键挑战：信用分配、可扩展性、部分可观测、探索-利用平衡、通信带宽与延迟。
 
-7）LLM 驱动的多智能体范式（main focus on this)
+5. LLM 驱动的多智能体范式（Main Focus）
+5.1 角色分工
+
+Planner（计划）
+
+Researcher（检索/分析）
+
+Coder/Executor（工具执行）
+
+Critic/Verifier（审查校验）
+
+Refiner（修复）
+
+5.2 协作模式
+
+辩论/对话式求解（Debate/Deliberation）：互评提升推理稳健性。
+
+反思与记忆（Reflection/Memory）：总结经验、长期记忆库、外部知识检索。
+
+图式编排（Graph-of-Agents）：以 DAG/状态机 显式表达任务流程。
+
+5.3 工程要点
+
+Prompt 模板化
+
+工具/数据库/代码执行器接入
+
+消息路由与缓存
+
+成本与延迟控制
+
+安全防护（越权/数据泄露/注入）
+
+6. 经典论文/工作推荐 
+
+AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation
+
+CAMEL: Communicative Agents for “Mind” Exploration of LLM Society
+
+Improving Factuality and Reasoning in Language Models through Multi-Agent Debate
 
-角色分工：Planner（计划）、Researcher（检索/分析）、Coder/Executor（工具执行）、Critic/Verifier（审查校验）、Refiner（修复）。
+Should We Be Going MAD? A Look at Multi-Agent Debate
 
-  协作模式：
-  
-  辩论/对话式求解（Debate/Deliberation）：通过互评提升推理稳健性。
-  
-  反思与记忆（Reflection/Memory）：总结经验、长期记忆库、外部知识检索。
-  
-  图式编排（Graph-of-Agents）：用有向图把任务流程显式化（如 DAG/状态机）。
-  
-  工程要点：提示（prompt）模板化、工具/数据库/代码执行器接入、消息路由、缓存、成本与延迟控制、安全防护（越权/数据泄露/注入）。
+Reflexion: Language Agents with Verbal Reinforcement Learning
 
+Self-Refine: Iterative Refinement with Self-Feedback
 
-5.经典论文推荐：
+Language Agents as Optimizable Graphs (GPTSwarm)
 
-(1)AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation
-(2)CAMEL: Communicative Agents for “Mind” Exploration of LLM Society
-(3)Improving Factuality and Reasoning in Language Models through Multi-Agent Debate
-(4)Should We Be Going MAD? A Look at Multi-Agent Debate
-(5)Reflexion: Language Agents with Verbal Reinforcement Learning
-(6)Self-Refine: Iterative Refinement with Self-Feedback
-(7)Language Agents as Optimizable Graphs (GPTSwarm)
-(8)Graph of Thoughts: Solving Elaborate Problems with LLMs
+Graph of Thoughts: Solving Elaborate Problems with LLMs