Tool: Learning to Navigate: Transferring Web Interaction Capabilities from LLMs to SLMs

## Descrição Geral

Esta é a issue geral de um que projeto investiga como agentes de navegação web baseados em **LLMs compactas (≤12B)** podem aprender a reproduzir o comportamento de agentes **professores (400–600B)** utilizando **In-Context Learning (ICL)** e **fine-tuning supervisionado**.
A pesquisa será conduzida dentro do ecossistema **Agents4Gov**, garantindo modularidade, segurança e execução local.

---

## Plano de Trabalho e Subtarefas (converter em subissues)

### 1. Revisão de Literatura e Estado da Arte

* [x] **[SOTA] Revisão de agentes de navegação baseados em LLMs**
  Objetivo: revisar literatura recente sobre browser/OS agents e agentes multimodais.
  Entregáveis:

  * Documento de revisão (`tools/browseragent/docs/lit_review.md`)
  * Tabela comparativa (`tools/browseragent/docs/tables/sota_agents.md`)
  * Código: `tools/browseragent/scripts/lit_review/build_sota_table.py`

* [x] **[Benchmarks] Mapeamento MiniWoB++, WebArena e BrowserGym**
  Objetivo: mapear benchmarks para avaliação de browser agents.
  Entregáveis:

  * Tabela comparativa (`tools/browseragent/docs/tables/benchmarks.md`)
  * Código: `tools/browseragent/scripts/benchmarks/collect_bench_specs.py`

---

### 2. Implementação do Agente Professor

* [ ] **[Professor] Integração browser-use ao Agents4Gov**
  Objetivo: integrar `browser-use` ao framework Agents4Gov.
  Entregáveis:

  * Módulo integrado (`tools/browseragent/agents4gov_integrations/browser_use/`)
  * Código: `tools/browseragent/agents4gov_integrations/browser_use/setup_browser_use.py`

* [ ] **[Professor] Execução MiniWoB++ com LLM 400–600B**
  Objetivo: executar tarefas do MiniWoB++ com modelo de grande porte e salvar logs.
  Entregáveis:

  * Logs JSON/Markdown (`tools/browseragent/data/teacher_logs/`)
  * Código: `tools/browseragent/benchmarks/miniwob/run_professor_minwob.py`

* [ ] **[Professor] Conversão de logs em dataset de demonstrações**
  Objetivo: converter logs do professor em dataset para aprendizado.
  Entregáveis:

  * Dataset normalizado (`tools/browseragent/data/teacher_dataset/*.jsonl`)
  * Código: `tools/browseragent/data_prep/teacher_logs/convert_logs_to_dataset.py`

---

### 3. Avaliação Inicial com Modelos Compactos

* [ ] **[Baseline SLM] Execução MiniWoB++ sem ajuste (≤12B)**
  Objetivo: executar as mesmas tarefas com modelos compactos sem ajuste.
  Entregáveis:

  * Relatório comparativo (`tools/browseragent/reports/slm_baseline.md`)
  * Código: `tools/browseragent/benchmarks/miniwob/run_slm_zero_shot.py`

* [ ] **[Baseline SLM] Análise de raciocínio e consistência**
  Objetivo: comparar cadeias de raciocínio dos SLMs com as do professor.
  Entregáveis:

  * Relatório analítico (`tools/browseragent/reports/rationale_gap.md`)
  * Código: `tools/browseragent/analysis/error_analysis/rationale_gap_report.py`

---

### 4. Desenvolvimento do Agente Estudante

* [ ] **[Student] Pipeline de In-Context Learning (ICL)**
  Objetivo: implementar pipeline de ICL com demonstrações do professor.
  Entregáveis:

  * Scripts de inferência (`tools/browseragent/scripts/icl/`)
  * Código: `tools/browseragent/training/icl/run_icl_eval.py`

* [ ] **[Student] Preparação do dataset para SFT**
  Objetivo: preparar subconjunto de demonstrações para fine-tuning supervisionado.
  Entregáveis:

  * Dataset SFT (`tools/browseragent/data/sft/`)
  * Código: `tools/browseragent/training/sft/prepare_sft_dataset.py`

* [ ] **[Student] Treinamento SFT do SLM (≤12B)**
  Objetivo: realizar fine-tuning supervisionado no SLM com o dataset preparado.
  Entregáveis:

  * Checkpoint final (`tools/browseragent/checkpoints/slm_sft/`)
  * Código: `tools/browseragent/training/sft/run_sft.py`

* [ ] **[Student] Integração do agente SFT ao Agents4Gov**
  Objetivo: integrar o SLM ajustado como “Web Agent” oficial do Agents4Gov.
  Entregáveis:

  * Módulo integrado (`tools/browseragent/agents/web_agent/`)
  * Código: `tools/browseragent/agents/web_agent/register_student_agent.py`

---

### 5. Avaliação, Relatórios e Publicação

* [ ] **[Eval] Comparação Professor vs Student (desempenho e custo)**
  Objetivo: avaliar desempenho e custo operacional do Student vs Professor.
  Entregáveis:

  * Gráficos e tabelas (`tools/browseragent/reports/eval_prof_vs_student.md`)
  * Código: `tools/browseragent/eval/compare_professor_student.py`

* [ ] **[Writing] Geração de tabelas e figuras para o artigo**
  Objetivo: automatizar export de tabelas e figuras.
  Entregáveis:

  * Artefatos (`tools/browseragent/paper/artifacts/`)
  * Código: `tools/browseragent/writing/paper/export_tables_figures.py`

* [ ] **[Docs] README e diagramas dos módulos do agente**
  Objetivo: documentar pipeline e arquitetura.
  Entregáveis:

  * README.md atualizado (`tools/browseragent/README.md`)
  * Diagramas (`tools/browseragent/docs/diagrams/`)
  * Código: `tools/browseragent/docs/milestones/build_readme_and_diagrams.py`

---

### 6. Infraestrutura e Privacidade

* [ ] **[Privacy] Validação de execução local e auditoria de dados**
  Objetivo: garantir execução local e registrar auditoria de dados.
  Entregáveis:

  * Relatório de conformidade (`tools/browseragent/docs/privacy_audit.md`)
  * Código: `tools/browseragent/privacy/audit/local_exec_validator.py`

---

## Critérios Gerais de Aceite

1. Todos os scripts e entregáveis devem estar em **`tools/browseragent/`**.
2. Cada tarefa deve incluir o código Python associado e documentação mínima de uso.
3. Todos os resultados devem ser reproduzíveis e auditáveis em execução local.
4. Artefatos (logs, datasets, checkpoints, figuras) devem estar versionados e rastreáveis.
5. Ao final, o browseragent será um tool do agents4gov

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Tool: Learning to Navigate: Transferring Web Interaction Capabilities from LLMs to SLMs #7

Descrição Geral

Plano de Trabalho e Subtarefas (converter em subissues)

1. Revisão de Literatura e Estado da Arte

2. Implementação do Agente Professor

3. Avaliação Inicial com Modelos Compactos

4. Desenvolvimento do Agente Estudante

5. Avaliação, Relatórios e Publicação

6. Infraestrutura e Privacidade

Critérios Gerais de Aceite

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Tool: Learning to Navigate: Transferring Web Interaction Capabilities from LLMs to SLMs #7

Description

Descrição Geral

Plano de Trabalho e Subtarefas (converter em subissues)

1. Revisão de Literatura e Estado da Arte

2. Implementação do Agente Professor

3. Avaliação Inicial com Modelos Compactos

4. Desenvolvimento do Agente Estudante

5. Avaliação, Relatórios e Publicação

6. Infraestrutura e Privacidade

Critérios Gerais de Aceite

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions