Skip to content

Tool: Learning to Navigate: Transferring Web Interaction Capabilities from LLMs to SLMs #7

@rmarcacini

Description

@rmarcacini

Descrição Geral

Esta é a issue geral de um que projeto investiga como agentes de navegação web baseados em LLMs compactas (≤12B) podem aprender a reproduzir o comportamento de agentes professores (400–600B) utilizando In-Context Learning (ICL) e fine-tuning supervisionado.
A pesquisa será conduzida dentro do ecossistema Agents4Gov, garantindo modularidade, segurança e execução local.


Plano de Trabalho e Subtarefas (converter em subissues)

1. Revisão de Literatura e Estado da Arte

  • [SOTA] Revisão de agentes de navegação baseados em LLMs
    Objetivo: revisar literatura recente sobre browser/OS agents e agentes multimodais.
    Entregáveis:

    • Documento de revisão (tools/browseragent/docs/lit_review.md)
    • Tabela comparativa (tools/browseragent/docs/tables/sota_agents.md)
    • Código: tools/browseragent/scripts/lit_review/build_sota_table.py
  • [Benchmarks] Mapeamento MiniWoB++, WebArena e BrowserGym
    Objetivo: mapear benchmarks para avaliação de browser agents.
    Entregáveis:

    • Tabela comparativa (tools/browseragent/docs/tables/benchmarks.md)
    • Código: tools/browseragent/scripts/benchmarks/collect_bench_specs.py

2. Implementação do Agente Professor

  • [Professor] Integração browser-use ao Agents4Gov
    Objetivo: integrar browser-use ao framework Agents4Gov.
    Entregáveis:

    • Módulo integrado (tools/browseragent/agents4gov_integrations/browser_use/)
    • Código: tools/browseragent/agents4gov_integrations/browser_use/setup_browser_use.py
  • [Professor] Execução MiniWoB++ com LLM 400–600B
    Objetivo: executar tarefas do MiniWoB++ com modelo de grande porte e salvar logs.
    Entregáveis:

    • Logs JSON/Markdown (tools/browseragent/data/teacher_logs/)
    • Código: tools/browseragent/benchmarks/miniwob/run_professor_minwob.py
  • [Professor] Conversão de logs em dataset de demonstrações
    Objetivo: converter logs do professor em dataset para aprendizado.
    Entregáveis:

    • Dataset normalizado (tools/browseragent/data/teacher_dataset/*.jsonl)
    • Código: tools/browseragent/data_prep/teacher_logs/convert_logs_to_dataset.py

3. Avaliação Inicial com Modelos Compactos

  • [Baseline SLM] Execução MiniWoB++ sem ajuste (≤12B)
    Objetivo: executar as mesmas tarefas com modelos compactos sem ajuste.
    Entregáveis:

    • Relatório comparativo (tools/browseragent/reports/slm_baseline.md)
    • Código: tools/browseragent/benchmarks/miniwob/run_slm_zero_shot.py
  • [Baseline SLM] Análise de raciocínio e consistência
    Objetivo: comparar cadeias de raciocínio dos SLMs com as do professor.
    Entregáveis:

    • Relatório analítico (tools/browseragent/reports/rationale_gap.md)
    • Código: tools/browseragent/analysis/error_analysis/rationale_gap_report.py

4. Desenvolvimento do Agente Estudante

  • [Student] Pipeline de In-Context Learning (ICL)
    Objetivo: implementar pipeline de ICL com demonstrações do professor.
    Entregáveis:

    • Scripts de inferência (tools/browseragent/scripts/icl/)
    • Código: tools/browseragent/training/icl/run_icl_eval.py
  • [Student] Preparação do dataset para SFT
    Objetivo: preparar subconjunto de demonstrações para fine-tuning supervisionado.
    Entregáveis:

    • Dataset SFT (tools/browseragent/data/sft/)
    • Código: tools/browseragent/training/sft/prepare_sft_dataset.py
  • [Student] Treinamento SFT do SLM (≤12B)
    Objetivo: realizar fine-tuning supervisionado no SLM com o dataset preparado.
    Entregáveis:

    • Checkpoint final (tools/browseragent/checkpoints/slm_sft/)
    • Código: tools/browseragent/training/sft/run_sft.py
  • [Student] Integração do agente SFT ao Agents4Gov
    Objetivo: integrar o SLM ajustado como “Web Agent” oficial do Agents4Gov.
    Entregáveis:

    • Módulo integrado (tools/browseragent/agents/web_agent/)
    • Código: tools/browseragent/agents/web_agent/register_student_agent.py

5. Avaliação, Relatórios e Publicação

  • [Eval] Comparação Professor vs Student (desempenho e custo)
    Objetivo: avaliar desempenho e custo operacional do Student vs Professor.
    Entregáveis:

    • Gráficos e tabelas (tools/browseragent/reports/eval_prof_vs_student.md)
    • Código: tools/browseragent/eval/compare_professor_student.py
  • [Writing] Geração de tabelas e figuras para o artigo
    Objetivo: automatizar export de tabelas e figuras.
    Entregáveis:

    • Artefatos (tools/browseragent/paper/artifacts/)
    • Código: tools/browseragent/writing/paper/export_tables_figures.py
  • [Docs] README e diagramas dos módulos do agente
    Objetivo: documentar pipeline e arquitetura.
    Entregáveis:

    • README.md atualizado (tools/browseragent/README.md)
    • Diagramas (tools/browseragent/docs/diagrams/)
    • Código: tools/browseragent/docs/milestones/build_readme_and_diagrams.py

6. Infraestrutura e Privacidade

  • [Privacy] Validação de execução local e auditoria de dados
    Objetivo: garantir execução local e registrar auditoria de dados.
    Entregáveis:

    • Relatório de conformidade (tools/browseragent/docs/privacy_audit.md)
    • Código: tools/browseragent/privacy/audit/local_exec_validator.py

Critérios Gerais de Aceite

  1. Todos os scripts e entregáveis devem estar em tools/browseragent/.
  2. Cada tarefa deve incluir o código Python associado e documentação mínima de uso.
  3. Todos os resultados devem ser reproduzíveis e auditáveis em execução local.
  4. Artefatos (logs, datasets, checkpoints, figuras) devem estar versionados e rastreáveis.
  5. Ao final, o browseragent será um tool do agents4gov

Metadata

Metadata

Assignees

Labels

No labels
No labels

Type

No type
No fields configured for issues without a type.

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions