Skip to content

G1: Few-Shot-Demos im Planner gegen Coverage-Bias (nach G5) #28

Description

@TillQuandel

Befund (Gap G1 — Coverage / Planner-Bias)

Coverage liegt bei ~35 % (Ziel >80 %), u.a. weil der Planner zu "sicheren" Hauptkonzepten neigt und Nuancen/Nebenkonzepte übersieht.

Code-Stand (verifiziert, inkl. Codex-Korrektur 2026-06-04):

  • Extractor generative/agents/extractor.py:35-37,72-79 hat lokale Format-/Stilbeispiele, aber kein echtes Input→Output-Few-Shot. Few-Shot wäre auch hier denkbar — der Planner ist nur der primäre Coverage-Hebel, nicht der einzig mögliche.
  • Planner generative/agents/planner.py:55,70,83-105 hat Inline-Beispiele + Output-Schema-Blöcke, aber keine echten Input→Output-Few-Shot-Demos.

Vorschlag

3-5 <example>-Demonstrationen in den Planner-Prompt, die gezielt Nebenkonzepte/Nuancen als action: create zeigen (nicht nur prominente Hauptkonzepte). Bewusst diversifizieren, damit das Modell nicht die Oberflächen-Eigenschaft "nur Prominentes" lernt. Demos zielkontext-eigen handbauen (nicht aus Benchmarks).

WICHTIG — Reihenfolge-Abhängigkeit (nicht zuerst bauen)

  1. Blindflug ohne G5: Few-Shot hebt nur den Generator-Recall, misst ihn nicht. Ohne Goldstandard-Coverage-Messung (G5) ist nicht verifizierbar, ob Coverage steigt. → erst G5, dann Few-Shot als sauberes A/B.
  2. Begründung extrapoliert: Min et al. (2022) ist ein Classification-ICL-Befund; der Planner enumeriert. Wirkung ist Hypothese, nicht belegt.

Quelle

Cross-Model-Review 2026-06-04. Workflow + Mistral stuften den Hebel bewusst herunter (Reihenfolge-Abhängigkeit). Note [[Few-Shot-Prompting]].

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions