Skip to content

Claim-level Faithfulness-Gate (Fehlattribution + Detail-Extrapolation) #69

Description

@TillQuandel

Problem

Der Verifier prüft nur Anker-Zitat-Existenz auf Seitenebene — nicht, ob jedes Detail einer Paraphrase im Quelltext gedeckt ist. Dadurch entgehen zwei reale Fehlerklassen:

  1. Fehlattribution von Sekundärzitaten (Aussage dem falschen zitierten Autor zugeordnet).
  2. Extrapolation (plausibles Detail ergänzt, das nicht im Quelltext steht).

Beobachtet im Hrastinski-Lauf (2026-06-24): beide Fehler in einer Note, von der Pipeline-Eval als hall=0,000 durchgewunken, erst ein externer Qwen-Faktencheck fing sie.

Lösungsrichtung (cross-model-abgesegnet)

Nachgelagertes, seiteneffekt-freies Detektions-Gate mit Phrasen-Attribution (nicht bloße Claim-Dekomposition — die ist laut Forschung marginal; der Attribution-Schritt ist der Hebel). Voller Plan: internal/docs/faithfulness-gate-plan.md (PR #68).

Kern: Page-Index → High-Risk-Claim-Dekomposition → Attribution-Heuristik + mDeBERTa/XNLI-Entailment → any-high-risk-claim-Hard-Gate (nach finalem Critic + im Refine-Pfad).

Scope

M2 ("trustworthy output"). MVP zuerst nur High-Risk-Claims (Zuschreibungen, Zahlen, Vergleiche, Kausalwörter). Akzeptanz: beide Hrastinski-Fälle gefangen, FPR auf sauberen Notes < ~10 %.

Status

Geplant, nicht umgesetzt. Cross-Model-Review (Codex + Mistral) abgeschlossen — "tragfähig, kein Pivot".

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions