Problem
Der Verifier prüft nur Anker-Zitat-Existenz auf Seitenebene — nicht, ob jedes Detail einer Paraphrase im Quelltext gedeckt ist. Dadurch entgehen zwei reale Fehlerklassen:
- Fehlattribution von Sekundärzitaten (Aussage dem falschen zitierten Autor zugeordnet).
- Extrapolation (plausibles Detail ergänzt, das nicht im Quelltext steht).
Beobachtet im Hrastinski-Lauf (2026-06-24): beide Fehler in einer Note, von der Pipeline-Eval als hall=0,000 durchgewunken, erst ein externer Qwen-Faktencheck fing sie.
Lösungsrichtung (cross-model-abgesegnet)
Nachgelagertes, seiteneffekt-freies Detektions-Gate mit Phrasen-Attribution (nicht bloße Claim-Dekomposition — die ist laut Forschung marginal; der Attribution-Schritt ist der Hebel). Voller Plan: internal/docs/faithfulness-gate-plan.md (PR #68).
Kern: Page-Index → High-Risk-Claim-Dekomposition → Attribution-Heuristik + mDeBERTa/XNLI-Entailment → any-high-risk-claim-Hard-Gate (nach finalem Critic + im Refine-Pfad).
Scope
M2 ("trustworthy output"). MVP zuerst nur High-Risk-Claims (Zuschreibungen, Zahlen, Vergleiche, Kausalwörter). Akzeptanz: beide Hrastinski-Fälle gefangen, FPR auf sauberen Notes < ~10 %.
Status
Geplant, nicht umgesetzt. Cross-Model-Review (Codex + Mistral) abgeschlossen — "tragfähig, kein Pivot".
Problem
Der Verifier prüft nur Anker-Zitat-Existenz auf Seitenebene — nicht, ob jedes Detail einer Paraphrase im Quelltext gedeckt ist. Dadurch entgehen zwei reale Fehlerklassen:
Beobachtet im Hrastinski-Lauf (2026-06-24): beide Fehler in einer Note, von der Pipeline-Eval als hall=0,000 durchgewunken, erst ein externer Qwen-Faktencheck fing sie.
Lösungsrichtung (cross-model-abgesegnet)
Nachgelagertes, seiteneffekt-freies Detektions-Gate mit Phrasen-Attribution (nicht bloße Claim-Dekomposition — die ist laut Forschung marginal; der Attribution-Schritt ist der Hebel). Voller Plan:
internal/docs/faithfulness-gate-plan.md(PR #68).Kern: Page-Index → High-Risk-Claim-Dekomposition → Attribution-Heuristik + mDeBERTa/XNLI-Entailment → any-high-risk-claim-Hard-Gate (nach finalem Critic + im Refine-Pfad).
Scope
M2 ("trustworthy output"). MVP zuerst nur High-Risk-Claims (Zuschreibungen, Zahlen, Vergleiche, Kausalwörter). Akzeptanz: beide Hrastinski-Fälle gefangen, FPR auf sauberen Notes < ~10 %.
Status
Geplant, nicht umgesetzt. Cross-Model-Review (Codex + Mistral) abgeschlossen — "tragfähig, kein Pivot".