Befund (Gap G3 — Cross-Language-Threshold unkalibriert)
Der einzige als "nützlich" eingestufte Hebel aus dem Material-Review 2026-06-04 (Workflow + Codex + Mistral) — bisher als einziger ohne Issue.
Der mDeBERTa-Cross-Language-Override existiert bereits:
generative/eval_quality.py:344-351 (Gate ENABLE_MDEBERTA_NLI, default aus)
- Schwellen
generative/config.py:186-191: contradiction >= 0.3 → hallucinated, entailment >= 0.7 → confirmed
Diese Schwellen (0.3 / 0.7) sind hartcodiert geraten, nie gegen Gold-Labels kalibriert.
Hebel
- Gold-Label-Sample: Vectara HHEM-2.3 hat 30-Tage-Trial mit nativem DE-Support. Auf einem Sample von DE-Anker/EN-Quelle-Paaren einmalig Gold-Labels erzeugen.
- Schwellen ableiten:
contradiction/entailment-Cutoffs aus Precision/Recall auf dem gelabelten Sample ableiten statt setzen.
- Optional: LLM-as-Judge (Haiku, Temp=0, fertiger Prompt in [[Cross-Lingual-Faithfulness-Detection]]) als Eskalationsstufe für unsichere Paraphrase-Fälle.
Akzeptanzkriterium
Override-Schwellen aus dem gelabelten Sample abgeleitet (dokumentiert), nicht geraten.
Caveat
mDeBERTa vergibt für valide Paraphrasen systematisch niedrige Entailment-Scores (gemessen 0.03–0.19, [[Cross-Lingual-Faithfulness-Detection]]) → taugt als Contradiction-Detektor, nicht als allgemeiner Faithfulness-Scorer. Die Kalibrierung muss das berücksichtigen (ggf. nur die Contradiction-Seite kalibrieren, Entailment durch LLM-Judge ersetzen).
Quelle
Cross-Model-Review 2026-06-04. Note [[Cross-Lingual-Faithfulness-Detection]] (einziger "nützlich"-Verdikt). Bezug: Gap G3.
Befund (Gap G3 — Cross-Language-Threshold unkalibriert)
Der einzige als "nützlich" eingestufte Hebel aus dem Material-Review 2026-06-04 (Workflow + Codex + Mistral) — bisher als einziger ohne Issue.
Der mDeBERTa-Cross-Language-Override existiert bereits:
generative/eval_quality.py:344-351(GateENABLE_MDEBERTA_NLI, default aus)generative/config.py:186-191:contradiction >= 0.3 → hallucinated,entailment >= 0.7 → confirmedDiese Schwellen (
0.3/0.7) sind hartcodiert geraten, nie gegen Gold-Labels kalibriert.Hebel
contradiction/entailment-Cutoffs aus Precision/Recall auf dem gelabelten Sample ableiten statt setzen.Akzeptanzkriterium
Override-Schwellen aus dem gelabelten Sample abgeleitet (dokumentiert), nicht geraten.
Caveat
mDeBERTa vergibt für valide Paraphrasen systematisch niedrige Entailment-Scores (gemessen 0.03–0.19, [[Cross-Lingual-Faithfulness-Detection]]) → taugt als Contradiction-Detektor, nicht als allgemeiner Faithfulness-Scorer. Die Kalibrierung muss das berücksichtigen (ggf. nur die Contradiction-Seite kalibrieren, Entailment durch LLM-Judge ersetzen).
Quelle
Cross-Model-Review 2026-06-04. Note [[Cross-Lingual-Faithfulness-Detection]] (einziger "nützlich"-Verdikt). Bezug: Gap G3.