Skip to content

G3: mDeBERTa Cross-Language-Schwellen gegen Gold-Labels kalibrieren #29

Description

@TillQuandel

Befund (Gap G3 — Cross-Language-Threshold unkalibriert)

Der einzige als "nützlich" eingestufte Hebel aus dem Material-Review 2026-06-04 (Workflow + Codex + Mistral) — bisher als einziger ohne Issue.

Der mDeBERTa-Cross-Language-Override existiert bereits:

  • generative/eval_quality.py:344-351 (Gate ENABLE_MDEBERTA_NLI, default aus)
  • Schwellen generative/config.py:186-191: contradiction >= 0.3 → hallucinated, entailment >= 0.7 → confirmed

Diese Schwellen (0.3 / 0.7) sind hartcodiert geraten, nie gegen Gold-Labels kalibriert.

Hebel

  1. Gold-Label-Sample: Vectara HHEM-2.3 hat 30-Tage-Trial mit nativem DE-Support. Auf einem Sample von DE-Anker/EN-Quelle-Paaren einmalig Gold-Labels erzeugen.
  2. Schwellen ableiten: contradiction/entailment-Cutoffs aus Precision/Recall auf dem gelabelten Sample ableiten statt setzen.
  3. Optional: LLM-as-Judge (Haiku, Temp=0, fertiger Prompt in [[Cross-Lingual-Faithfulness-Detection]]) als Eskalationsstufe für unsichere Paraphrase-Fälle.

Akzeptanzkriterium

Override-Schwellen aus dem gelabelten Sample abgeleitet (dokumentiert), nicht geraten.

Caveat

mDeBERTa vergibt für valide Paraphrasen systematisch niedrige Entailment-Scores (gemessen 0.03–0.19, [[Cross-Lingual-Faithfulness-Detection]]) → taugt als Contradiction-Detektor, nicht als allgemeiner Faithfulness-Scorer. Die Kalibrierung muss das berücksichtigen (ggf. nur die Contradiction-Seite kalibrieren, Entailment durch LLM-Judge ersetzen).

Quelle

Cross-Model-Review 2026-06-04. Note [[Cross-Lingual-Faithfulness-Detection]] (einziger "nützlich"-Verdikt). Bezug: Gap G3.

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions