G3: mDeBERTa Cross-Language-Schwellen gegen Gold-Labels kalibrieren

## Befund (Gap G3 — Cross-Language-Threshold unkalibriert)

**Der einzige als "nützlich" eingestufte Hebel** aus dem Material-Review 2026-06-04 (Workflow + Codex + Mistral) — bisher als einziger ohne Issue.

Der mDeBERTa-Cross-Language-Override existiert bereits:
- `generative/eval_quality.py:344-351` (Gate `ENABLE_MDEBERTA_NLI`, default aus)
- Schwellen `generative/config.py:186-191`: `contradiction >= 0.3 → hallucinated`, `entailment >= 0.7 → confirmed`

Diese Schwellen (`0.3` / `0.7`) sind **hartcodiert geraten, nie gegen Gold-Labels kalibriert**.

## Hebel

1. **Gold-Label-Sample**: Vectara HHEM-2.3 hat 30-Tage-Trial mit nativem DE-Support. Auf einem Sample von DE-Anker/EN-Quelle-Paaren einmalig Gold-Labels erzeugen.
2. **Schwellen ableiten**: `contradiction`/`entailment`-Cutoffs aus Precision/Recall auf dem gelabelten Sample ableiten statt setzen.
3. Optional: LLM-as-Judge (Haiku, Temp=0, fertiger Prompt in [[Cross-Lingual-Faithfulness-Detection]]) als Eskalationsstufe für unsichere Paraphrase-Fälle.

## Akzeptanzkriterium
Override-Schwellen aus dem gelabelten Sample abgeleitet (dokumentiert), nicht geraten.

## Caveat
mDeBERTa vergibt für valide Paraphrasen systematisch niedrige Entailment-Scores (gemessen 0.03–0.19, [[Cross-Lingual-Faithfulness-Detection]]) → taugt als Contradiction-Detektor, nicht als allgemeiner Faithfulness-Scorer. Die Kalibrierung muss das berücksichtigen (ggf. nur die Contradiction-Seite kalibrieren, Entailment durch LLM-Judge ersetzen).

## Quelle
Cross-Model-Review 2026-06-04. Note [[Cross-Lingual-Faithfulness-Detection]] (einziger "nützlich"-Verdikt). Bezug: Gap G3.


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

G3: mDeBERTa Cross-Language-Schwellen gegen Gold-Labels kalibrieren #29

Befund (Gap G3 — Cross-Language-Threshold unkalibriert)

Hebel

Akzeptanzkriterium

Caveat

Quelle

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

G3: mDeBERTa Cross-Language-Schwellen gegen Gold-Labels kalibrieren #29

Description

Befund (Gap G3 — Cross-Language-Threshold unkalibriert)

Hebel

Akzeptanzkriterium

Caveat

Quelle

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions