Aus dem Inhalts-Review nach PR #34/#35, der Priorität nach:
- „Akzeptanzrate über Versionen" (ch4) ist mit 59 Versionen × 37 PDFs ein Spaghetti-Plot. Spec (
Dashboard-Filter-Refactor im Vault) sagt: ab n≥4 Versionen aggregieren/facetten. Vorschlag: eine Median-Linie über alle PDFs als Default, Per-PDF-Linien nur bei aktivem PDF-Filter.
- Trade-off-Scaling mischt alle 94 Runs inkl. v0.1.0-Ära — kaputte Frühversionen verzerren „skaliert die Pipeline mit der PDF-Länge?". Vorschlag: Default auf jüngere Versionen (z. B. letzte 10) oder ältere Punkte dimmen.
- Kalibrierungs-Tabelle ohne Arbeits-Reihenfolge: zum Labeln die Notes mit höchster LLM-Fehlerquote zuerst (größter Informationsgewinn pro Label). Sortierung + ggf. „als Nächstes labeln"-Markierung.
- Übersicht-Insight um Version-über-Version-Delta erweitern —
kpi_trend hat die Mediane pro Version bereits. Beispiel: „v0.3.135: 9,7 % Fehlerquote (n=2) vs. v0.3.134: x % (n=y)". N-Guard nötig (kein Besser/Schlechter bei n<20).
Kontext: Variant-H-Layout und Pastell-Palette sind bindend (kein Redesign); Read-only-Regel für quality_history/runs/DB gilt weiter.
🤖 Generated with Claude Code
Aus dem Inhalts-Review nach PR #34/#35, der Priorität nach:
Dashboard-Filter-Refactorim Vault) sagt: ab n≥4 Versionen aggregieren/facetten. Vorschlag: eine Median-Linie über alle PDFs als Default, Per-PDF-Linien nur bei aktivem PDF-Filter.kpi_trendhat die Mediane pro Version bereits. Beispiel: „v0.3.135: 9,7 % Fehlerquote (n=2) vs. v0.3.134: x % (n=y)". N-Guard nötig (kein Besser/Schlechter bei n<20).Kontext: Variant-H-Layout und Pastell-Palette sind bindend (kein Redesign); Read-only-Regel für quality_history/runs/DB gilt weiter.
🤖 Generated with Claude Code