Skip to content

verifier: Anker-Seiten-Edge-Cases (Text vor erstem Marker, NBSP, degeneriertes quote_clean) #77

Description

@TillQuandel

Drei Edge-Cases in der Anker-/Seiten-Verifikation (generative/agents/verifier.py), Qwen q4, 2. Durchgang (teils Vermutung, plausibel):

  • A (HIGH) — Text vor erstem Marker: _build_page_sections verwirft Text, der vor dem ersten [S. N]-Marker steht (Marker als Seiten-Footer). Zitate in diesem Bereich bekommen keine Embeddings → semantic + fuzzy liefern None.
  • B (MED) — NBSP-Mismatch: sync_anchors_from_body vergleicht Quotes per exaktem String;   (NBSP aus PDF-Extraktion) vs. normales Space → derselbe Quote gilt als „neu" → Duplikat-Anker.
  • C (MED) — degeneriertes quote_clean: _fuzzy_find_page prüft len(quote) < 15 am Roh-String, matcht aber mit quote_clean; viel umgebender Whitespace/Sonderzeichen → 1-Zeichen-quote_cleanpartial_ratio = 100 an beliebiger Stelle (False-Positive-Seite).

Fix-Richtung: führende Section vor erstem Marker mit Fallback-Seite behandeln; Unicode-NFKC-Normalisierung vor Quote-Vergleich; Längen-Filter auf quote_clean statt Roh-String messen.

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions