Skip to content

Handschriftenseiten: Leerzeichen bei im xml kodierten Seitenwechseln #273

Description

@Capitularia-sk

Problem: Speziell in einigen älteren Transkriptionen haben wir bei Seitenwechseln, die wir als
<lb n="13r"/>
kodieren, nur vor dem tag ein Leerzeichen gelassen, aber den dahinter folgenden Text oft direkt angeschlossen. Das Skript erzeugt für diesen tag im html eine Seitenangabe in eckigen Klammern, fett und in roter Tinte; für das obige Beispiel etwa:
[fol. 13r]

Wenn nun kein Leerzeichen hinter dem tag steht, kann es zu unschönen Darstellungen wie
missi **[fol. 13r]**nostri
im html-Text kommen.

Leichte Komplikation: Es gibt Fälle, wo zu Recht kein Leerzeichen vor und nach dem tag steht, nämlich bei einer Worttrennung beim Seitenübergang. Dann soll es tatsächlich z.B.
mis**[fol. 13r]**si nostri heißen, was wir folgendermaßen kodieren:
mis<lb n="13r" break="no"/>si nostri

Zwei mögliche Lösungen:
(1) Das Skript so anpassen, dass es automatisch nach einem lb-tag, in dem kein break=no Element steht, hinter der vom Skript generierten Seitenangabe ein Leerzeichen erzeugt, sofern nicht bereits eins vorhanden ist.
(2) Eine Suche über alle xml-Dateien der Handschriftenseiten im Ordner publ\mss durchführen, bei der (nur im body, wo die Transkriptionen untergebracht sind) hinter jedem lb-tag ohne break=no Element pauschal ein Leerzeichen hinter dem tag ergänzt wird. Falls es dadurch zu zwei Leerzeichen hintereinander kommen sollte, ist das egal, weil das Skript unseres Wissens jetzt schon alle mehrfachen Leerzeichen im xml zu einem einzigen Leerzeichen im html zusammenzieht.

Für Lösung (2) bitte kurz mit uns abstimmen, bevor der Prozess ausgeführt wird, damit wir dann nicht zufällig gerade eine Datei aus dem Ordner geöffnet haben.

Metadata

Metadata

Type

No fields configured for Task.

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions