Narragonien:Main: Unterschied zwischen den Versionen
Aus Kallimachos
Hamm (Diskussion | Beiträge) |
|||
| Zeile 119: | Zeile 119: | ||
== Modul OCR == | == Modul OCR == | ||
[[File:CollageOCR.png|thumbnail|Zur Erfassung des frühneuzeitlichen Schriftbilds hat sich die Erstellung offizinspezifischer Typentabellen bewährt. | link=]] | [[File:CollageOCR.png|thumbnail|Zur Erfassung des frühneuzeitlichen Schriftbilds hat sich die Erstellung offizinspezifischer Typentabellen bewährt. | link=]] | ||
Die Basler Erstausgabe des ‚Narrenschiffs‘ ist mehrfach und gut ediert (vgl. insb. Zarncke 1854; Lemmer 2004; Knape 2005). Doch nur wenige der frühneuzeitlichen Folgeausgaben bzw. -bearbeitungen liegen in brauchbaren Print-Editionen vor. Zu den meisten europäischen 'Narrenschiffen' vor 1500 existieren nur veraltete, methodisch problematische oder gar keine Textausgaben (so sind etwa die Nürnberger Bearbeitung von 1494, die Straßburger Ausgabe von 1494/5 oder die französische Prosaversion bislang unediert). | |||
Der erste Schritt zu einer digitalen Edition besteht daher in der Bereitstellung zuverlässiger Transkriptionen. Da nicht alle Texte händisch erfasst werden können, wird ein Teil durch OCR-Verfahren erschlossen – eine Herausforderung angesichts der verwendeten Drucktypen und des anspruchsvollen Layouts. Diese computergestützten Transkriptionen werden von der Projektgruppe ‚Narragonien digital‘ mit Unterstützung ihrer technischen Partner erarbeitet. | |||
Hierzu werden zunächst die für die OCR notwendigen Digitalisate eingeholt, die dank der jüngsten bibliothekarischen Digitalisierungsinitiativen bereits frei verfügbar sind oder für das Projekt in hoher Qualität neu erstellt werden. Nach einer Vorverarbeitung der Scans erfolgt die Segmentierung mittels des semi-automatischen Open Source Tools LAREX [1]. Neben einer Bild/Text-Trennung wird hierbei bereits auf Layoutebene eine detaillierte semantische Auszeichnung vorgenommen, bei der die Textabschnitte in Unterkategorien wie Haupttext, Überschrift oder Marginalie unterteilt werden. Nach dem Extrahieren der markierten Segmente erfolgt die eigentliche OCR unter Verwendung des Open Source Tools OCRopus. Die einzelnen Schritte sind die Segmentierung in Zeilen, die Erstellung von Ground Truth, das Training eines Modells und die Zeichenerkennung. Durch die Erweiterung des Standard-OCRopus-Ansatzes um Techniken wie Voting [2] und Pretraining [3] konnte die erreichte Zeichengenauigkeit noch einmal signifikant gesteigert werden, in den meisten Fällen auf deutlich über 98%. | |||
[1] Christian Reul, Uwe Springmann, Frank Puppe: LAREX – A semi-automatic open-source Tool for Layout Analysis and Region Extraction on Early Printed Books. In Proceedings of the 2nd International Conference on Digital Access to Textual Cultural Heritage (2017). | |||
URL = https://arxiv.org/abs/1701.07396. | |||
[2] Christian Reul, Uwe Springmann, Christoph Wick, Frank Puppe: Improving OCR Accuracy on Early Printed Books by utilizing Cross Fold Training and Voting. Accepted for DAS2018. | |||
URL = https://arxiv.org/abs/1711.09670. | |||
[3] Christian Reul, Christoph Wick, Uwe Springmann, Frank Puppe: Transfer Learning for OCRopus Model Training on Early Printed Books. In 027.7 Journal for Library Culture (2017). URL = http://0277.ch/ojs/index.php/cdrs_0277/article/view/169/366. | |||
<br clear=all> | <br clear=all> | ||
== Synoptischer Transkriptionseditor == | == Synoptischer Transkriptionseditor == | ||