Anagnosis: Unterschied zwischen den Versionen
Aus Kallimachos
| Zeile 21: | Zeile 21: | ||
=Arbeitsplan= | =Arbeitsplan= | ||
==Bild-Text-Verknüpfung== | ==Bild-Text-Verknüpfung== | ||
Aus der DCLP-Datenbank werden Texte und Metadaten in den Anagnosis-Editor importiert. Die Metadaten zu den einzelnen Papyrustexten beinhalten | Aus der DCLP-Datenbank werden Texte und Metadaten in den Anagnosis-Editor importiert. Die Metadaten zu den einzelnen Papyrustexten beinhalten bereits einen Link zur URL der jeweiligen online-Abbildungen, auf die der Editor ebenso zugreift. Einzelne Texteinheiten (Kolumnen/Fragmente) des Transkriptes bekommen eine ID und werden über diese mit dem entsprechenden Bild verknüpft. | ||
Die weitere Alliniierung zwischen Textbereichen (Zeilen und Buchstaben) wird über die Textposition der Glyphen | Die weitere Alliniierung zwischen Textbereichen (Zeilen und Buchstaben) wird über die Textposition der Glyphen und ein mithilfe von Normboxen bestimmtes Koordinatensystem gewährleistet. Zunächst wird auf das Textfeld in der Abbildung ein Normbereich aufgezogen und ggf. rotiert. Dieser dient als Referenz für die durch vier Werte festgelegten Normkoordinaten. Eine OCR-Segmentierung erzeugt Glyphenboxen mit den entsprechenden Koordinaten, wobei sich die Positionierung der Glyphenkoordinaten auf die bereits festgelegte Normbox bezieht. Ein Versuch, Kupferstiche herkulanensischer Papyri durch auf Tesseract gestützte Trainingswerkzeuge zu bearbeiten hat bereits gute Ergebnisse gezeigt. | ||
Die Alliniierung auf Buchstabenebene zwischen Bild und Transkript wird durch ein Koordinatensystem gewährleistet. Zunächst wird im um den Textblock in der Abbildung ein Normbereich manuell aufgezogen und ggf. rotiert. Dieser dient als Referenz für die Normkoordinaten. Eine Bildsegmentierung erzeugt Glyphenboxen mit den entsprechenden Koordinaten, wobei sich die Positionierung der Glyphenkoordinaten auf die bereits festgelegte Normbox bezieht. Ein Versuch, Kupferstiche herkulanensischer Papyri auf diese Weise zu bearbeiten, hat bereits zu ansehlichen Ergebnisse geführt. | Die Alliniierung auf Buchstabenebene zwischen Bild und Transkript wird durch ein Koordinatensystem gewährleistet. Zunächst wird im um den Textblock in der Abbildung ein Normbereich manuell aufgezogen und ggf. rotiert. Dieser dient als Referenz für die Normkoordinaten. Eine Bildsegmentierung erzeugt Glyphenboxen mit den entsprechenden Koordinaten, wobei sich die Positionierung der Glyphenkoordinaten auf die bereits festgelegte Normbox bezieht. Ein Versuch, Kupferstiche herkulanensischer Papyri auf diese Weise zu bearbeiten, hat bereits zu ansehlichen Ergebnisse geführt. | ||