Anagnosis: Unterschied zwischen den Versionen
Aus Kallimachos
Keine Bearbeitungszusammenfassung |
|||
| Zeile 26: | Zeile 26: | ||
Aus der DCLP-Datenbank werden Texte und Metadaten in den Anagnosis-Editor importiert. Die Metadaten zu den einzelnen Papyrustexten beinhalten bereits einen Link zur URL der jeweiligen online-Abbildungen, auf die der Editor ebenso zugreift. Einzelne Texteinheiten (Kolumnen/Fragmente) des Transkriptes bekommen eine ID und werden über diese mit dem entsprechenden Bild verknüpft. | Aus der DCLP-Datenbank werden Texte und Metadaten in den Anagnosis-Editor importiert. Die Metadaten zu den einzelnen Papyrustexten beinhalten bereits einen Link zur URL der jeweiligen online-Abbildungen, auf die der Editor ebenso zugreift. Einzelne Texteinheiten (Kolumnen/Fragmente) des Transkriptes bekommen eine ID und werden über diese mit dem entsprechenden Bild verknüpft. | ||
Die weitere | Die weitere Allinierung zwischen Textbereichen (Zeilen und Buchstaben) wird über die Textposition der Glyphen und ein mithilfe von Normboxen bestimmtes Koordinatensystem gewährleistet. Zunächst wird auf das Textfeld in der Abbildung ein Normbereich aufgezogen und ggf. rotiert. Dieser dient als Referenz für die durch vier Werte festgelegten Normkoordinaten. Eine OCR-Segmentierung erzeugt Glyphenboxen mit den entsprechenden Koordinaten, wobei sich die Positionierung der Glyphenkoordinaten auf die bereits festgelegte Normbox bezieht. Ein Versuch, Kupferstiche herkulanensischer Papyri durch auf ''Tesseract'' gestützte Trainingswerkzeuge zu bearbeiten hat bereits gute Ergebnisse gezeigt. | ||
Die Resultate der Anwendung dieses Verfahrens auf photographische Aufnahmen sind von der Schrifttypologie stark abhängig, lassen jedoch berechtigterweise annehmen, dass im Verlauf des Projektes ein automatisiertes ''character spotting'', etwa durch ''stroke analysis'' und ähnliche Methoden, zu erzielen sein wird. | Die Resultate der Anwendung dieses Verfahrens auf photographische Aufnahmen sind von der Schrifttypologie stark abhängig, lassen jedoch berechtigterweise annehmen, dass im Verlauf des Projektes ein automatisiertes ''character spotting'', etwa durch ''stroke analysis'' und ähnliche Methoden, zu erzielen sein wird. | ||