Projektbeschreibung: Unterschied zwischen den Versionen
Aus Kallimachos
| Zeile 48: | Zeile 48: | ||
==OCR-Modul== | ==OCR-Modul== | ||
[[File:CollageOCR.png|thumbnail|Erstellung von Typentabellen, hier am Beispiel des Teilprojekts [[Narragonien]].| link=http://kallimachos.de/kallimachos/images/kallimachos/0/03/CollageOCR.png | alt=Collage verschiedener Typentabellen]] | [[File:CollageOCR.png|thumbnail|Erstellung von Typentabellen, hier am Beispiel des Teilprojekts [[Narragonien]].| link=http://kallimachos.de/kallimachos/images/kallimachos/0/03/CollageOCR.png | alt=Collage verschiedener Typentabellen]] | ||
Das OCR-Modul stellt eine automatisierte Vorverarbeitung für die Volltexterstellung zur Verfügung. | Das OCR-Modul stellt eine automatisierte Vorverarbeitung für die Volltexterstellung zur Verfügung. Hierzu entwickeln zwei Arbeitsgruppen am DFKI Kaiserslautern und an der Universität Würzburg bestehende Tools und Software-Bausteine weiter, um auch solche Texte erschließen zu können, für die bislang keine qualitativ hochwertigen OCR-Lösungen vorliegen. Im Zentrum dieser Arbeiten steht dabei der Use-Case Narragonien. | ||
Die OCR-Arbeitsgruppe an der UB Würzburg begleitet und evaluiert auf den Spuren etablierter Tools, etwa aus dem EMOP-Projekt (Franken+, Gamera, Tesseract) den Entwicklungsprozess am DFKI. Dazu werden verlags- bzw. offizinspezifischen Typeninventare in einem MUFI-Zeichensatz erstellt, wobei das eigens entwickelte Tool Glyph Miner wertvolle Dienste leistet. Mithilfe dieser Typeninventare können offizinspezifische OCR-Trainingsdaten erzeugt werden, die zur Erfassung weitere Texte der Offizin mit demselben Typeninventar genutzt werden können. Dieser Ansatz erbrachte mit der Tesseract-Enginge bereits Erkennungsgenauigkeiten von über 93%, die zuvor auf vergleichbarem Material noch nie erreicht wurden. | |||
<!-- | |||
Auf der Grundlage der Arbeiten und Softwarebausteine des DFKI wird der im Projekt verfolgte Ansatz aus folgenden Schritten bestehen: | |||
*Integration der bisherigen OCR-Komponenten auf Softwarebene, | *Integration der bisherigen OCR-Komponenten auf Softwarebene, | ||
*Training von neuen Zeichensätzen für historische Druck- und Handschriften, | *Training von neuen Zeichensätzen für historische Druck- und Handschriften, | ||
*Entwicklung von „Wörterbüchern“ für historische Orthographien, | *Entwicklung von „Wörterbüchern“ für historische Orthographien, | ||
*Weiterentwicklung der nichtparametrischen Methoden für die Bildvorverarbeitung, Layoutanalyse und Sprachmodellierung. | *Weiterentwicklung der nichtparametrischen Methoden für die Bildvorverarbeitung, Layoutanalyse und Sprachmodellierung. | ||
--> | |||
<br clear=all> | <br clear=all> | ||