Projektbeschreibung: Unterschied zwischen den Versionen
Aus Kallimachos
| Zeile 50: | Zeile 50: | ||
Das OCR-Modul stellt eine automatisierte Vorverarbeitung für die Volltexterstellung zur Verfügung. Hierzu entwickeln zwei Arbeitsgruppen am [https://www.dfki.de/web DFKI Kaiserslautern] und an der Universität Würzburg bestehende Tools und Software-Bausteine weiter, um auch solche Texte erschließen zu können, für die bislang keine qualitativ hochwertigen OCR-Lösungen vorliegen. Im Zentrum dieser Arbeiten steht dabei der Use-Case [[Narragonien:Main | Narragonien]]. | Das OCR-Modul stellt eine automatisierte Vorverarbeitung für die Volltexterstellung zur Verfügung. Hierzu entwickeln zwei Arbeitsgruppen am [https://www.dfki.de/web DFKI Kaiserslautern] und an der Universität Würzburg bestehende Tools und Software-Bausteine weiter, um auch solche Texte erschließen zu können, für die bislang keine qualitativ hochwertigen OCR-Lösungen vorliegen. Im Zentrum dieser Arbeiten steht dabei der Use-Case [[Narragonien:Main | Narragonien]]. | ||
Auf der Grundlage der Arbeiten und Softwarebausteine des DFKI wird der im Projekt verfolgte Ansatz aus folgenden Schritten bestehen: | Auf der Grundlage der Arbeiten und Softwarebausteine des DFKI wird der im Projekt verfolgte Ansatz aus folgenden Schritten bestehen: | ||
*Integration der bisherigen OCR-Komponenten auf Softwarebene, | *Integration der bisherigen OCR-Komponenten auf Softwarebene, | ||
| Zeile 56: | Zeile 55: | ||
*Entwicklung von „Wörterbüchern“ für historische Orthographien, | *Entwicklung von „Wörterbüchern“ für historische Orthographien, | ||
*Weiterentwicklung der nichtparametrischen Methoden für die Bildvorverarbeitung, Layoutanalyse und Sprachmodellierung. | *Weiterentwicklung der nichtparametrischen Methoden für die Bildvorverarbeitung, Layoutanalyse und Sprachmodellierung. | ||
Die OCR-Arbeitsgruppe an der UB Würzburg begleitet und evaluiert auf den Spuren etablierter Tools, etwa aus dem EMOP-Projekt (''Franken+, Gamera, Tesseract'') den Entwicklungsprozess am DFKI. Dazu werden verlags- bzw. offizinspezifischen Typeninventare in einem MUFI-Zeichensatz erstellt, wobei das eigens entwickelte Tool Glyph Miner wertvolle Dienste leistet. Mithilfe dieser Typeninventare können offizinspezifische OCR-Trainingsdaten erzeugt werden, die zur Erfassung weitere Texte der Offizin mit demselben Typeninventar genutzt werden können. Dieser Ansatz erbrachte mit der Tesseract-Enginge bereits Erkennungsgenauigkeiten von über 93%, die zuvor auf vergleichbarem Material noch nie erreicht wurden. | Die OCR-Arbeitsgruppe an der UB Würzburg begleitet und evaluiert auf den Spuren etablierter Tools, etwa aus dem EMOP-Projekt (''Franken+, Gamera, Tesseract'') den Entwicklungsprozess am DFKI. Dazu werden verlags- bzw. offizinspezifischen Typeninventare in einem MUFI-Zeichensatz erstellt, wobei das eigens entwickelte Tool Glyph Miner wertvolle Dienste leistet. Mithilfe dieser Typeninventare können offizinspezifische OCR-Trainingsdaten erzeugt werden, die zur Erfassung weitere Texte der Offizin mit demselben Typeninventar genutzt werden können. Dieser Ansatz erbrachte mit der Tesseract-Enginge bereits Erkennungsgenauigkeiten von über 93%, die zuvor auf vergleichbarem Material noch nie erreicht wurden. | ||