Projektbeschreibung: Unterschied zwischen den Versionen
Aus Kallimachos
| Zeile 46: | Zeile 46: | ||
<br clear=all> | <br clear=all> | ||
==OCR-Modul== | |||
[[File:NarragonienOCR.png|thumbnail|OCR von Scanseiten einer lateinischen Ausgabe des [[Narragonien|Narrenschiffs]].|link=http://kallimachos.de/kallimachos/images/kallimachos/d/d0/NarragonienOCR.png|alt=Darstellung des OCR-Prozesses: Links die Originalscans als Graustufenbild, rechts der e-Text]] | |||
Das OCR-Modul stellt eine automatisierte Vorverarbeitung für die Volltexterstellung zur Verfügung. Hierzu entwickeln zwei Arbeitsgruppen am [https://www.dfki.de/web Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI)] und an der Universität Würzburg bestehende Tools und Software-Bausteine weiter, um auch solche Texte erschließen zu können, für die bislang keine qualitativ hochwertigen OCR-Lösungen vorliegen. Im Zentrum dieser Arbeiten steht der Use-Case [[Narragonien:Main | Narragonien]]. | |||
<br clear=all> | |||
===''anyOCR'': ein lernendes Zeichenerkennungssystem=== | |||
Das DFKI prägte den Begriff ''anyOCR'' für eine adaptierbare optische Texterkennungs-Methode, die sich – im Gegensatz zu etablierten (auf Zeichensegmenten basierenden und segmentierungsfreien) OCR-Systemen – automatisch an unterschiedliche Anforderungen und die spezifischen Probleme der Schrifterkennung auf historischen Dokumenten anpassen kann. Traditionelle segmentierungsfreie, auf Sequenzlernen basierende OCR-Ansätze konnten bereits erfolgreich auf handschriftliche, in unterschiedlicher Weise gedruckte, sowie historische Dokumente angewendet werden, um komplette Textzeilen auf einmal und mit höherer Erkennungsrate erkennen, als traditionelle segmentierungsbasierte Zeichenerkennungsverfahren. Um bei diesen Verfahren jedoch zufriedenstellende Leistungen zu erhalten, wird sehr viel manuell transkribiertes Trainingsmaterial – sogenannte Ground Truth – benötigt, dessen Erzeugung zeitaufwändig und somit teuer ist. Die Option der synthetischen Generierung von Trainingsdaten entzieht sich der Domäne historischer Dokumente überdies, da keine repräsentativen Texte verfügbar sind. | |||
<br clear=all> | |||
[[File:anyOCRtPipeline.png|600px|center|OCRoRACT-anyOCR Training Pipeline|link=|alt=Modellhafte Darstellung des Trainingsprozesses im anyOCR-Ansatz]] | |||
<br clear=all> | |||
Um dem Problem fehlender Ground Truth-Daten zum Training des Sequenzlernens zu begegnen, hat das DFKI das auf der ''anyOCR''-Methode basierende Framework ''OCRoRACT'' entwickelt. Hierbei wird zunächst ein konventionelles, auf Zeichensegmenten basierendes OCR-Verfahren bzw. dessen Erkennungsergebnis eingesetzt, um ein initiales OCR-Modell unter Verwendung einzelner erkannter Symbole zu trainieren. Diese (im Gegensatz zur Ground Truth) möglicherweise fehlerbehafteten Textzeilen werden dann, wie die sonst manuell erzeugte Ground Truth, zum Trainieren des Sequenzlernens verwendet. Durch die systemimmanente Einbeziehung von Kontextinformationen erlernt das System die weitgehende Korrektur etwaiger Fehler in dieser Pseudo-Ground Truth. Ein auf diese Weise auf historischen Dokumenten trainiertes ''OCRoRACT''-System lieferte bereits gute Erkennungsergebnisse trotz des zwangsweisen Verzichts auf die üblicherweise notwendigen Wörterbücher. | |||
<br clear=all> | |||
===Offizinspezifische Typeninventare=== | |||
[[File:CollageOCR.png|thumbnail|Erstellung von Typentabellen am Beispiel des Teilprojekts [[Narragonien]].| link=http://kallimachos.de/kallimachos/images/kallimachos/0/03/CollageOCR.png | alt=Collage verschiedener Typentabellen]] | |||
Die OCR-Arbeitsgruppe an der UB Würzburg begleitet und evaluiert auf den Spuren etablierter Tools, etwa aus dem EMOP-Projekt (''Franken+, Gamera, Tesseract'') den Entwicklungsprozess am DFKI. Dazu werden verlags- bzw. offizinspezifischen Typeninventare in einem MUFI-Zeichensatz erstellt, wobei das eigens entwickelte Tool Glyph Miner wertvolle Dienste leistet. Mithilfe dieser Typeninventare können offizinspezifische OCR-Trainingsdaten erzeugt werden, die zur Erfassung weitere Texte der Offizin mit demselben Typeninventar genutzt werden können. Dieser Ansatz erbrachte mit der Tesseract-Enginge bereits Erkennungsgenauigkeiten von über 93%, die zuvor auf vergleichbarem Material noch nie erreicht wurden. | |||
<br clear=all> | |||
<!-- | |||
Alt | |||
==OCR-Modul== | ==OCR-Modul== | ||
[[File:CollageOCR.png|thumbnail|Erstellung von Typentabellen, hier am Beispiel des Teilprojekts [[Narragonien]].| link=http://kallimachos.de/kallimachos/images/kallimachos/0/03/CollageOCR.png | alt=Collage verschiedener Typentabellen]] | [[File:CollageOCR.png|thumbnail|Erstellung von Typentabellen, hier am Beispiel des Teilprojekts [[Narragonien]].| link=http://kallimachos.de/kallimachos/images/kallimachos/0/03/CollageOCR.png | alt=Collage verschiedener Typentabellen]] | ||
| Zeile 57: | Zeile 76: | ||
Die OCR-Arbeitsgruppe an der UB Würzburg begleitet und evaluiert auf den Spuren etablierter Tools, etwa aus dem EMOP-Projekt (''Franken+, Gamera, Tesseract'') den Entwicklungsprozess am DFKI. Dazu werden verlags- bzw. offizinspezifischen Typeninventare in einem MUFI-Zeichensatz erstellt, wobei das eigens entwickelte Tool Glyph Miner wertvolle Dienste leistet. Mithilfe dieser Typeninventare können offizinspezifische OCR-Trainingsdaten erzeugt werden, die zur Erfassung weitere Texte der Offizin mit demselben Typeninventar genutzt werden können. Dieser Ansatz erbrachte mit der Tesseract-Enginge bereits Erkennungsgenauigkeiten von über 93%, die zuvor auf vergleichbarem Material noch nie erreicht wurden. | Die OCR-Arbeitsgruppe an der UB Würzburg begleitet und evaluiert auf den Spuren etablierter Tools, etwa aus dem EMOP-Projekt (''Franken+, Gamera, Tesseract'') den Entwicklungsprozess am DFKI. Dazu werden verlags- bzw. offizinspezifischen Typeninventare in einem MUFI-Zeichensatz erstellt, wobei das eigens entwickelte Tool Glyph Miner wertvolle Dienste leistet. Mithilfe dieser Typeninventare können offizinspezifische OCR-Trainingsdaten erzeugt werden, die zur Erfassung weitere Texte der Offizin mit demselben Typeninventar genutzt werden können. Dieser Ansatz erbrachte mit der Tesseract-Enginge bereits Erkennungsgenauigkeiten von über 93%, die zuvor auf vergleichbarem Material noch nie erreicht wurden. | ||
<br clear=all> | <br clear=all> | ||
--> | |||
==Synoptischer Editor== | ==Synoptischer Editor== | ||