Hinweis: Diese Dokumentation geht auf die nötigen Vorbereitungen und Besonderheiten bei der OCR der Zeitschrift Daheim (und ähnliche Digitalisate) ein, die in der Dokumentation des Abbyy Recognition Servers und der dazugehörigen Korrekturstation nicht beschrieben werden.
Die Einstellungen können so übernommen werden.
Die Dokumentation des Recognition Servers bezieht sich auf eine Windows-Umgebung mit Windows-Netzlaufwerken. Sollen die OCR-Ergebnisse auf einem Windows-Netzlaufwerk gespeichert werden, so muss ein Benutzerkonto/User account ausgewählt werden, der Berechtigungen zum Zugriff auf das Netzwerk hat. Der lokale Benutzer hat diese Rechte nicht.
Es bietet sich an, das Netzwerkdienstkonto auszuwählen, da dieses über Berechtigungen zum Zugriff auf Netzwerkressourcen besitzt.
In unserem Fall handelte es sich um eine Novell-Umgebung mit Novell-Netzlaufwerken. Das Speichern der OCR-Ergebnisse auf diesen Laufwerken war uns nicht möglich. Die Meldung im Recognition Server besagte, dass auf das Netzlaufwerk nicht zugegriffen werden konnte. Somit konnten die Ergebnisse nur auf dem lokalen ABBYY-Server gespeichert, und dann mit einem Synchronisationsprogramm auf ein Netzlaufwerk kopiert werden.
Es empfiehlt sich, folgende Ordnerstruktur zur Kontrolle des Worflows anzulegen:
Diese Benutzer müssen auf dem Rechner, auf dem der Recognition Server läuft, mit Passwort angelegt sein.
Die Ordner werden jetzt auf den Rechnern, auf denen die Korrekturstation installiert werden soll, als Netzlaufwerk eingebunden.
Diese Option richtet das Bild anhand von Linien aus. Sind diese wie in diesem Beispielbild - die trapezförmige Daheim-Fahne - sieht die Ausgabe folgendermaßen aus:
Das Programm richtet die lange Kante der Fahne horizontal aus, da es diese als Referenz für die Ausrichtung ansieht. Daher sollte in solchen Fällen die Option Entzerren deaktiviert werden.
Für Dokumente mit sehr einfachen Formatierungen (z.B. reiner Fließtext) und mit nur wenigen Abbildungen, kann Keine Überprüfung gewählt werden. Ein Beispiel für eine relativ unproblematische Seite:
Bei Dokumenten mit aufwändigeren Formatierungen sollte hingegen Alle Dokumente überprüfen gewählt werden, da sonst häufig die segmentierten Bildunterschriften entweder in den Fließtext mit einbezogen oder als separates Textsegment erfasst wird. Das bringt die Lesereihenfolge durcheinander. Ein Beispiel für ein komplexe Formatierung:
Erkennt der Recognition Server bestimmte Zeichen nicht, können diese mittels einer Trainingsdatei im FineReader erstellt, als .fbt-Datei exportiert und im Recognition Server importiert werden. Eine Testversion des FineReaders kann man auf der Abbyy-Seite herunterladen.
Zum Erstellen einer Trainingsdatei (Im Beispiel eine Frakturschrift) wählen Sie die Option Verwenden Sie das Training zum Erkennen neuer Zeichen und Ligaturen aus. Anschließend auf Seite erkennen klicken. Es öffnet sich der Mustertraining-Dialog.
Das M wurde hier nicht vollständig segmentiert, daher mit dem Doppelpfeil >> das Segment erweitern, bis es vollständig umschlossen ist. Anschließend auf Training klicken. Sollten Segmente über ein Zeichen hinaus ragen, so können diese analog mit dem Doppelpfeil << verkleinert werden.
Das Training kann jederzeit über die Schaltfläche Schließen beendet werden. Die trainierten Schriftzeichen können über
gesichtet, und deren Eigenschaften (Fett, Kursiv...) angepasst werden:
Um zu prüfen, ob die Erkennungsgenauigkeit mit der Trainingsdatei besser ist als ohne, kann man im FineReader schon mal einige Seiten mit und ohne den integrierten Mustern erkennen lassen.
Die Trainingsdatei kann im FineReader über
exportiert und hier dem Recognition Server übergeben werden:
Sollte ein Textsegment, z.B. Seitenzahl, trotz Segmentierung nicht angezeigt werden, prüft man, ob die Schriftfarbe die gleiche wie die Hintergrundfarbe ist. Hierzu klickt man im rechten Fenster zum Öffnen der Textformatierungsoptionen auf den Doppelpfeil. Im Feld Schriftfarbe auf das Farbfeld klicken und Schwarz auswählen.
Wenn ein neues Textsegment erstellt wird, so ist die Drucktype auf Default eingestellt. Dies schließt "normale" Drucktypen wie Antiqua ein. Sind jedoch andere Drucktypen, wie etwa Fraktur zu erkennen, muss die Drucktype jedes mal auf Gothic geändert werden.
Anschließend muss die Textreihenfolge noch kontrolliert und korrigiert werden.
Diese führt in der Korrekturstation früher oder später zu Programmfehlern und zum Absturz. Alternativ kann eine txt-Datei als Wörterbuch im Recognition Server eingebunden werden. Diese wird im UTF-16-Format angelegt und jedes Wort in eine eigene Zeile eingetragen.
Hinzugefügt wird es im Reiter 2 Verarbeitung. -> INTERNER LINK ZU WORKFLOW -> WORKFLOWEINSTELLUNGEN
treten auf bei: