Tutorial Abby Recognition Server: Unterschied zwischen den Versionen
Aus Kallimachos
Keine Bearbeitungszusammenfassung |
Keine Bearbeitungszusammenfassung |
||
| Zeile 14: | Zeile 14: | ||
* Verification Station | * Verification Station | ||
=== Auswählen des Benutzerkontos === | ===Auswählen des Benutzerkontos=== | ||
[[Datei:Benutzerkonto.png]] | [[Datei:Benutzerkonto.png]] | ||
| Zeile 23: | Zeile 23: | ||
In unserem Fall ist es eine Novell-Domäne mit Novell-Netzlaufwerken. Das Speichern der OCR-Ergebnisse auf diesen Laufwerken war uns nicht möglich. Die Meldung im Recognition Server besagte, dass auf das Netzlaufwerk nicht zugegriffen werden konnte. Somit konnten die Ergebnisse nur auf dem lokalen ABBYY-Server gespeichert, und dann mit einem Synchronisationsprogramm auf ein Netzlaufwerk kopiert werden. | In unserem Fall ist es eine Novell-Domäne mit Novell-Netzlaufwerken. Das Speichern der OCR-Ergebnisse auf diesen Laufwerken war uns nicht möglich. Die Meldung im Recognition Server besagte, dass auf das Netzlaufwerk nicht zugegriffen werden konnte. Somit konnten die Ergebnisse nur auf dem lokalen ABBYY-Server gespeichert, und dann mit einem Synchronisationsprogramm auf ein Netzlaufwerk kopiert werden. | ||
=Workflow | =Workflow= | ||
==Erstellen eines Workflows== | ==Erstellen eines Workflows== | ||
=== Anlegen der Ordnerstruktur === | === Anlegen der Ordnerstruktur === | ||
| Zeile 95: | Zeile 95: | ||
[[Bild:Komplexe_Formatierung.png]] | [[Bild:Komplexe_Formatierung.png]] | ||
=Trainingsdaten= | |||
==Einbinden von Trainingsdaten== | |||
=== Neue Sprache in ''FineReader'' erstellen und dem Recognition Server übergeben === | |||
In dieser kann der Zeichensatz ausgewählt werden und nicht vorkommende Zeichen entfernt, z.B. das @-Zeichen. Dieses kommt in älteren Schriften nicht vor, wird aber hin- und wieder mal als solches erkannt. | |||
In dieser | |||
Hierzu im FineReader folgendermaßen vorgehen: | Hierzu im FineReader folgendermaßen vorgehen: | ||
| Zeile 108: | Zeile 109: | ||
*** OK | *** OK | ||
*** Erweitert | *** Erweitert | ||
Nun können unzulässige Zeichen eingetragen werden; direkt hintereinander ohne Leerzeichen oder | Nun können unzulässige Zeichen eingetragen werden; direkt hintereinander ohne Leerzeichen oder andere Trennzeichen. | ||
[[Bild:Verarbeitung.png]] | [[Bild:Verarbeitung.png]] | ||
=== Trainingsdatei für Schriftzeichen erstellen === | === Trainingsdatei für Schriftzeichen erstellen === | ||
Erkennt der Recognition Server bestimmte Zeichen nicht, können diese mittels einer Trainingsdatei im FineReader erstellt, als .fbt-Datei exportiert und im Recognition Server importiert werden. Eine Testversion des | Erkennt der Recognition Server bestimmte Zeichen nicht, können diese mittels einer Trainingsdatei im FineReader erstellt, als .fbt-Datei exportiert und im Recognition Server importiert werden. Eine Testversion des FineReaders kann man auf der Abbyy-Seite herunterladen. | ||
Zum Erstellen einer Trainingsdatei (Im Beispiel eine Frakturschrift) wählen Sie die Option ''Verwenden Sie das Training zum Erkennen neuer Zeichen und Ligaturen'' aus. Anschließend auf ''Seite erkennen'' klicken. Es öffnet sich der ''Mustertraining''-Dialog. | |||
[[Bild:Training_Benutzermuster.png]] | [[Bild:Training_Benutzermuster.png]] | ||
[[Bild:Mustertraining.png]] | [[Bild:Mustertraining.png]] | ||
Das ''M'' wurde nicht vollständig segmentiert, daher mit dem Doppelpfeil >> das Segment erweitern, bis es vollständig umschlossen ist. Anschließend auf ''Training'' klicken. Sollten Segmente über ein Zeichen hinaus ragen, so können diese analog mit dem Doppelpfeil << verkleinert werden. | Das ''M'' wurde hier nicht vollständig segmentiert, daher mit dem Doppelpfeil >> das Segment erweitern, bis es vollständig umschlossen ist. Anschließend auf ''Training'' klicken. Sollten Segmente über ein Zeichen hinaus ragen, so können diese analog mit dem Doppelpfeil << verkleinert werden. | ||
[[Bild:Mustertraining_2.png]] | [[Bild:Mustertraining_2.png]] | ||
Das Training kann jederzeit über die Schaltfläche ''Schließen'' beendet werden. | Das Training kann jederzeit über die Schaltfläche ''Schließen'' beendet werden. | ||
Die trainierten Schriftzeichen können über | Die trainierten Schriftzeichen können über | ||
* Werkzeuge | |||
*Werkzeuge | |||
** Mustereditor | ** Mustereditor | ||
gesichtet, und deren Eigenschaften (Fett, Kursiv...) angepasst werden: | gesichtet, und deren Eigenschaften (Fett, Kursiv...) angepasst werden: | ||
[[Bild:Benutzermuster.png]] | [[Bild:Benutzermuster.png]] | ||
Um zu prüfen, ob die Erkennungsgenauigkeit mit der Trainingsdatei besser ist als ohne, kann man im FineReader schon mal einige Seiten mit und ohne den integrierten Mustern erkennen lassen. | |||
Die Trainingsdatei kann im FineReader über | Die Trainingsdatei kann im FineReader über | ||
* Werkzeuge | * Werkzeuge | ||
** OCR | ** OCR | ||
*** Benutzerdefinierte Muster und Sprachen speichern | *** Benutzerdefinierte Muster und Sprachen speichern | ||
exportiert und hier dem Recognition Server übergeben werden: | exportiert und hier dem Recognition Server übergeben werden: | ||
[[Bild:Benutzermuster_Explorer.png]] | [[Bild:Benutzermuster_Explorer.png]] | ||
[[Bild:Benutzermuster_hinzufügen.png]] | |||
=Korrektur= | |||
==Besonderheiten der Drucktype ''Gothic''== | |||
===Nicht eingelesene Seitenzahlen=== | |||
=== Nicht eingelesene Seitenzahlen === | |||
Sollte ein Textsegment, z.B. Seitenzahl, trotz Segmentierung nicht angezeigt werden, klickt man im linken Fenster mit der linken Maustaste doppelt auf das Segment. Jetzt sollte es im rechten Fenster erscheinen und der Cursor blinken. Nun kann die Seitenzahl eingetragen werden. | Sollte ein Textsegment, z.B. Seitenzahl, trotz Segmentierung nicht angezeigt werden, klickt man im linken Fenster mit der linken Maustaste doppelt auf das Segment. Jetzt sollte es im rechten Fenster erscheinen und der Cursor blinken. Nun kann die Seitenzahl eingetragen werden. | ||
| Zeile 167: | Zeile 162: | ||
[[Bild:Nicht_eingelesene_Seitenzahlen.png]] | [[Bild:Nicht_eingelesene_Seitenzahlen.png]] | ||
=== Einstellungen in der Korrekturstation === | ===Einstellungen in der Korrekturstation=== | ||
=== Rechtschreibprüfung === | ====Rechtschreibprüfung==== | ||
Diese führt in der Korrekturstation früher oder später zu Programmfehlern und zum Absturz. Alternativ kann eine txt-Datei als Wörterbuch im Recognition Server eingebunden werden. Diese wird mit UTF-16 angelegt und jedes Wort in eine eigene Zeile eingetragen. | Diese führt in der Korrekturstation früher oder später zu Programmfehlern und zum Absturz. Alternativ kann eine txt-Datei als Wörterbuch im Recognition Server eingebunden werden. Diese wird mit UTF-16 angelegt und jedes Wort in eine eigene Zeile eingetragen. | ||
| Zeile 178: | Zeile 172: | ||
[[Bild:Rechtschreibprüfung.PNG]] | [[Bild:Rechtschreibprüfung.PNG]] | ||
=== Neue Textsegmente erstellen === | ====Neue Textsegmente erstellen==== | ||
Wenn ein neues Textsegment erstellt wird, so ist | Wenn ein neues Textsegment erstellt wird, so ist die Drucktype auf ''Default'' eingestellt. Dies schließt "normale" Drucktypen wie Antiqua ein. Sind jedoch andere Drucktypen, wie etwa Fraktur zu erkennen, muss die Drucktype jedes mal auf ''Gothic'' geändert werden. | ||
Anschließend muss die Textreihenfolge noch kontrolliert und korrigiert werden. | Anschließend muss die Textreihenfolge noch kontrolliert und korrigiert werden. | ||
=== Fehlermeldungen... === | === Fehlermeldungen...=== | ||
treten auf bei: | treten auf bei: | ||
| Zeile 190: | Zeile 184: | ||
* Benutzung der Zwischenablage (Copy & Paste) | * Benutzung der Zwischenablage (Copy & Paste) | ||
* Benutzung der Rechtschreibprüfung | * Benutzung der Rechtschreibprüfung | ||
Eher selten | * Eher selten im laufenden Betrieb. Dann jedoch sollte die Korrekturstation komplett geschlossen werden, da sie sonst die gleichen Fehler immer wieder und hintereinander liefert. | ||
[[Bild:Abbyy_Fehlermeldungen_1.png]] | [[Bild:Abbyy_Fehlermeldungen_1.png]] | ||
<headertabs /> | <headertabs /> | ||