Tutorial Anonyme Übersetzer: Unterschied zwischen den Versionen
Aus Kallimachos
| Zeile 23: | Zeile 23: | ||
Beide Programme sind recht komplex und unter Umständen nur mit einigem Aufwand zu kompilieren. Nochmals mehr Aufwand bedeutet es, die Programme mit einem Wrapper in die eigenen Skripte zu integrieren. Als einfachere Alternative, zumindest für Tests in einem begrenzten Rahmen, können auch die als Webservice verfügbaren Varianten ([http://services.perseids.org/bsp/morphologyservice/analysis/word?lang=lat&engine=morpheuslat&word=et Beispiel]) in Anspruch genommen werden. Wenn das Analyseprogramm richtig konfiguriert ist, sollte es einen großen Teil der Wörter aus den Texten als orthographisch korrektes Latein erkennen. Die nicht erkannten Wörter können dann wieder routinemäßig in allen Texten durch schrittweise angepasste Listen von Regeln durch ihre klassischen Pendants ersetzt werden. Sinnvolle Ersetzungsregeln sind zum Beispiel ci/ti, diff/def, ch/c usw., aber auch typische OCR-Fehler wie ic/it, ee/ec, b/h usw. | Beide Programme sind recht komplex und unter Umständen nur mit einigem Aufwand zu kompilieren. Nochmals mehr Aufwand bedeutet es, die Programme mit einem Wrapper in die eigenen Skripte zu integrieren. Als einfachere Alternative, zumindest für Tests in einem begrenzten Rahmen, können auch die als Webservice verfügbaren Varianten ([http://services.perseids.org/bsp/morphologyservice/analysis/word?lang=lat&engine=morpheuslat&word=et Beispiel]) in Anspruch genommen werden. Wenn das Analyseprogramm richtig konfiguriert ist, sollte es einen großen Teil der Wörter aus den Texten als orthographisch korrektes Latein erkennen. Die nicht erkannten Wörter können dann wieder routinemäßig in allen Texten durch schrittweise angepasste Listen von Regeln durch ihre klassischen Pendants ersetzt werden. Sinnvolle Ersetzungsregeln sind zum Beispiel ci/ti, diff/def, ch/c usw., aber auch typische OCR-Fehler wie ic/it, ee/ec, b/h usw. | ||
Für die stilometrische Analyse sollten mindestens 95% der Wörter von den Referenzlexika als korrektes Latein erkannt werden. 100% bleibt dabei natürlich das eigentliche Ziel. Um die Korrektur der lateinischen Texte zu vereinfachen, lohnt sich die Programmierung einfacher Vergleichs- und Eingabemasken, die es einem Bearbeiter erlauben, ein nicht erkanntes Wort mit dem Ursprungs-Scan zu vergleichen und den korrekten Text gleich einzutippen. Außerdem ist es hilfreich, die verwendeten Wörterbücher durch eigene Wortlisten zu erweitern, um auch spezifisches Vokabular der arabisch-lateinischen Übersetzungsliteratur sowie der jeweiligen Wissenschaftsdisziplin abzudecken und entsprechend orthographisch zu normalisieren. | Für die stilometrische Analyse sollten mindestens 95% der Wörter von den Referenzlexika als korrektes Latein erkannt werden. 100% bleibt dabei natürlich das eigentliche Ziel. Um die Korrektur der lateinischen Texte zu vereinfachen, lohnt sich die Programmierung einfacher Vergleichs- und Eingabemasken, die es einem Bearbeiter erlauben, ein nicht erkanntes Wort mit dem Ursprungs-Scan zu vergleichen und den korrekten Text gleich einzutippen. Außerdem ist es hilfreich, die verwendeten Wörterbücher durch eigene Wortlisten zu erweitern, um auch spezifisches Vokabular der arabisch-lateinischen Übersetzungsliteratur sowie der jeweiligen Wissenschaftsdisziplin abzudecken und entsprechend orthographisch zu normalisieren. | ||