Tutorial Anonyme Übersetzer: Unterschied zwischen den Versionen
Aus Kallimachos
| Zeile 19: | Zeile 19: | ||
Die Klassizisierung lässt sich auch durch den Computer unterstützen, indem digitale lateinische Referenzlexika danach befragt werden, ob sie die Wörter der Texte des Korpus erkennen. Der einfachste Ansatz ist dabei der Abgleich mit einer Wortliste lateinischer Formen (siehe zum Beispiel '''[https://github.com/cisocrgroup/Resources/tree/master/lexica/latin hier]''' oder in der Wortliste des '''[http://extensions.openoffice.org/en/project/latin-spelling-and-hyphenation-dictionaries OpenOffice-Wörterbuches]''', die sich mittels PyEnchant auch in einem Python-Script verwenden lässt) oder die Verwendung eines Morphologie-Programmes, das jedes Wort lemmatisiert, kategorisiert und in einem Wörterbuch nachschlägt. Für letzteres existieren derzeit zwei frei verfügbare Lösungen: | Die Klassizisierung lässt sich auch durch den Computer unterstützen, indem digitale lateinische Referenzlexika danach befragt werden, ob sie die Wörter der Texte des Korpus erkennen. Der einfachste Ansatz ist dabei der Abgleich mit einer Wortliste lateinischer Formen (siehe zum Beispiel '''[https://github.com/cisocrgroup/Resources/tree/master/lexica/latin hier]''' oder in der Wortliste des '''[http://extensions.openoffice.org/en/project/latin-spelling-and-hyphenation-dictionaries OpenOffice-Wörterbuches]''', die sich mittels PyEnchant auch in einem Python-Script verwenden lässt) oder die Verwendung eines Morphologie-Programmes, das jedes Wort lemmatisiert, kategorisiert und in einem Wörterbuch nachschlägt. Für letzteres existieren derzeit zwei frei verfügbare Lösungen: | ||
#'''[http://mk270.github.io/whitakers-words/ Whitaker’s Words]''', ein in Ada geschriebenes Analyseprogramm für lateinische Texte. | #'''[http://mk270.github.io/whitakers-words/ Whitaker’s Words]''', ein in Ada geschriebenes Analyseprogramm für lateinische Texte. | ||
#'''[https://github.com/PerseusDL/morpheus Morpheus]''', der Parser des Perseus-Programms. Beide Programme sind recht komplex und unter Umständen nur mit einigem Aufwand zu kompilieren. Nochmals mehr Aufwand bedeutet es, die Programme mit einem Wrapper in die eigenen Skripte zu integrieren. Als einfachere Alternative, zumindest für Tests in einem begrenzten Rahmen, können auch die als Webservice verfügbaren Varianten ([http://services.perseids.org/bsp/morphologyservice/analysis/word?lang=lat&engine=morpheuslat&word=et Beispiel]) in Anspruch genommen werden. Wenn das Analyseprogramm richtig konfiguriert ist, sollte es einen großen Teil der Wörter aus den Texten als orthographisch korrektes Latein erkennen. Die nicht erkannten Wörter können dann wieder routinemäßig in allen Texten durch schrittweise angepasste Listen von Regeln durch ihre klassischen Pendants ersetzt werden. Sinnvolle Ersetzungsregeln sind zum Beispiel ci/ti, diff/def, ch/c usw., aber auch typische OCR-Fehler wie ic/it, ee/ec, b/h usw. | #'''[https://github.com/PerseusDL/morpheus Morpheus]''', der Parser des Perseus-Programms. | ||
Beide Programme sind recht komplex und unter Umständen nur mit einigem Aufwand zu kompilieren. Nochmals mehr Aufwand bedeutet es, die Programme mit einem Wrapper in die eigenen Skripte zu integrieren. Als einfachere Alternative, zumindest für Tests in einem begrenzten Rahmen, können auch die als Webservice verfügbaren Varianten ([http://services.perseids.org/bsp/morphologyservice/analysis/word?lang=lat&engine=morpheuslat&word=et Beispiel]) in Anspruch genommen werden. Wenn das Analyseprogramm richtig konfiguriert ist, sollte es einen großen Teil der Wörter aus den Texten als orthographisch korrektes Latein erkennen. Die nicht erkannten Wörter können dann wieder routinemäßig in allen Texten durch schrittweise angepasste Listen von Regeln durch ihre klassischen Pendants ersetzt werden. Sinnvolle Ersetzungsregeln sind zum Beispiel ci/ti, diff/def, ch/c usw., aber auch typische OCR-Fehler wie ic/it, ee/ec, b/h usw. | |||