Tutorial Anonyme Übersetzer: Unterschied zwischen den Versionen
Aus Kallimachos
Keine Bearbeitungszusammenfassung |
|||
| Zeile 17: | Zeile 17: | ||
Die zitierbare Textform (3) ist für die Stilometrie noch nicht nutzbar, ist aber für viele andere wissenschaftliche Zwecke sehr nützlich. Um Texte stilistisch vergleichen zu können, müssen sie freilich erst vergleichbar gemacht werden. Im Bereich mittellateinischer Editionen sind Zeichensetzung und Orthographie großen Hürden für die Vergleichbarkeit, denn die Zeichensetzung richtet sich nach den nationalen Gepflogenheiten des Herausgebers (deutsche, französische, englische etc.) und sagt kaum etwas über den Autor aus. Die Orthographie wiederum reicht von weitgehend klassizisierten Ausgaben (z.B. Avicenna Latinus) bis zur buchstabengetreuen Wiedergabe der Orthographie einer einzigen mittelalterlichen Handschrift. Diese Hürden lassen sich dadurch nehmen, dass alle Satzzeichen (Punkte, Kommata etc.) radikal entfernt, alle Großbuchstaben in Kleinbuchstaben getauscht und schließlich die Orthographie klassizisiert wird. Die orthographische Klassizisierung ist ein schmerzlicher Schritt für den Mittelalterforscher, aber es gibt keine bessere Alternative. Als erster Schritt ist es zum Beispiel hilfreich, alle Buchstaben v durch u zu ersetzen sowie j durch i. | Die zitierbare Textform (3) ist für die Stilometrie noch nicht nutzbar, ist aber für viele andere wissenschaftliche Zwecke sehr nützlich. Um Texte stilistisch vergleichen zu können, müssen sie freilich erst vergleichbar gemacht werden. Im Bereich mittellateinischer Editionen sind Zeichensetzung und Orthographie großen Hürden für die Vergleichbarkeit, denn die Zeichensetzung richtet sich nach den nationalen Gepflogenheiten des Herausgebers (deutsche, französische, englische etc.) und sagt kaum etwas über den Autor aus. Die Orthographie wiederum reicht von weitgehend klassizisierten Ausgaben (z.B. Avicenna Latinus) bis zur buchstabengetreuen Wiedergabe der Orthographie einer einzigen mittelalterlichen Handschrift. Diese Hürden lassen sich dadurch nehmen, dass alle Satzzeichen (Punkte, Kommata etc.) radikal entfernt, alle Großbuchstaben in Kleinbuchstaben getauscht und schließlich die Orthographie klassizisiert wird. Die orthographische Klassizisierung ist ein schmerzlicher Schritt für den Mittelalterforscher, aber es gibt keine bessere Alternative. Als erster Schritt ist es zum Beispiel hilfreich, alle Buchstaben v durch u zu ersetzen sowie j durch i. | ||
Die Klassizisierung lässt sich auch durch den Computer unterstützen, indem digitale lateinische Referenzlexika danach befragt werden, ob sie die Wörter der Texte des Korpus erkennen. Der einfachste Ansatz ist dabei der | Die Klassizisierung lässt sich auch durch den Computer unterstützen, indem digitale lateinische Referenzlexika danach befragt werden, ob sie die Wörter der Texte des Korpus erkennen. Der einfachste Ansatz ist dabei der Abgleich mit einer Wortliste lateinischer Formen (siehe zum Beispiel '''[https://github.com/cisocrgroup/Resources/tree/master/lexica/latin hier]''' oder in der Wortliste des '''[http://extensions.openoffice.org/en/project/latin-spelling-and-hyphenation-dictionaries OpenOffice-Wörterbuches]''', die sich mittels PyEnchant auch in einem Python-Script verwenden lässt) oder die Verwendung eines Morphologie-Programmes, das jedes Wort lemmatisiert, kategorisiert und in einem Wörterbuch nachschlägt. Für letzteres existieren derzeit zwei frei verfügbare Lösungen: | ||
#'''[http://mk270.github.io/whitakers-words/ Whitaker’s Words]''', ein in Ada geschriebenes Analyseprogramm für lateinische Texte. | #'''[http://mk270.github.io/whitakers-words/ Whitaker’s Words]''', ein in Ada geschriebenes Analyseprogramm für lateinische Texte. | ||
#'''[https://github.com/PerseusDL/morpheus Morpheus]''', der Parser des Perseus-Programms. Beide Programme sind recht komplex und unter Umständen nur mit einigem Aufwand zu kompilieren. Nochmals mehr Aufwand bedeutet es, die Programme mit einem Wrapper in die eigenen Skripte zu integrieren. Als einfachere Alternative, zumindest für Tests in einem begrenzten Rahmen, können auch die als Webservice verfügbaren Varianten ([http://services.perseids.org/bsp/morphologyservice/analysis/word?lang=lat&engine=morpheuslat&word=et Beispiel]) in Anspruch genommen werden. Wenn das Analyseprogramm richtig konfiguriert ist, sollte es einen großen Teil der Wörter aus den Texten als orthographisch korrektes Latein erkennen. Die nicht erkannten Wörter können dann wieder routinemäßig in allen Texten durch schrittweise angepasste Listen von Regeln durch ihre klassischen Pendants ersetzt werden. Sinnvolle Ersetzungsregeln sind zum Beispiel ci/ti, diff/def, ch/c usw., aber auch typische OCR-Fehler wie ic/it, ee/ec, b/h usw. | #'''[https://github.com/PerseusDL/morpheus Morpheus]''', der Parser des Perseus-Programms. Beide Programme sind recht komplex und unter Umständen nur mit einigem Aufwand zu kompilieren. Nochmals mehr Aufwand bedeutet es, die Programme mit einem Wrapper in die eigenen Skripte zu integrieren. Als einfachere Alternative, zumindest für Tests in einem begrenzten Rahmen, können auch die als Webservice verfügbaren Varianten ([http://services.perseids.org/bsp/morphologyservice/analysis/word?lang=lat&engine=morpheuslat&word=et Beispiel]) in Anspruch genommen werden. Wenn das Analyseprogramm richtig konfiguriert ist, sollte es einen großen Teil der Wörter aus den Texten als orthographisch korrektes Latein erkennen. Die nicht erkannten Wörter können dann wieder routinemäßig in allen Texten durch schrittweise angepasste Listen von Regeln durch ihre klassischen Pendants ersetzt werden. Sinnvolle Ersetzungsregeln sind zum Beispiel ci/ti, diff/def, ch/c usw., aber auch typische OCR-Fehler wie ic/it, ee/ec, b/h usw. | ||