Tutorial Anonyme Übersetzer: Unterschied zwischen den Versionen
Aus Kallimachos
Keine Bearbeitungszusammenfassung |
|||
| (2 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt) | |||
| Zeile 17: | Zeile 17: | ||
Die zitierbare Textform (3) ist für die Stilometrie noch nicht nutzbar, ist aber für viele andere wissenschaftliche Zwecke sehr nützlich. Um Texte stilistisch vergleichen zu können, müssen sie freilich erst vergleichbar gemacht werden. Im Bereich mittellateinischer Editionen sind Zeichensetzung und Orthographie großen Hürden für die Vergleichbarkeit, denn die Zeichensetzung richtet sich nach den nationalen Gepflogenheiten des Herausgebers (deutsche, französische, englische etc.) und sagt kaum etwas über den Autor aus. Die Orthographie wiederum reicht von weitgehend klassizisierten Ausgaben (z.B. Avicenna Latinus) bis zur buchstabengetreuen Wiedergabe der Orthographie einer einzigen mittelalterlichen Handschrift. Diese Hürden lassen sich dadurch nehmen, dass alle Satzzeichen (Punkte, Kommata etc.) radikal entfernt, alle Großbuchstaben in Kleinbuchstaben getauscht und schließlich die Orthographie klassizisiert wird. Die orthographische Klassizisierung ist ein schmerzlicher Schritt für den Mittelalterforscher, aber es gibt keine bessere Alternative. Als erster Schritt ist es zum Beispiel hilfreich, alle Buchstaben v durch u zu ersetzen sowie j durch i. | Die zitierbare Textform (3) ist für die Stilometrie noch nicht nutzbar, ist aber für viele andere wissenschaftliche Zwecke sehr nützlich. Um Texte stilistisch vergleichen zu können, müssen sie freilich erst vergleichbar gemacht werden. Im Bereich mittellateinischer Editionen sind Zeichensetzung und Orthographie großen Hürden für die Vergleichbarkeit, denn die Zeichensetzung richtet sich nach den nationalen Gepflogenheiten des Herausgebers (deutsche, französische, englische etc.) und sagt kaum etwas über den Autor aus. Die Orthographie wiederum reicht von weitgehend klassizisierten Ausgaben (z.B. Avicenna Latinus) bis zur buchstabengetreuen Wiedergabe der Orthographie einer einzigen mittelalterlichen Handschrift. Diese Hürden lassen sich dadurch nehmen, dass alle Satzzeichen (Punkte, Kommata etc.) radikal entfernt, alle Großbuchstaben in Kleinbuchstaben getauscht und schließlich die Orthographie klassizisiert wird. Die orthographische Klassizisierung ist ein schmerzlicher Schritt für den Mittelalterforscher, aber es gibt keine bessere Alternative. Als erster Schritt ist es zum Beispiel hilfreich, alle Buchstaben v durch u zu ersetzen sowie j durch i. | ||
Die Klassizisierung lässt sich auch durch den Computer unterstützen, indem digitale lateinische Referenzlexika danach befragt werden, ob sie die Wörter der Texte des Korpus erkennen. Der einfachste Ansatz ist dabei der | Die Klassizisierung lässt sich auch durch den Computer unterstützen, indem digitale lateinische Referenzlexika danach befragt werden, ob sie die Wörter der Texte des Korpus erkennen. Der einfachste Ansatz ist dabei der Abgleich mit einer Wortliste lateinischer Formen (siehe zum Beispiel '''[https://github.com/cisocrgroup/Resources/tree/master/lexica/latin hier]''' oder in der Wortliste des '''[http://extensions.openoffice.org/en/project/latin-spelling-and-hyphenation-dictionaries OpenOffice-Wörterbuches]''', die sich mittels PyEnchant auch in einem Python-Script verwenden lässt) oder die Verwendung eines Morphologie-Programmes, das jedes Wort lemmatisiert, kategorisiert und in einem Wörterbuch nachschlägt. Für letzteres existieren derzeit zwei frei verfügbare Lösungen: | ||
#'''[http://mk270.github.io/whitakers-words/ Whitaker’s Words]''', ein in Ada geschriebenes Analyseprogramm für lateinische Texte. | #'''[http://mk270.github.io/whitakers-words/ Whitaker’s Words]''', ein in Ada geschriebenes Analyseprogramm für lateinische Texte. | ||
#'''[https://github.com/PerseusDL/morpheus Morpheus]''', der Parser des Perseus-Programms | #'''[https://github.com/PerseusDL/morpheus Morpheus]''', der Parser des Perseus-Programms. | ||
Beide Programme sind recht komplex und unter Umständen nur mit einigem Aufwand zu kompilieren. Nochmals mehr Aufwand bedeutet es, die Programme mit einem Wrapper in die eigenen Skripte zu integrieren. Als einfachere Alternative, zumindest für Tests in einem begrenzten Rahmen, können auch die als Webservice verfügbaren Varianten ([http://services.perseids.org/bsp/morphologyservice/analysis/word?lang=lat&engine=morpheuslat&word=et Beispiel]) in Anspruch genommen werden. Wenn das Analyseprogramm richtig konfiguriert ist, sollte es einen großen Teil der Wörter aus den Texten als orthographisch korrektes Latein erkennen. Die nicht erkannten Wörter können dann wieder routinemäßig in allen Texten durch schrittweise angepasste Listen von Regeln durch ihre klassischen Pendants ersetzt werden. Sinnvolle Ersetzungsregeln sind zum Beispiel ci/ti, diff/def, ch/c usw., aber auch typische OCR-Fehler wie ic/it, ee/ec, b/h usw. | |||
Für die stilometrische Analyse sollten mindestens 95% der Wörter von den Referenzlexika als korrektes Latein erkannt werden. 100% bleibt dabei natürlich das eigentliche Ziel. Um die Korrektur der lateinischen Texte zu vereinfachen, lohnt sich die Programmierung einfacher Vergleichs- und Eingabemasken, die es einem Bearbeiter erlauben, ein nicht erkanntes Wort mit dem Ursprungs-Scan zu vergleichen und den korrekten Text gleich einzutippen. Außerdem ist es hilfreich, die verwendeten Wörterbücher durch eigene Wortlisten zu erweitern, um auch spezifisches Vokabular der arabisch-lateinischen Übersetzungsliteratur sowie der jeweiligen Wissenschaftsdisziplin abzudecken und entsprechend orthographisch zu normalisieren. | Für die stilometrische Analyse sollten mindestens 95% der Wörter von den Referenzlexika als korrektes Latein erkannt werden. 100% bleibt dabei natürlich das eigentliche Ziel. Um die Korrektur der lateinischen Texte zu vereinfachen, lohnt sich die Programmierung einfacher Vergleichs- und Eingabemasken, die es einem Bearbeiter erlauben, ein nicht erkanntes Wort mit dem Ursprungs-Scan zu vergleichen und den korrekten Text gleich einzutippen. Außerdem ist es hilfreich, die verwendeten Wörterbücher durch eigene Wortlisten zu erweitern, um auch spezifisches Vokabular der arabisch-lateinischen Übersetzungsliteratur sowie der jeweiligen Wissenschaftsdisziplin abzudecken und entsprechend orthographisch zu normalisieren. | ||