Tutorial Anonyme Übersetzer: Unterschied zwischen den Versionen
Aus Kallimachos
Keine Bearbeitungszusammenfassung |
|||
| (7 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt) | |||
| Zeile 1: | Zeile 1: | ||
=Korpusbildung= | =Korpusbildung= | ||
==Tutorial zur Identifizierung anonymer arabisch-lateinischer Übersetzer== | ==Tutorial zur Identifizierung anonymer arabisch-lateinischer Übersetzer== | ||
[[File:TranslatorMainImage.png | | [[File:TranslatorMainImage.png | 600px |link= | alt=typische Wörter für Dominicus Gundisalvi als Wordcloud]] | ||
===Zusammenstellen eines Textkorpus=== | ===Zusammenstellen eines Textkorpus=== | ||
Das Forschungsziel ist die Identifizierung anonymer arabisch-lateinischer Übersetzungen im Mittelalter mittels philologischer und computergestützter Methode der Stilanalyse. Zu diesem Zweck muss zuerst ein Korpus von elektronisch durchsuchbaren lateinischen Texten aufgebaut werden. Es ist ratsam, dieses Korpus auf einen arabischen Autor, z.B. Averroes, oder auf eine Fachdisziplin zu beschränken, z.B. auf Philosophie, Astronomie/Astrologie, Medizin, Mathematik, Alchemie/Magie/Weissagung oder Religion. Das ist allerdings nur dann möglich, wenn das Korpus groß genug wird. An der Universität Würzburg wurden ein Averroes-Korpus (Hasse 2010) und zwei Korpora mit Übersetzungen philosophischer und astronomisch/astrologischer des 12. Jahrhunderts aufgebaut (Hasse 2016 und Hasse-Büttner im Druck). Dafür war es von Vorteil, dass mit Burnett 2005 bereits eine Liste philosophischer arabisch-lateinischer Übersetzungen vorliegt, ebenso wie mit Carmody 1956 eine Liste astronomisch-astrologischer Übersetzungen (die allerdings unpräzise und veraltet ist); in anderen Wissenschaftsbereichen müssen solche Listen erst noch erstellt werden. | Das Forschungsziel ist die Identifizierung anonymer arabisch-lateinischer Übersetzungen im Mittelalter mittels philologischer und computergestützter Methode der Stilanalyse. Zu diesem Zweck muss zuerst ein Korpus von elektronisch durchsuchbaren lateinischen Texten aufgebaut werden. Es ist ratsam, dieses Korpus auf einen arabischen Autor, z.B. Averroes, oder auf eine Fachdisziplin zu beschränken, z.B. auf Philosophie, Astronomie/Astrologie, Medizin, Mathematik, Alchemie/Magie/Weissagung oder Religion. Das ist allerdings nur dann möglich, wenn das Korpus groß genug wird. An der Universität Würzburg wurden ein Averroes-Korpus (Hasse 2010) und zwei Korpora mit Übersetzungen philosophischer und astronomisch/astrologischer des 12. Jahrhunderts aufgebaut (Hasse 2016 und Hasse-Büttner im Druck). Dafür war es von Vorteil, dass mit Burnett 2005 bereits eine Liste philosophischer arabisch-lateinischer Übersetzungen vorliegt, ebenso wie mit Carmody 1956 eine Liste astronomisch-astrologischer Übersetzungen (die allerdings unpräzise und veraltet ist); in anderen Wissenschaftsbereichen müssen solche Listen erst noch erstellt werden. | ||
| Zeile 17: | Zeile 17: | ||
Die zitierbare Textform (3) ist für die Stilometrie noch nicht nutzbar, ist aber für viele andere wissenschaftliche Zwecke sehr nützlich. Um Texte stilistisch vergleichen zu können, müssen sie freilich erst vergleichbar gemacht werden. Im Bereich mittellateinischer Editionen sind Zeichensetzung und Orthographie großen Hürden für die Vergleichbarkeit, denn die Zeichensetzung richtet sich nach den nationalen Gepflogenheiten des Herausgebers (deutsche, französische, englische etc.) und sagt kaum etwas über den Autor aus. Die Orthographie wiederum reicht von weitgehend klassizisierten Ausgaben (z.B. Avicenna Latinus) bis zur buchstabengetreuen Wiedergabe der Orthographie einer einzigen mittelalterlichen Handschrift. Diese Hürden lassen sich dadurch nehmen, dass alle Satzzeichen (Punkte, Kommata etc.) radikal entfernt, alle Großbuchstaben in Kleinbuchstaben getauscht und schließlich die Orthographie klassizisiert wird. Die orthographische Klassizisierung ist ein schmerzlicher Schritt für den Mittelalterforscher, aber es gibt keine bessere Alternative. Als erster Schritt ist es zum Beispiel hilfreich, alle Buchstaben v durch u zu ersetzen sowie j durch i. | Die zitierbare Textform (3) ist für die Stilometrie noch nicht nutzbar, ist aber für viele andere wissenschaftliche Zwecke sehr nützlich. Um Texte stilistisch vergleichen zu können, müssen sie freilich erst vergleichbar gemacht werden. Im Bereich mittellateinischer Editionen sind Zeichensetzung und Orthographie großen Hürden für die Vergleichbarkeit, denn die Zeichensetzung richtet sich nach den nationalen Gepflogenheiten des Herausgebers (deutsche, französische, englische etc.) und sagt kaum etwas über den Autor aus. Die Orthographie wiederum reicht von weitgehend klassizisierten Ausgaben (z.B. Avicenna Latinus) bis zur buchstabengetreuen Wiedergabe der Orthographie einer einzigen mittelalterlichen Handschrift. Diese Hürden lassen sich dadurch nehmen, dass alle Satzzeichen (Punkte, Kommata etc.) radikal entfernt, alle Großbuchstaben in Kleinbuchstaben getauscht und schließlich die Orthographie klassizisiert wird. Die orthographische Klassizisierung ist ein schmerzlicher Schritt für den Mittelalterforscher, aber es gibt keine bessere Alternative. Als erster Schritt ist es zum Beispiel hilfreich, alle Buchstaben v durch u zu ersetzen sowie j durch i. | ||
Die Klassizisierung lässt sich auch durch den Computer unterstützen, indem digitale lateinische Referenzlexika danach befragt werden, ob sie die Wörter der Texte des Korpus erkennen. Der einfachste Ansatz ist dabei der | Die Klassizisierung lässt sich auch durch den Computer unterstützen, indem digitale lateinische Referenzlexika danach befragt werden, ob sie die Wörter der Texte des Korpus erkennen. Der einfachste Ansatz ist dabei der Abgleich mit einer Wortliste lateinischer Formen (siehe zum Beispiel '''[https://github.com/cisocrgroup/Resources/tree/master/lexica/latin hier]''' oder in der Wortliste des '''[http://extensions.openoffice.org/en/project/latin-spelling-and-hyphenation-dictionaries OpenOffice-Wörterbuches]''', die sich mittels PyEnchant auch in einem Python-Script verwenden lässt) oder die Verwendung eines Morphologie-Programmes, das jedes Wort lemmatisiert, kategorisiert und in einem Wörterbuch nachschlägt. Für letzteres existieren derzeit zwei frei verfügbare Lösungen: | ||
#'''[http://mk270.github.io/whitakers-words/ Whitaker’s Words]''', ein in Ada geschriebenes Analyseprogramm für lateinische Texte. | #'''[http://mk270.github.io/whitakers-words/ Whitaker’s Words]''', ein in Ada geschriebenes Analyseprogramm für lateinische Texte. | ||
#'''[https://github.com/PerseusDL/morpheus Morpheus]''', der Parser des Perseus-Programms. Beide Programme sind recht komplex und unter Umständen nur mit einigem Aufwand zu kompilieren. Nochmals mehr Aufwand bedeutet es, die Programme mit einem Wrapper in die eigenen Skripte zu integrieren. Als einfachere Alternative, zumindest für Tests in einem begrenzten Rahmen, können auch die als Webservice verfügbaren Varianten ([http://services.perseids.org/bsp/morphologyservice/analysis/word?lang=lat&engine=morpheuslat&word=et Beispiel]) in Anspruch genommen werden. Wenn das Analyseprogramm richtig konfiguriert ist, sollte es einen großen Teil der Wörter aus den Texten als orthographisch korrektes Latein erkennen. Die nicht erkannten Wörter können dann wieder routinemäßig in allen Texten durch schrittweise angepasste Listen von Regeln durch ihre klassischen Pendants ersetzt werden. Sinnvolle Ersetzungsregeln sind zum Beispiel ci/ti, diff/def, ch/c usw., aber auch typische OCR-Fehler wie ic/it, ee/ec, b/h usw. | #'''[https://github.com/PerseusDL/morpheus Morpheus]''', der Parser des Perseus-Programms. | ||
Beide Programme sind recht komplex und unter Umständen nur mit einigem Aufwand zu kompilieren. Nochmals mehr Aufwand bedeutet es, die Programme mit einem Wrapper in die eigenen Skripte zu integrieren. Als einfachere Alternative, zumindest für Tests in einem begrenzten Rahmen, können auch die als Webservice verfügbaren Varianten ([http://services.perseids.org/bsp/morphologyservice/analysis/word?lang=lat&engine=morpheuslat&word=et Beispiel]) in Anspruch genommen werden. Wenn das Analyseprogramm richtig konfiguriert ist, sollte es einen großen Teil der Wörter aus den Texten als orthographisch korrektes Latein erkennen. Die nicht erkannten Wörter können dann wieder routinemäßig in allen Texten durch schrittweise angepasste Listen von Regeln durch ihre klassischen Pendants ersetzt werden. Sinnvolle Ersetzungsregeln sind zum Beispiel ci/ti, diff/def, ch/c usw., aber auch typische OCR-Fehler wie ic/it, ee/ec, b/h usw. | |||
Für die stilometrische Analyse sollten mindestens 95% der Wörter von den Referenzlexika als korrektes Latein erkannt werden. 100% bleibt dabei natürlich das eigentliche Ziel. Um die Korrektur der lateinischen Texte zu vereinfachen, lohnt sich die Programmierung einfacher Vergleichs- und Eingabemasken, die es einem Bearbeiter erlauben, ein nicht erkanntes Wort mit dem Ursprungs-Scan zu vergleichen und den korrekten Text gleich einzutippen. Außerdem ist es hilfreich, die verwendeten Wörterbücher durch eigene Wortlisten zu erweitern, um auch spezifisches Vokabular der arabisch-lateinischen Übersetzungsliteratur sowie der jeweiligen Wissenschaftsdisziplin abzudecken und entsprechend orthographisch zu normalisieren. | Für die stilometrische Analyse sollten mindestens 95% der Wörter von den Referenzlexika als korrektes Latein erkannt werden. 100% bleibt dabei natürlich das eigentliche Ziel. Um die Korrektur der lateinischen Texte zu vereinfachen, lohnt sich die Programmierung einfacher Vergleichs- und Eingabemasken, die es einem Bearbeiter erlauben, ein nicht erkanntes Wort mit dem Ursprungs-Scan zu vergleichen und den korrekten Text gleich einzutippen. Außerdem ist es hilfreich, die verwendeten Wörterbücher durch eigene Wortlisten zu erweitern, um auch spezifisches Vokabular der arabisch-lateinischen Übersetzungsliteratur sowie der jeweiligen Wissenschaftsdisziplin abzudecken und entsprechend orthographisch zu normalisieren. | ||
| Zeile 46: | Zeile 49: | ||
Bei unseren Versuchen zeigte aber erfreulicherweise, dass die Ergebnisse der Methode 1 (Exklusive Wörter) mit den Ergebnissen der Methode 2 (MFW) weitgehend übereinstimmten, zumindest beim philosophischen Korpus. Das astronomisch-astrologische Korpus ist für die Methode 2 allerdings noch nicht groß genug. | Bei unseren Versuchen zeigte aber erfreulicherweise, dass die Ergebnisse der Methode 1 (Exklusive Wörter) mit den Ergebnissen der Methode 2 (MFW) weitgehend übereinstimmten, zumindest beim philosophischen Korpus. Das astronomisch-astrologische Korpus ist für die Methode 2 allerdings noch nicht groß genug. | ||
<headertabs /> | <headertabs /> | ||
{{Sprachauswahl|Tutorial for identification of anonymous arabic-latin translators (en)|Tutorial_Anonyme_Übersetzer}} | |||