Tutorial Anonyme Übersetzer: Unterschied zwischen den Versionen

Aktuelle Version vom 5. September 2017, 12:43 Uhr

Tutorial zur Identifizierung anonymer arabisch-lateinischer Übersetzer

Zusammenstellen eines Textkorpus

Das Forschungsziel ist die Identifizierung anonymer arabisch-lateinischer Übersetzungen im Mittelalter mittels philologischer und computergestützter Methode der Stilanalyse. Zu diesem Zweck muss zuerst ein Korpus von elektronisch durchsuchbaren lateinischen Texten aufgebaut werden. Es ist ratsam, dieses Korpus auf einen arabischen Autor, z.B. Averroes, oder auf eine Fachdisziplin zu beschränken, z.B. auf Philosophie, Astronomie/Astrologie, Medizin, Mathematik, Alchemie/Magie/Weissagung oder Religion. Das ist allerdings nur dann möglich, wenn das Korpus groß genug wird. An der Universität Würzburg wurden ein Averroes-Korpus (Hasse 2010) und zwei Korpora mit Übersetzungen philosophischer und astronomisch/astrologischer des 12. Jahrhunderts aufgebaut (Hasse 2016 und Hasse-Büttner im Druck). Dafür war es von Vorteil, dass mit Burnett 2005 bereits eine Liste philosophischer arabisch-lateinischer Übersetzungen vorliegt, ebenso wie mit Carmody 1956 eine Liste astronomisch-astrologischer Übersetzungen (die allerdings unpräzise und veraltet ist); in anderen Wissenschaftsbereichen müssen solche Listen erst noch erstellt werden.

Die Übersetzungen liegen in sehr unterschiedlichen Textformaten vor: Manche sind kritisch ediert, manche liegen nur in Frühdrucken oder sogar nur in mittelalterlichen Handschriften vor. Das OCR moderner Editionen ist weitgehend unproblematisch. Ein verlässliches OCR von Frühdrucken, wozu der Computer in der Regel die Lettern der Offizin erlernen muss, ist gerade Gegenstand von Forschungen u.a. an der UB Würzburg und am DFKI Kaiserslautern. Es ist zur Zeit aber noch empfehlenswert, einen Frühdruck per Hand transkribieren zu lassen. Bei Handschriften wird die Transkription noch auf lange Zeit die einzig mögliche Methode sein. Für das Transkribieren sollte ein möglichst verlässlicher Textzeuge ausgewählt werden, insbesondere einer, der einen vollständigen und nicht revidierten Text bietet (lateinische Frühdrucke arabischer Autoren sind gelistet bei Hasse, Success and Suppression, 2016, S. 317-407).

Es ist sehr empfehlenswert, die mit OCR erstellten Scans und die Dateien, die durch weitere Verarbeitungen entstehen, systematisch zu trennen und zu katalogisieren, entweder schlicht in verschiedene Unterordner und mit separat geführten Tabellen oder mithilfe eines Wiki-Programms. Dieser Schritt mag selbstverständlich erscheinen, fällt bei der täglichen Arbeit aber leicht unter den Tisch. Dabei gilt es zu unterscheiden zwischen:

der bibliographischen Herkunftsangabe
dem Scan
einem voll durchsuchbaren und zitierbaren Scan
einem um alles nicht-textliche Beiwerk (Seitenzahlen, kritische Apparate etc.) bereinigten Text
einem für die Stilometrie orthographisch normalisierten Text (der z.B. als einfache Textdatei gespeichert ist).

[bearbeiten]

Aufbereitung der Texte für die vergleichende Analyse

Die zitierbare Textform (3) ist für die Stilometrie noch nicht nutzbar, ist aber für viele andere wissenschaftliche Zwecke sehr nützlich. Um Texte stilistisch vergleichen zu können, müssen sie freilich erst vergleichbar gemacht werden. Im Bereich mittellateinischer Editionen sind Zeichensetzung und Orthographie großen Hürden für die Vergleichbarkeit, denn die Zeichensetzung richtet sich nach den nationalen Gepflogenheiten des Herausgebers (deutsche, französische, englische etc.) und sagt kaum etwas über den Autor aus. Die Orthographie wiederum reicht von weitgehend klassizisierten Ausgaben (z.B. Avicenna Latinus) bis zur buchstabengetreuen Wiedergabe der Orthographie einer einzigen mittelalterlichen Handschrift. Diese Hürden lassen sich dadurch nehmen, dass alle Satzzeichen (Punkte, Kommata etc.) radikal entfernt, alle Großbuchstaben in Kleinbuchstaben getauscht und schließlich die Orthographie klassizisiert wird. Die orthographische Klassizisierung ist ein schmerzlicher Schritt für den Mittelalterforscher, aber es gibt keine bessere Alternative. Als erster Schritt ist es zum Beispiel hilfreich, alle Buchstaben v durch u zu ersetzen sowie j durch i.

Die Klassizisierung lässt sich auch durch den Computer unterstützen, indem digitale lateinische Referenzlexika danach befragt werden, ob sie die Wörter der Texte des Korpus erkennen. Der einfachste Ansatz ist dabei der Abgleich mit einer Wortliste lateinischer Formen (siehe zum Beispiel hier oder in der Wortliste des OpenOffice-Wörterbuches, die sich mittels PyEnchant auch in einem Python-Script verwenden lässt) oder die Verwendung eines Morphologie-Programmes, das jedes Wort lemmatisiert, kategorisiert und in einem Wörterbuch nachschlägt. Für letzteres existieren derzeit zwei frei verfügbare Lösungen:

Whitaker’s Words, ein in Ada geschriebenes Analyseprogramm für lateinische Texte.
Morpheus, der Parser des Perseus-Programms.

Beide Programme sind recht komplex und unter Umständen nur mit einigem Aufwand zu kompilieren. Nochmals mehr Aufwand bedeutet es, die Programme mit einem Wrapper in die eigenen Skripte zu integrieren. Als einfachere Alternative, zumindest für Tests in einem begrenzten Rahmen, können auch die als Webservice verfügbaren Varianten (Beispiel) in Anspruch genommen werden. Wenn das Analyseprogramm richtig konfiguriert ist, sollte es einen großen Teil der Wörter aus den Texten als orthographisch korrektes Latein erkennen. Die nicht erkannten Wörter können dann wieder routinemäßig in allen Texten durch schrittweise angepasste Listen von Regeln durch ihre klassischen Pendants ersetzt werden. Sinnvolle Ersetzungsregeln sind zum Beispiel ci/ti, diff/def, ch/c usw., aber auch typische OCR-Fehler wie ic/it, ee/ec, b/h usw.

Für die stilometrische Analyse sollten mindestens 95% der Wörter von den Referenzlexika als korrektes Latein erkannt werden. 100% bleibt dabei natürlich das eigentliche Ziel. Um die Korrektur der lateinischen Texte zu vereinfachen, lohnt sich die Programmierung einfacher Vergleichs- und Eingabemasken, die es einem Bearbeiter erlauben, ein nicht erkanntes Wort mit dem Ursprungs-Scan zu vergleichen und den korrekten Text gleich einzutippen. Außerdem ist es hilfreich, die verwendeten Wörterbücher durch eigene Wortlisten zu erweitern, um auch spezifisches Vokabular der arabisch-lateinischen Übersetzungsliteratur sowie der jeweiligen Wissenschaftsdisziplin abzudecken und entsprechend orthographisch zu normalisieren.

[bearbeiten]

Analyse der Texte

Liegen die Texte des Korpus in derart bereinigten txt-Formaten vor, kann die eigentliche stilometrische Arbeit beginnen. Die Dateien mit den Übersetzungen lassen sich in verschiedene Gruppen sortieren: diejenigen mit unbekannten und diejenigen mit bekannten Übersetzern. Dabei sollte unbedingt der neueste Forschungsstand berücksichtigt werden. Im Zweifelsfall sollte eine Übersetzung lieber als „anonym“ gekennzeichnet werden. In unseren Studien haben wir nur die eindeutigen Übersetzerzuschreibungen, die sich in den Incipits und Kolophonen der Handschriften finden, als verlässlich akzeptiert und alle anderen Texte als anonyme Übersetzungen gekennzeichnet. Dieses Korpus lässt sich nun auf (mindestens) zwei verschiedene Weisen stilometrisch analysieren: Erstens im Hinblick auf ausschließlich von einem bekannten Übersetzer verwendete Wörter und zweitens computergestützt im Hinblick auf die (100, 200 o.ä.) häufigsten Wörter eines Textes. Die erste Methode wurde in Würzburg entwickelt, die zweite basiert auf dem sogenannten Burrows Delta (Burrows 2002):

(I) Exklusive und zugleich häufig verwendete Wörter

Die Erfahrung hat gezeigt, dass anonyme Übersetzer anhand von häufig verwendeten, und fachunspezifischen Wörtern, die exklusiv von einem einzigen bekannten Übersetzer verwendet werden, identifiziert werden können. Dominicus Gundisalvi ist beispielsweise der einzige Übersetzer, der die Partikeln sic ut, vel est, cuius comparatio, opus fuit, id per quod, id autem quod und omnis quod est verwendet, die sich auch in der anonymen Übersetzung Alexander von Aphrodisias‘ De intellectu finden – ein starker Hinweis darauf, dass Gundisalvi Übersetzer dieses Traktats war. Wie kommt man zu diesem Ergebnis? In folgenden zwei Schritten:

Der erste Schritt ist die Suche nach häufigen Termini, die exklusiv nur bei einem einzigen Übersetzer auftauchen. Dazu ist die Programmierung eines einfachen Suchprogramms sehr zu empfehlen. Beim Filtern der Wortlisten helfen flexible Parameter, die eine Mindesthäufigkeit der gesuchten Wörter festlegen oder den Anteil der Texte eines Übersetzers bestimmen, in denen die Wörter jeweils mindestens vorkommen müssen. Um auch Wortgruppen zu analysieren, können die Texte in Listen von n-Grammen, d.h. überlappenden Abfolgen mehrerer Wörter aufgeteilt werden. Damit kann die Menge der für einen Autor exklusiven Wörter auf typische und häufig verwendete Wörter reduziert werden, zum Beispiel auf Wörter, die mindestens 10 mal in den Werken eines Übersetzers und in mindestens 40% seiner Übersetzungen erscheinen. Zum Beispiel erscheint die Wortverbindung iterum quia in 4 der 10 Übersetzungen Gerhards von Cremona, die sich in unserem philosophischen Korpus finden, und dort insgesamt 56 mal. Es handelt sich also um eine zugleich exklusiv und häufig gebrauchte Wortverbindung bei Gerhard von Cremona. Um dem Verdacht auf mögliche Falschzuschreibungen oder die Zusammenarbeit von Übersetzern nachzugehen, kann zudem ein Parameter eingeführt werden, der eine gewisse Anzahl an Fehlern zulässt, d.h. Wörter, die einige Male eben doch auch von anderen Übersetzern verwendet werden.
Aus dieser Liste müssen dann in einem zweiten Schritt per Hand diejenigen Wörter ausgesiebt werden, die Inhaltswörter sind, wie z.B. substantia composita oder horoscopus, die typisch für eine bestimmte Fachdisziplin oder Subdisziplin sind wie Metaphysik oder Astrologie. Übrig bleiben stilistische Wörter in einem weiteren Sinn, d.h. solche Wörter, die sich im Prinzip in allen wissenschaftlichen lateinischen Texten des Zeitraums finden lassen könnten, also nicht nur Konjunktionen oder andere Partikeln, sondern auch Wörter und Wortverbindungen wie examinatio, annullare oder demonstrare voluimus, die nicht fachspezifisch sind. Dieser Fokus ist wichtig, weil die Erfahrung zeigt, dass Inhaltswörter leichter von anderen Übersetzern übernommen werden, während stilistische Wörter und Wortverbindungen stabiler nur bei einem Autor erscheinen.

Anschließend kann man für jeden anonym übersetzten Text des Korpus notieren, welche dieser exklusiven und häufig gebrauchten Wörter der Übersetzer in den anonym übersetzten Texten erscheint. Verbindet sich positive und negative Evidenz – wenn sich also (positiv) eine ganze Reihe von solchen exklusiven Wörter eines Übersetzers in einem anonymen Text findet und gleichzeitig keine (negativ) der exklusiven Wörter der anderen Übersetzer –, dann ist die Zuschreibung eines Textes an den bekannten Übersetzer sehr sicher.

Bei sehr kurzen anonym übersetzten Texten kann es sich lohnen, auch seltenere stilistische Wörter systematisch zu untersuchen, also z.B. solche, die weniger als 10 Mal und in weniger als 40% der Übersetzungen eines Übersetzers erscheinen. Eine solche Analyse muss aber systematisch auch die selteneren Wörter der anderen Übersetzer vergleichen. Die Erfahrung zeigt, dass nur eine Massierung solcher weniger typischen Wörter und Wortverbindungen in einem anonymen Text wirklich eine Übersetzerattribuierung erlaubt.

(II) Computergestützte Stilometrie mit Burrows Delta

Die zweite Methode basiert auf der Idee von John Burrows, dass Autorschaft computergestützt durch den Vergleich der standardisierten relativen Häufigkeiten der most frequent words (MFW) einzelner Texte ermittelt werden kann – ein Verfahren, das sich bei der computergestützten Autorschaftsattribuierung als ausgesprochen erfolgreich herausgestellt hat. Es gibt verschiedene frei im Web zugängliche Implementierungen dieses Verfahrens. Ein nutzerfreundliches Interface wird innerhalb des Stylo-R-Pakets von Maciej Eder und Jan Rybicki angeboten. Wir haben eine eigene Implementierung in Python verwendet, die auf Fotis Jannidis‘ pydelta aufbaut. In der Regel kann man bei solchen Implementierungen zwischen verschiedenen Abstandsmaßen („Deltas“) wählen, also zwischen verschiedenen Methoden, in denen der Computer den Abstand zwischen den Texten berechnet (bzw. genauer: den Abstand zwischen den Listen der Worthäufigkeiten der häufigsten Wörter berechnet). Vergleichsstudien der jüngsten Vergangenheit haben gezeigt, dass ein sehr performantes stilometrische Abstandsmaß das sogenannte „Cosine Delta“ ist. Auch wir haben die besten Ergebnisse mit Cosine Delta erzielt.

In einem ersten Schritt werden nur diejenigen Texte des Korpus analysiert, deren Übersetzer bekannt sind. Die Zahl der häufigsten Wörter, also 100, 200 oder mehr, lässt sich in den meisten Implementierungen einstellen. Wir haben sehr gute Ergebnisse mit den häufigsten 150 Wörtern der Texte erzielt. Jeder Text des Korpus wird intern durch einen Vektor dargestellt, der die standardisierten relativen Häufigkeiten dieser Wörter enthält. Der Abstand zwischen diesen Vektoren wird dann mit Cosine Delta berechnet. Der Computer formt dann Gruppen oder Cluster auf Basis dieser Abstände, die in einem Dendrogramm, einem Baum-Diagramm, visualisiert werden. Mithilfe dieses Verfahrens konnte der Computer im Korpus philosophischer Übersetzungen des 12. Jahrhunderts tatsächlich die Übersetzungen bekannter Übersetzer jeweils in eine Gruppe sortieren: die Gruppe der Übersetzungen des Dominicus Gundisalvi, des Gerhard von Cremona etc. Wenn das gelungen ist, ist die Methode sozusagen kalibriert.

In einem zweiten Schritt werden dann die anonymen Übersetzungen dazu gegeben. Das daraus resultierende Dendrogramm muss sorgfältig interpretiert werden: Bleibt die Gundisalvi-Gruppe (oder Gerhard-Gruppe etc.) des kalibrierten Standards stabil und wird nur um die ein oder andere anonyme Übersetzung erweitert, dann ist es sehr wahrscheinlich, dass diese anonymen Übersetzungen tatsächlich von Gundisalvi produziert wurden. Zerfällt aber die Gundisalvi-Gruppe (oder Gerhard-Gruppe etc.) in mehrere Teilgruppen, die im Dendrogramm nicht mehr verbunden sind, gelingt dem Computer offensichtlich die Zuweisung der anonymen Übersetzung nicht.

Bei unseren Versuchen zeigte aber erfreulicherweise, dass die Ergebnisse der Methode 1 (Exklusive Wörter) mit den Ergebnissen der Methode 2 (MFW) weitgehend übereinstimmten, zumindest beim philosophischen Korpus. Das astronomisch-astrologische Korpus ist für die Methode 2 allerdings noch nicht groß genug.

@@ Zeile 17: / Zeile 17: @@
 Die zitierbare Textform (3) ist für die Stilometrie noch nicht nutzbar, ist aber für viele andere wissenschaftliche Zwecke sehr nützlich. Um Texte stilistisch vergleichen zu können, müssen sie freilich erst vergleichbar gemacht werden. Im Bereich mittellateinischer Editionen sind Zeichensetzung und Orthographie großen Hürden für die Vergleichbarkeit, denn die Zeichensetzung richtet sich nach den nationalen Gepflogenheiten des Herausgebers (deutsche, französische, englische etc.) und sagt kaum etwas über den Autor aus. Die Orthographie wiederum reicht von weitgehend klassizisierten Ausgaben (z.B. Avicenna Latinus) bis zur buchstabengetreuen Wiedergabe der Orthographie einer einzigen mittelalterlichen Handschrift. Diese Hürden lassen sich dadurch nehmen, dass alle Satzzeichen (Punkte, Kommata etc.) radikal entfernt, alle Großbuchstaben in Kleinbuchstaben getauscht und schließlich die Orthographie klassizisiert wird. Die orthographische Klassizisierung ist ein schmerzlicher Schritt für den Mittelalterforscher, aber es gibt keine bessere Alternative. Als erster Schritt ist es zum Beispiel hilfreich, alle Buchstaben v durch u zu ersetzen sowie j durch i.
-Die Klassizisierung lässt sich auch durch den Computer unterstützen, indem digitale lateinische Referenzlexika danach befragt werden, ob sie die Wörter der Texte des Korpus erkennen. Der einfachste Ansatz ist dabei der Abglich mit einer Wortliste lateinischer Formen (siehe zum Beispiel '''[https://github.com/cisocrgroup/Resources/tree/master/lexica/latin hier]''' oder in der Wortliste des '''[http://extensions.openoffice.org/en/project/latin-spelling-and-hyphenation-dictionaries  OpenOffice-Wörterbuches]''', die sich mittels PyEnchant auch in einem Python-Script verwenden lässt) oder die Verwendung eines Morphologie-Programmes, das jedes Wort lemmatisiert, kategorisiert und in einem Wörterbuch nachschlägt. Für letzteres existieren derzeit zwei frei verfügbare Lösungen:
+Die Klassizisierung lässt sich auch durch den Computer unterstützen, indem digitale lateinische Referenzlexika danach befragt werden, ob sie die Wörter der Texte des Korpus erkennen. Der einfachste Ansatz ist dabei der Abgleich mit einer Wortliste lateinischer Formen (siehe zum Beispiel '''[https://github.com/cisocrgroup/Resources/tree/master/lexica/latin hier]''' oder in der Wortliste des '''[http://extensions.openoffice.org/en/project/latin-spelling-and-hyphenation-dictionaries  OpenOffice-Wörterbuches]''', die sich mittels PyEnchant auch in einem Python-Script verwenden lässt) oder die Verwendung eines Morphologie-Programmes, das jedes Wort lemmatisiert, kategorisiert und in einem Wörterbuch nachschlägt. Für letzteres existieren derzeit zwei frei verfügbare Lösungen:
 #'''[http://mk270.github.io/whitakers-words/ Whitaker’s Words]''', ein in Ada geschriebenes Analyseprogramm für lateinische Texte.
-#'''[https://github.com/PerseusDL/morpheus Morpheus]''', der Parser des Perseus-Programms. Beide Programme sind recht komplex und unter Umständen nur mit einigem Aufwand zu kompilieren. Nochmals mehr Aufwand bedeutet es, die Programme mit einem Wrapper in die eigenen Skripte zu integrieren. Als einfachere Alternative, zumindest für Tests in einem begrenzten Rahmen, können auch die als Webservice verfügbaren Varianten ([http://services.perseids.org/bsp/morphologyservice/analysis/word?lang=lat&engine=morpheuslat&word=et  Beispiel]) in Anspruch genommen werden.  Wenn das Analyseprogramm richtig konfiguriert ist, sollte es einen großen Teil der Wörter aus den Texten als orthographisch korrektes Latein erkennen. Die nicht erkannten Wörter können dann wieder routinemäßig in allen Texten durch schrittweise angepasste Listen von Regeln durch ihre klassischen Pendants ersetzt werden. Sinnvolle Ersetzungsregeln sind zum Beispiel ci/ti, diff/def, ch/c usw., aber auch typische OCR-Fehler wie ic/it, ee/ec, b/h usw.
+#'''[https://github.com/PerseusDL/morpheus Morpheus]''', der Parser des Perseus-Programms.
+Beide Programme sind recht komplex und unter Umständen nur mit einigem Aufwand zu kompilieren. Nochmals mehr Aufwand bedeutet es, die Programme mit einem Wrapper in die eigenen Skripte zu integrieren. Als einfachere Alternative, zumindest für Tests in einem begrenzten Rahmen, können auch die als Webservice verfügbaren Varianten ([http://services.perseids.org/bsp/morphologyservice/analysis/word?lang=lat&engine=morpheuslat&word=et  Beispiel]) in Anspruch genommen werden.  Wenn das Analyseprogramm richtig konfiguriert ist, sollte es einen großen Teil der Wörter aus den Texten als orthographisch korrektes Latein erkennen. Die nicht erkannten Wörter können dann wieder routinemäßig in allen Texten durch schrittweise angepasste Listen von Regeln durch ihre klassischen Pendants ersetzt werden. Sinnvolle Ersetzungsregeln sind zum Beispiel ci/ti, diff/def, ch/c usw., aber auch typische OCR-Fehler wie ic/it, ee/ec, b/h usw.
 Für die stilometrische Analyse sollten mindestens 95% der Wörter von den Referenzlexika als korrektes Latein erkannt werden. 100% bleibt dabei natürlich das eigentliche Ziel. Um die Korrektur der lateinischen Texte zu vereinfachen, lohnt sich die Programmierung einfacher Vergleichs- und Eingabemasken, die es einem Bearbeiter erlauben, ein nicht erkanntes Wort mit dem Ursprungs-Scan zu vergleichen und den korrekten Text gleich einzutippen. Außerdem ist es hilfreich, die verwendeten Wörterbücher durch eigene Wortlisten zu erweitern, um auch spezifisches Vokabular der arabisch-lateinischen Übersetzungsliteratur sowie der jeweiligen Wissenschaftsdisziplin abzudecken und entsprechend orthographisch zu normalisieren.