Tutorial anonymus translators (en): Unterschied zwischen den Versionen

Aus Kallimachos
Wechseln zu:Navigation, Suche
(Processing the texts for comparative analysis)
(Processing the texts for comparative analysis)
Zeile 34: Zeile 34:
 
If the analysis program is configured correctly, it should be able to recogniza large portions of the texts as orthographically correct latin. Unrecognized words can be routinely replaced by their classical counterparts via a progressively adjusted ruleset. Usefull replacement rules are f.i. ci/ti, diff/def, ch/c etc., but also typical OCR mistakes like ic/it, ee/ec, b/h etc.  
 
If the analysis program is configured correctly, it should be able to recogniza large portions of the texts as orthographically correct latin. Unrecognized words can be routinely replaced by their classical counterparts via a progressively adjusted ruleset. Usefull replacement rules are f.i. ci/ti, diff/def, ch/c etc., but also typical OCR mistakes like ic/it, ee/ec, b/h etc.  
  
For a usable stylometric analysis, at least 95% of the words in the processed text should be recognized as correct latin by the reference lexica.  However, 100% recognition should be the goal. To help with the correction of the latin texts, it may be advisable to program simple comparison and input masks, allowing the user to directly compare the words in question with the word in the original scan and correct them on the spot. Furthermore, it is advisable to expand the employed lexicons by custom wort lists to cover the specific vocabulary of arabic-latin translations and the corresponding disciplines.
+
For a usable stylometric analysis, at least 95% of the words in the processed text should be recognized as correct latin by the reference lexica.  However, 100% recognition should be the goal. To help with the correction of the latin texts, it may be advisable to program simple comparison and input masks, allowing the user to directly compare the words in question with the word in the original scan and correct them on the spot. Furthermore, it is advisable to expand the employed dictionariess by custom wort lists to cover the specific vocabulary of arabic-latin translations and the corresponding disciplines.
  
 
=Analysis=
 
=Analysis=

Version vom 5. September 2017, 12:48 Uhr

[bearbeiten]

Tutorial for identification of anonymous arabic-latin translators

typische Wörter für Dominicus Gundisalvi als Wordcloud

Composition of a text corpus

The aim of research for the project in is the identification of anonymous arabic-latin translations in medieval times by means of philological and computer-aided methods of style analysis. For this purpose, a corpus of electronic latin texts must be constructed. It's advisable to restrict the corpus to a certain arabic author, e.g. Averroes, or to a technical discipline, e.g. philosophy, astronomy/astrology, medicine, mathematics, alchemy/macig/prophecy or religion. However, this is only possible if the corpus is large enough. At Wuerzburg University an Averroes-based corpus (Hasse 2010) and two corpora with philosophical and astronomical/astrological translations of 12 century were formed and employed (Hasse 2016 and Hasse-Büttner in print). Herein, we were able to benefit from a list of philosophical arabic-latin translations already provided by Burnett in 2005, as well as Carmody in 1956 with a list of astronomic-astrologic translations (which are imprecisely and obsolete, though). In other branches of science, such lists have yet to be created.

Translations are available in very different text formats: Some are critically edited, others are only available in earlier printings or only in medieval handwritings. The OCR of modern editions is largely unproblematic. A relieable OCR of early printings, where the computer has to "learn" the officin's characters, is currently a subject of University of Wuerzburg and DFKI Kaiserslautern. At present, it's still advisable to transcribe early printings manually. With hand writings, the manual transcription will be the only viable option for a long time. A preferable textual witness should be chosen, which is especially one who provides a complete and non-revised text (latin authors of early printings are listed at Hasse, Success and Suppression, 2016, S. 317-407).

It's highly recommended to systematically seperate and index scans and the files produced due to further processing. This can be done simply by using seperated subfolders and seperatly managed spreadsheet or by means of a wiki program. This step may seem self-explanatory, but is also overlooked quite easily. The following aspacts should always be distinguished:

  1. the bibliographic mark of origin
  2. the scan
  3. the fully searchable and quotable scan
  4. a text cleaned of all non-textual features (page numbers, critical apparatus etc.)
  5. a normalized orthographic text made for stylometry (e.g. as a simple text file)

Processing the texts for comparative analysis

The citable text (3) isn´t usable for stylometry yet, but can be useful for other scientific tasks. Of course, to be able to compare texts using stylometry, they need to be made comparable beforehand. In the field of medieval editions, punctuation rules and orthography are major obstacles, for the punctuation rules often vary according to the national customs of the editors (german, french, english etc.), while the "signal" of the author ist lost. In turn, the orthography ranges from "classizied" editions (e.g. Avicenna Latinus) to the faithful reproduction of the exact orthography of a single medieval manuscript. These problems can be mitigated by radically removing all punctuation marks, changing all uppercase letters to lowercase letters und finally classizying the orthography. The last step is quite painfull for medievalist, but theres is no better alternative. As a first step, it is f.i. helpfull to replace all v with u and all j with i.

This process can be digitally enhanced by asking digital latin reference lexica if they can recognize words in the texts of the corpus. The easiest approach is the comparison with a latin word list. (f.i. here or in the word list of the OpenOffice lexicon, which can also be used in a Python script via PyEnchant) or the use of a morphology programm, which is able to lemmatize and kategorize every word in the text and look them up in a dictionary

For the latter, there are currently two open-source solutions:

  1. Whitaker’s Words, an Ada-based analysis programm for latin texts.
  2. Morpheus, the parser used by the Perseus program.


Both programs are quite complex and may often require some effort to compile correctly, especially if you want to integrate these programms into your own scripts using a wrapper. As an easier alternative, at least for some tests, the according web services (example) can be used as well. If the analysis program is configured correctly, it should be able to recogniza large portions of the texts as orthographically correct latin. Unrecognized words can be routinely replaced by their classical counterparts via a progressively adjusted ruleset. Usefull replacement rules are f.i. ci/ti, diff/def, ch/c etc., but also typical OCR mistakes like ic/it, ee/ec, b/h etc.

For a usable stylometric analysis, at least 95% of the words in the processed text should be recognized as correct latin by the reference lexica. However, 100% recognition should be the goal. To help with the correction of the latin texts, it may be advisable to program simple comparison and input masks, allowing the user to directly compare the words in question with the word in the original scan and correct them on the spot. Furthermore, it is advisable to expand the employed dictionariess by custom wort lists to cover the specific vocabulary of arabic-latin translations and the corresponding disciplines.

Analysis

Liegen die Texte des Korpus in derart bereinigten txt-Formaten vor, kann die eigentliche stilometrische Arbeit beginnen. Die Dateien mit den Übersetzungen lassen sich in verschiedene Gruppen sortieren: diejenigen mit unbekannten und diejenigen mit bekannten Übersetzern. Dabei sollte unbedingt der neueste Forschungsstand berücksichtigt werden. Im Zweifelsfall sollte eine Übersetzung lieber als „anonym“ gekennzeichnet werden. In unseren Studien haben wir nur die eindeutigen Übersetzerzuschreibungen, die sich in den Incipits und Kolophonen der Handschriften finden, als verlässlich akzeptiert und alle anderen Texte als anonyme Übersetzungen gekennzeichnet. Dieses Korpus lässt sich nun auf (mindestens) zwei verschiedene Weisen stilometrisch analysieren: Erstens im Hinblick auf ausschließlich von einem bekannten Übersetzer verwendete Wörter und zweitens computergestützt im Hinblick auf die (100, 200 o.ä.) häufigsten Wörter eines Textes. Die erste Methode wurde in Würzburg entwickelt, die zweite basiert auf dem sogenannten Burrows Delta (Burrows 2002):

(I) Exklusive und zugleich häufig verwendete Wörter

Die Erfahrung hat gezeigt, dass anonyme Übersetzer anhand von häufig verwendeten, und fachunspezifischen Wörtern, die exklusiv von einem einzigen bekannten Übersetzer verwendet werden, identifiziert werden können. Dominicus Gundisalvi ist beispielsweise der einzige Übersetzer, der die Partikeln sic ut, vel est, cuius comparatio, opus fuit, id per quod, id autem quod und omnis quod est verwendet, die sich auch in der anonymen Übersetzung Alexander von Aphrodisias‘ De intellectu finden – ein starker Hinweis darauf, dass Gundisalvi Übersetzer dieses Traktats war. Wie kommt man zu diesem Ergebnis? In folgenden zwei Schritten:

  1. Der erste Schritt ist die Suche nach häufigen Termini, die exklusiv nur bei einem einzigen Übersetzer auftauchen. Dazu ist die Programmierung eines einfachen Suchprogramms sehr zu empfehlen. Beim Filtern der Wortlisten helfen flexible Parameter, die eine Mindesthäufigkeit der gesuchten Wörter festlegen oder den Anteil der Texte eines Übersetzers bestimmen, in denen die Wörter jeweils mindestens vorkommen müssen. Um auch Wortgruppen zu analysieren, können die Texte in Listen von n-Grammen, d.h. überlappenden Abfolgen mehrerer Wörter aufgeteilt werden. Damit kann die Menge der für einen Autor exklusiven Wörter auf typische und häufig verwendete Wörter reduziert werden, zum Beispiel auf Wörter, die mindestens 10 mal in den Werken eines Übersetzers und in mindestens 40% seiner Übersetzungen erscheinen. Zum Beispiel erscheint die Wortverbindung iterum quia in 4 der 10 Übersetzungen Gerhards von Cremona, die sich in unserem philosophischen Korpus finden, und dort insgesamt 56 mal. Es handelt sich also um eine zugleich exklusiv und häufig gebrauchte Wortverbindung bei Gerhard von Cremona. Um dem Verdacht auf mögliche Falschzuschreibungen oder die Zusammenarbeit von Übersetzern nachzugehen, kann zudem ein Parameter eingeführt werden, der eine gewisse Anzahl an Fehlern zulässt, d.h. Wörter, die einige Male eben doch auch von anderen Übersetzern verwendet werden.
  2. Aus dieser Liste müssen dann in einem zweiten Schritt per Hand diejenigen Wörter ausgesiebt werden, die Inhaltswörter sind, wie z.B. substantia composita oder horoscopus, die typisch für eine bestimmte Fachdisziplin oder Subdisziplin sind wie Metaphysik oder Astrologie. Übrig bleiben stilistische Wörter in einem weiteren Sinn, d.h. solche Wörter, die sich im Prinzip in allen wissenschaftlichen lateinischen Texten des Zeitraums finden lassen könnten, also nicht nur Konjunktionen oder andere Partikeln, sondern auch Wörter und Wortverbindungen wie examinatio, annullare oder demonstrare voluimus, die nicht fachspezifisch sind. Dieser Fokus ist wichtig, weil die Erfahrung zeigt, dass Inhaltswörter leichter von anderen Übersetzern übernommen werden, während stilistische Wörter und Wortverbindungen stabiler nur bei einem Autor erscheinen.

Anschließend kann man für jeden anonym übersetzten Text des Korpus notieren, welche dieser exklusiven und häufig gebrauchten Wörter der Übersetzer in den anonym übersetzten Texten erscheint. Verbindet sich positive und negative Evidenz – wenn sich also (positiv) eine ganze Reihe von solchen exklusiven Wörter eines Übersetzers in einem anonymen Text findet und gleichzeitig keine (negativ) der exklusiven Wörter der anderen Übersetzer –, dann ist die Zuschreibung eines Textes an den bekannten Übersetzer sehr sicher.

Bei sehr kurzen anonym übersetzten Texten kann es sich lohnen, auch seltenere stilistische Wörter systematisch zu untersuchen, also z.B. solche, die weniger als 10 Mal und in weniger als 40% der Übersetzungen eines Übersetzers erscheinen. Eine solche Analyse muss aber systematisch auch die selteneren Wörter der anderen Übersetzer vergleichen. Die Erfahrung zeigt, dass nur eine Massierung solcher weniger typischen Wörter und Wortverbindungen in einem anonymen Text wirklich eine Übersetzerattribuierung erlaubt.

(II) Computergestützte Stilometrie mit Burrows Delta

Die zweite Methode basiert auf der Idee von John Burrows, dass Autorschaft computergestützt durch den Vergleich der standardisierten relativen Häufigkeiten der most frequent words (MFW) einzelner Texte ermittelt werden kann – ein Verfahren, das sich bei der computergestützten Autorschaftsattribuierung als ausgesprochen erfolgreich herausgestellt hat. Es gibt verschiedene frei im Web zugängliche Implementierungen dieses Verfahrens. Ein nutzerfreundliches Interface wird innerhalb des Stylo-R-Pakets von Maciej Eder und Jan Rybicki angeboten. Wir haben eine eigene Implementierung in Python verwendet, die auf Fotis Jannidis‘ pydelta aufbaut. In der Regel kann man bei solchen Implementierungen zwischen verschiedenen Abstandsmaßen („Deltas“) wählen, also zwischen verschiedenen Methoden, in denen der Computer den Abstand zwischen den Texten berechnet (bzw. genauer: den Abstand zwischen den Listen der Worthäufigkeiten der häufigsten Wörter berechnet). Vergleichsstudien der jüngsten Vergangenheit haben gezeigt, dass ein sehr performantes stilometrische Abstandsmaß das sogenannte „Cosine Delta“ ist. Auch wir haben die besten Ergebnisse mit Cosine Delta erzielt.

In einem ersten Schritt werden nur diejenigen Texte des Korpus analysiert, deren Übersetzer bekannt sind. Die Zahl der häufigsten Wörter, also 100, 200 oder mehr, lässt sich in den meisten Implementierungen einstellen. Wir haben sehr gute Ergebnisse mit den häufigsten 150 Wörtern der Texte erzielt. Jeder Text des Korpus wird intern durch einen Vektor dargestellt, der die standardisierten relativen Häufigkeiten dieser Wörter enthält. Der Abstand zwischen diesen Vektoren wird dann mit Cosine Delta berechnet. Der Computer formt dann Gruppen oder Cluster auf Basis dieser Abstände, die in einem Dendrogramm, einem Baum-Diagramm, visualisiert werden. Mithilfe dieses Verfahrens konnte der Computer im Korpus philosophischer Übersetzungen des 12. Jahrhunderts tatsächlich die Übersetzungen bekannter Übersetzer jeweils in eine Gruppe sortieren: die Gruppe der Übersetzungen des Dominicus Gundisalvi, des Gerhard von Cremona etc. Wenn das gelungen ist, ist die Methode sozusagen kalibriert.

In einem zweiten Schritt werden dann die anonymen Übersetzungen dazu gegeben. Das daraus resultierende Dendrogramm muss sorgfältig interpretiert werden: Bleibt die Gundisalvi-Gruppe (oder Gerhard-Gruppe etc.) des kalibrierten Standards stabil und wird nur um die ein oder andere anonyme Übersetzung erweitert, dann ist es sehr wahrscheinlich, dass diese anonymen Übersetzungen tatsächlich von Gundisalvi produziert wurden. Zerfällt aber die Gundisalvi-Gruppe (oder Gerhard-Gruppe etc.) in mehrere Teilgruppen, die im Dendrogramm nicht mehr verbunden sind, gelingt dem Computer offensichtlich die Zuweisung der anonymen Übersetzung nicht.

Bei unseren Versuchen zeigte aber erfreulicherweise, dass die Ergebnisse der Methode 1 (Exklusive Wörter) mit den Ergebnissen der Methode 2 (MFW) weitgehend übereinstimmten, zumindest beim philosophischen Korpus. Das astronomisch-astrologische Korpus ist für die Methode 2 allerdings noch nicht groß genug.