Kallimachos II (Eingehende Darstellung)

Aus Kallimachos
Wechseln zu:Navigation, Suche

Inhaltsverzeichnis

Verwendung der Zuwendung und Aufzählung der wichtigsten wissenschaftlich-technischen und anderer Ergebnisse

Ein Schwerpunkt des Verbundprojektes war die OCR-Optimierung und die Unterstützung der entsprechenden Use Cases Narragonien und Anagnosis. Hier wurden im Projektverlauf verschiedene Techniken implementiert und erprobt. Mit der Bereitstellung des semi-automatischen Open Source Tools OCR4all wurde ein Durchbruch erzielt, der erstmals die Digitalisierung früher Drucke mit vertretbarem Aufwand erlaubt. OCR4all wurde nicht nur in Kallimachos intensiv genutzt, sondern hat darüber hinaus auch international bereits eine größere Verbreitung gefunden (s. AP1). Auch die anderen Teilprojekte konnten erfolgreich abgeschlossen werden. Die folgende Darstellung der erzielten Ergebnisse übernimmt die Gliederung des Antragsdokumentes, so dass für jedes Arbeitspaket ein Vergleich der Ziele und der Ergebnisse leicht nachvollziehbar ist.

AP1: OCR-Optimierung

TA 1.1.1: Automatische Segmentierung

Der OCR-Workflow lässt sich in vier Hauptschritte einteilen: Vorverarbeitung, Segmentierung, Texterkennung, Nachkorrektur. Wir beschreiben die Segmentierung im Kontext des OCR-Workflow-Tools OCR4all (s. TA 1.1.2).

TA 1.1.2: Ausbau Offizinansatz und Weiterentwicklung in OCR4all

Der Offizinansatz, der die mühselige und zeitaufwändige Identifizierung einzelner werkstattspezifischer Drucktypen für die OCR-Erfassung vorsah, wurde fallen gelassen, da die OCR-Erkennung mit neuronalen Netzen in LSTM-Architektur keine Segmentierung von Einzelzeichen erfordert. Stattdessen werden Drucke mit Hilfe gemischter Modelle transkribiert, die auf einer Vielzahl von Drucktypen trainiert wurden. Anschließend werden einige Seiten nachkorrigiert und auf dieser Grundlage ein werkspezifisches Modell trainiert, mit dem anschließend der gesamte Druck transkribiertund abschließend korrigiert wird. Diese Vorgehensweise stellt eine sehr zeit- und kostensparende Variante gegenüber einer rein händischen Transkription dar und dürfte für alte Drucke die derzeit effizienteste Vorgehens-weise sein. Entsprechend hat das komfortable Workflow-Tool OCR4all [Reul et al.2019c] bereits eine sehr gute nationale und internationale Resonanz und auch Verbreitung gefunden. Im Folgenden werden die Teilschritte des Workflows und die Resonanz ausführlicher dargestellt.

Semi-automatisches Transkriptionstool OCR4all für alte Drucke

Um den vorgestellten Ansatz einer möglichst breiten Nutzergruppe zur Verfügung zu stellen, wurde das Tool OCR4all entwickelt und frei auf GitHub zur Verfügung gestellt. Die Motivation hinter OCR4all ist, dass es mittlerweile einige Open Source Tools gibt, die zwar (sogar auf sehr alten und anspruchsvollen Material) hervorragende Ergebnisse liefern, deren Anwendung allerdings unerfahrene, nicht-technische Nutzer schnell überfordern kann. Dies liegt insbesondere daran, dass viele Anwendungen ausschließlich über die Kommandozeile bedient werden können und teils schwierig zu installieren sind. Auch die Kombination verschiedener Einzeltools zu einer zusammenhängenden Pipeline ist häufig, aufgrund variierender Datenformate, nicht trivial. OCR4all versucht diese Lücke zu schließen, indem es einen vollständigen OCR-Workflow in einer einzigen Docker-Anwendung oder alternativ Virtual Box kapselt, die sehr simpel installiert werden kann.

Das Tool nimmt dem Nutzer die Verwaltung der Daten ab und kann komfortabel über eine übersichtliche grafische Weboberfläche gesteuert werden. Ziel ist es, auch nicht-technischen Nutzern eine Möglichkeit zu geben, selbst die ältesten gedruckten Werke eigenständig, mit überschaubaren Zeitaufwand und in höchster Qualität zu erfassen. Neben dem bekannten OCRopus und dem im Projekt entstandenen LAREX wurde auch das von Christoph Wick am Lehrstuhl für Künstliche Intelligenz entwickelte Open Source OCR Tool Calamari bereits vollständig in OCR4all und den dort enthaltenen Workflow integriert. Anders als OCRopus setzt Calamari bei der Zeichenerkennung auf eine tiefe Netzstruktur mit mehreren versteckten Schichten (Deep Learning), was deutlich höhere Erkennungsraten zur Folge hat ([Wick et al.2018]). Neben dieser technischen Weiterentwicklung wurden auch weitere methodische Verbesserungen wie Voting [Reul et al.2018a], Pretraining [Reul et al.2018b] und Datenaugmentierung integriert, deren Verwendung die Fehlerrate noch einmal deutlich reduziert [Reul et al.2018c, Wick et al.2020].

Workflow

Ein typischer OCR-Workflow lässt sich grundsätzlich in vier Hauptschritte unterteilen (s. Abbildung 1), deren Ziele, Herausforderungen und derzeitige Umsetzung in OCR4all im Folgenden vorgestellt werden.

Abbildung 1: Hauptschritte eines typischen OCR Workflows. Von links nach rechts: Eingabebild, Vorverarbeitung, Segmentierung, Texterkennung, Nachkorrektur

Vorverarbeitung: In diesem ersten Schritt werden die Eingabebilder in Hinblick auf die weitere Verarbeitung aufbereitet. Dies schließt sowohl eine Binarisierung (Umwandlung in ein Schwarzweißbild) als auch ein Geradestellen der Scanseite ein. Auch eine vorherige Trennung von zusammen gescannten Doppelseiten oder das Aufrechtstellen quer erfasster Scanseiten ist üblich. Die Binarisierung und das Geradestellen wird von einem Skript aus der OCRopus Toolbox zuverlässig erledigt. Prinzipiell kann OCR4all auch mit Doppelseiten oder quer gescannten Seiten umgehen, jedoch wird eine Trennung und ein Aufrechtstellen empfohlen, z. B. durch das frei verfügbare und gut dokumentierte Tool ScanTailor (aufgrund fehlender Webgängigkeit nicht sinnvoll in OCR4all integrierbar).

Segmentierung: Aufgabe dieses Schritts ist die Unterteilung der Scanseite in kleinere Einheiten. Dabei sind, abhängig vom Material und den individuellen Anforderungen des Nutzers, sehr unterschiedliche Ausprägungen möglich. So kann es z. B. ausreichen, lediglich die Regionen, die Text enthalten, zu identifizieren und vom Rest (Bilder, Noise etc.) zu trennen. Am anderen Ende des Spektrums steht eine feingliedrige semantische Auszeichnung (s. Abbildung 2), die nicht nur Text-und Bildregionen unterscheidet, sondern v. a. ersteren noch weitereSubtypen zuweist (Fließtext, Überschrift, Marginalie, etc.; wiederum stark nutzer-und materialabhängig). Identifizierte Textregionen müssen anschließend in einzelne Textzeilen aufgespalten werden, da diese die benötigte Eingabe für moderne OCR-Engines darstellen.

Abbildung 2: Segmentierung einer komplexen Seite des Narrenschiffs inklusive präziser semantischer Auszeichnung und exakter Erfassung der Lesereihenfolge

Für diesen überaus anspruchsvollen Schritt stellt OCR4all derzeit zwei Submodule zur Verfügung, um sich optimal an die Ansprüche der jeweiligen Nutzer sowie den Eigenschaften und Herausforderungen des vorliegenden Materials anzupassen. Zum einen kommt das eigens entwickelte LAREX-Tool (s. u.) zum Einsatz, dessen semi-automatischer Ansatz sich speziell für Nutzer eignet, die an einem zu 100% korrekten Ergebnis interessiert sind, inklusive einer individuellen und detaillierten semantischen Auszeichnung. Zum anderen wird für die vollautomatische Anwendung eine sogenannte Dummysegmentierung angeboten, die weder eine semantische Auszeichnung noch ein explizites Markup von Bildern oder anderen Nicht-Text-Regionen vornimmt, sondern sich direkt auf die Detektion von Textzeilen konzentriert. Für diesen Zeilensegmentierungsschritt kommt wiederum ein leicht modifiziertes OCRopus-Skript zum Einsatz, das, anders als die Originalversion, keine tatsächlichen Zeilenbilder abspeichert, sondern eng an den Text anliegende Polygone generiert, die dann in der entsprechenden PageXML Datei abgelegt werden können.

Texterkennung: Aus den Textzeilen kann nun der darin abgebildete Text extrahiert werden. Dazu nutzen OCR-Engines sogenannte Modelle. Generell wird zwischen gemischten und werk-oder typenspezifischen Modellen unterschieden. Erstere werden im Normalfall auf einer Vielzahl ähnlicher Typen trainiert und können dann out-of-the-box (ohne weiteres werkspezifisches Training und somit ohne weiteres Erstellen von Trainingsdaten) auf ungesehenes Material angewendet werden. Dieses Vorgehen ist umso vielversprechender, je einheitlicher die Typographie des vorliegenden Materials ist. Während man bei moderner Schrift, aber z. B. auch bei Frakturschriften des 19. Jahrhunderts, auf sehr niedrige Fehlerraten hoffen kann (vgl. Evaluation in Tabelle 1), können diese bei zunehmendem Alter des Materials und insbesondere bei Inkunabeln keineswegs erwartet werden. Abhilfe kann durch werksspezifische Modelle geschaffen werden, zu deren Erstellung werksspezifische Ground Truth benötigt wird, die durch manuelle Korrektur der mit gemischten Modellen transkribierten Texte erzeugt werden muss. Selbstverständlich bedeutet dies zusätzlichen Aufwand, der aber aufgrund der besseren Erkennungsgenauigkeit in vielen Anwendungsfällen für eine ausreichende Qualität notwendig ist.

Die derzeit in OCR4all zum Einsatz kommende OCR-Engine ist das eigens entwickelte Calamari, das sowohl für die Erkennung als auch für das Training eigener Modelle zum Einsatz kommt. Hinsichtlich der Bedienung durch nicht-technische Nutzer stellte speziell der Trainingsschritt in seiner Implementierung eine große Herausforderung dar, da sämtliche oben erwähnten methodischen Erweiterungen unterstützt werden sollten, jedoch ohne die Nutzer zu überfordern.

Nachkorrektur: Da trotz großer Fortschritte in den letzten Jahren ein fehlerfreies OCR-Ergebnis auf historischen Drucken nicht realistisch ist, wird ein finaler Schritt benötigt, in dem die verbleibenden Fehler korrigiert bzw. zumindest weiter reduziert werden sollen. Dies kann automatisch, z. B. durch die Verwendung von Sprachmodellen erfolgen, manuell durch eine händische Nachkorrektur oder auch durch eine Kombination beider Methoden. Während eine automatische Nachkorrektur derzeit noch nicht in OCR4all zur Verfügung steht (jedoch extern angebunden werden kann, z. B. PoCoTo [Vobl et al.2014] bzw. PoCoWeb), bietet die integrierte Komponente LAREX aufgrund umfassender Erweiterung mittlerweile die Möglichkeit, komfortabel sowohl den OCR-Text als auch die Ergebnisse vorangegangener Schritte wie Regionen- und Zeilenpolygone, Reading Order, semantische Typen usw. zu korrigieren (s. Abbildung 3).

Abbildung 3: Textuelle Korrektur in LAREX: Seiten-basierte Ansicht (links), konfigurierbares virtuelles Keyboard (Mitte), Zeilen-basierte Ansicht (rechts).

Aufgrund des modularen Aufbaus des Tools sowie der wohldefinierten Schnittstellen und dem gewählten Distributionsweg über eine Containerlösung ist die Einbindung weiterer Lösungen jederzeit möglich.

Evaluation: Neben dem praktischen Einsatz von OCR4all an zahlreichen Institutionen und in vielfältigen Projekten (s.u.) wurden im Rahmen der zugehörigen Hauptveröffentlichung [Reul et al. 2019c] umfassende Evaluationen in enger Kooperation mit den designierten geisteswissenschaftlichen Nutzern durchgeführt.

Die erste Evaluation bezieht sich auf Frakturromane des 19. Jahrhunderts (mit einer Ausnahme aus dem späten 18. Jahrhundert). Im Gegensatz zu Inkunabeln und Drucken der frühen Neuzeit, wie z. B. dem Narrenschiff, verfügen diese, neben dem besseren Erhaltungszustand, über ein moderates Layout und deutlich einheitlichere Drucktypen, was eine vollautomatische Erschließung mittels OCR4all ermöglichte. Die einheitliche Typographie erlaubte die Anwendung eines gemischten Calamari-Modells für Frakturschriften des 19. Jahrhunderts, das zuvor unter Verwendung der oben genannten genauigkeitssteigernden Maßnahmen trainiert worden war [Reul et al. 2019a]. Evaluiert wurde der vollautomatische OCR4all-Durchlauf jeweils auf zehn Seiten aus zehn verschiedenen Werken, mit teils stark schwankender Qualität, wie in Abbildung 4 zu sehen ist.

Abbildung 4: Beispielbilder deutscher Frakturromane. Von links nach rechts: F1870, F1781, F1818 (Seite in akzeptablen Zustand), F1818 (Seite in schlechten Zustand), F1803.

Zum Vergleich wurde dieselbe Evaluation mit dem kommerziellen State-of-the-Art Tool ABBYY Finereader durchgeführt, , das neben einer „Gothic“ Erkennung für Frakturschrift auch eine entsprechende Nachkorrektur für „Old German“ anbietet. Tabelle 1 fasst die Ergebnisse zusammen.

Tabelle 1: Vergleich der Buchstabenfehlerraten bei vollautomatischer Anwendung von ABBYY Finereader und OCR4all, sowie die durch OCR4all erreichte Fehlerreduktion (ErrRed.) und den Verbesserungsfaktor (Impr.).

Werk ABBYY OCR4all ErrRed. Impr.
F1781 2,9 0,60 79,3 4,8
F1803 27 4,89 81,9 5,5
F1810 3,8 0,61 84,0 6,2
F1818 10 1,35 86,6 7,5
F1826 1,1 0,06 94,4 18
F1848 0,93 0,20 78,5 4,7
F1851 1,0 0,16 84,0 6,3
F1855 4,0 0,33 91,8 12
F1865 1,6 0,18 88,8 8,9
F1870 0,48 0,13 72,9 3,7
Average 5,3 0,85 84,2 7,8

Die Werte zeigen, dass OCR4all für jedes einzelne Werk deutlich bessere Fehlerraten liefert als ABBYY Finereader, was in einer durchschnittlichen Fehlerreduktion von 84% und einem Verbesserungsfaktor von fast 8 resultiert. Für beide Systeme variieren die Ergebnisse sehr stark von Buch zu Buch, was durch die stark unterschiedliche Qualität des Ausgangsmaterials zu erklären ist (vgl. Abbildung 4). Im Schnitt erreicht OCR4all eine sehr niedrige Buchstabenfehlerrate (CER) von lediglich 0,85% (ABBYY 5,3%), wobei diese für acht der zehn Werke bei unter 1% und bei sechs sogar unter 0,5% liegt. Werden nur die besten 50% der Werke betrachtet, sinkt die CER sogar auf hervorragende 0,15%.

Diese Experimente auf Frakturromanen des 19. Jh. zeigen, dass eine vollautomatische Anwendung von OCR4all nicht nur möglich ist, sondern auch überaus präzise sein kann, solange ein moderates Layout vorliegt und ein passendes OCR-Modell vorhanden ist. Es sei angemerkt, dass die gezeigten extrem niedrigen Fehlerraten nur dann vollautomatisch erreicht werden können, wenn ein hoch performantes gemischtes Modell vorliegt. In diesem Fall war ein Modellensemble verfügbar, das perfekt für die Erkennung des vorliegenden Evaluationsmaterials geeignet war. Leider stellt dies derzeit noch eine Ausnahme dar, da ähnlich spezialisierte Modelle wohl lediglich für die Erkennung von modernen englischen Texten vorliegen.

Da OCR4all ursprünglich für die vergleichsweise hohen Anforderungen des Projekts Narragonien digital entwickelt wurde (exakte semantische Auszeichnung bereits auf Layoutebene, fehlerfreier Ergebnistext), können auch Werke, die aus Sicht des Layouts und der Typographie teils deutlich anspruchsvoller sind als die zuvor evaluierten Frakturromane, problemlos bearbeitet werden. Diese wurde in einer zweiten, sehr umfangreichen, nutzerzentrierten Studie evaluiert:

Bearbeitet wurden 25 Werke, gedruckt zwischen 1474 und 1598, darunter zahlreiche Narrenschiffe sowie Erzeugnisse des Universalgelehrten Joachim Camerarius des Älteren (in Kooperation mit dem DFG-Projekt ‘Opera Camerarii’, vgl. [Hamm et al. 2019].) Die Bearbeitung erfolgte größtenteils durch Studierende, die in zwei Gruppen unterteilt wurden: Gruppe 1 bestand aus unerfahrenen Nutzern, die über keinerlei nennenswerte Vorerfahrung mit OCR4all oder OCR im Allgemeinen verfügten. Im Gegensatz dazu konnten die Bearbeiter aus Gruppe 2 bereits umfangreiche Erfahrungen vorweisen. Nach einer Einführung durch einen der erfahrenen Nutzer mussten die unerfahrenen Nutzer die ihnen zugewiesenen Werke selbstständig bearbeiten.

Bei allen Werken wurden bereits auf Layout-Ebene Regionen semantisch präzise erfasst und ausgezeichnet, um später eine vollständige Rekonstruktion der Scanseite zu ermöglichen (vgl. Abbildung 2 und Abbildung 5). Obwohl sämtliche Werke final als zitierfähiger Volltext vorliegen sollten, wurde für diese Evaluation vorerst lediglich eine grobe Ziel-Zeichenfehlerrate von 1% ausgegeben. Neben dem für die Segmentierung benötigten Zeitaufwand wurden die Fehlerrate sowie der Korrekturaufwand erfasst. Tabelle 2 zeigt die Ergebnisse.

Tabelle 2: Zusammenfassung der erreichten Ergebnisse (Mittelwerte plus ggf. Standardabweichung) bei Anwendung von OCR4all auf frühe Drucke durch Nutzer unterschiedlicher Erfahrungsstufen.

Unerfahrene Nutzer Erfahrene Nutzer
Erreichte CER 0,47% ± 0,22% 0,49% ± 0,30%
Transkribiertes Trainingsmaterial 988 Zeilen 927 Zeilen
Korrekturzeit pro Zeile 10s ± 5,2s 5,5s ± 2,4s
Segmentierungszeit pro Seite 1,2min ± 0,5min 0,6min ± 0,2min

Wie erwartet, hatte die Erfahrung der Nutzer weder Einfluss auf die Genauigkeit der OCR noch auf die zur Erreichung der vorher festgelegten CER von max. 1% benötigte Anzahl an Trainingszeilen. Beide Nutzergruppen konnten eine, gerade in Hinblick auf das Alter des Materials, hervorragende und nahezu identische durchschnittliche CER von unter 0,5% erreichen und benötigten dazu im Schnitt knapp 1.000 Trainingszeilen. Dies unterstreicht die Effektivität des vorgestellten Ansatzes und die Leistungsfähigkeit der integrierten und für Training und Erkennung eingesetzten OCR-Software Calamari. Ebenfalls nicht überraschend ist, dass die erfahrenen Nutzer, in Hinblick auf den benötigten Zeitaufwand, sowohl bei der Segmentierung als auch bei der Erstellung der Trainingsdaten, deutlicher effizienter arbeiten. Aus den erhobenen Werten kann eine grobe Faustregel bzgl. des benötigten Zeitaufwands für die präzise Erfassung (exakte semantische Auszeichnung und eine CER von weniger als 0,5% im Durchschnitt von 25 Werken mit durchschnittlich über 250 Seiten pro Werk) abgeleitet werden: Unerfahrene Nutzer müssen mit 150 Minuten für die GT Erstellung sowie 1,1 Minuten pro Seite für die Segmentierung rechnen. Erfahrene Nutzer können von einer deutlich schnelleren Erfassung ausgehen: 57 Minuten Aufwand für die GT Erstellung und 0,6 Minuten für die Segmentierung jeder Seite.

Verbreitung in und Nutzung durch die Community:

OCR4all wurde sowohl innerhalb der Universität Würzburg als auch auf nationaler und internationaler Ebene hervorragend angenommen. Das ZPD nimmt große Anstrengungen vor, um die Verbreitung und die Nutzbarkeit weiter voranzutreiben, wie im Folgenden erläutert werden soll.

Abbildung 5: Beispielseiten der frühen Drucke, die zur Evaluation verwendet wurden, sowie teilweise die erwartete Segmentierung (rechts).

Eigene Veröffentlichungen der Projektgruppe: In der recht technisch gehaltenen Hauptveröffentlichung [Reul et al. 2019c] lag der Schwerpunkt auf der Beschreibung des Tools, der zum Einsatz kommenden Komponenten und des konzipierten Workflows. Des Weiteren wurde OCR4all ausgiebig evaluiert (obige Evaluation zeigt einen Auszug).

Eine weitere Publikation [Wehner et al. 2020] nebst zugehörigen Workshop wurde auf der dies-jährigen Jahrestagung der Digital Humanities im deutschsprachigen Raum (DHd) veröffentlicht. Der für 25 Teilnehmer ausgeschriebene, ganztägige Workshop stieß auf großes Interesse und war innerhalb kürzester Zeit ausgebucht.

Auf Anfrage des Magazins KulturBetrieb, welches zweimal im Jahr an mehr als 2.200 kulturbewahrende Einrichtungen wie Museen, Archive oder auch Bibliotheken ausgeliefert wird, wurde ein weiterer Artikel [Wehner, 2019] verfasst, der neben einer eingehenden Beschreibung des OCR-Workflows besonderen Fokus auf die Entwicklung der Software in Zusammenarbeit mit den Geisteswissenschaften legt und somit Nutzungsvorteile und Chancen der Software für die angesprochenen, kultur- und kunstbewahrenden Institutionen aufzeigt.

Berichterstattung (Auswahl): Im April 2019 veröffentlichte das Onlinemagazin der Universität Würzburg einBLICK einen Artikel zu OCR4all in deutscher und englischer Sprache und verbreitete diesen über diverse nationale und internationale Kommunikationskanäle. Der Artikel stieß auf großes Interesse, welches, neben der Berichterstattung in zahlreichen Onlineportalen und Tageszeitungen (u. a. Der Tagesspiegel, die Augsburger Allgemeine und Der Standard), auch ein Radiointerview mit SWR2 Impuls nach sich zog. Des Weiteren ergab sich die Möglichkeit, OCR4all in Rahmen einer Toolvorstellung des DFG-geförderten Projekts forText einer noch größeren Gruppe an geisteswissenschaftlichen Nutzern näherzubringen.

Gehaltene Vorträge (Auswahl):

  • Inputworkshop des DFG-geförderten Fachinformationsdienst Philosophie der Universitäts- und Stadtbibliothek Köln
  • Jahrestagung des Arbeitskreises Provenienzforschung e.V. in Düsseldorf
  • Gastvortrag am Trier Center for Digital Humanities
  • Kolloquium Korpuslinguistik und Phonetik an der HU Berlin
  • Bereits vereinbart: Tagung Digitale Mediävistik, Januar 2021 in Bremen


Anleitungen, Workshops, Praktika und sonstige Lehraktivitäten (Auswahl): Um den Nutzern speziell den Einstieg und das weitere Arbeiten mit OCR4all zu erleichtern, wurden umfangreiche und anschauliche Anleitungen für Installation und Nutzung in deutscher und englischer Sprache erstellt und veröffentlicht.

Des Weiteren wird anhand zweier mitgelieferter Beispielwerke die Anwendung von OCR4all Schritt für Schritt erläutert. Die Anleitungen werden fortlaufend gepflegt und regelmäßig aktualisiert. Ein Semantic MediaWiki, das neben den Anleitungen auch zahlreiche Begriffsdefinitionen, technische Hintergründe und häufige Probleme sowie deren Lösungen zur Verfügung stellen und miteinander verknüpfen soll, befindet sich im Aufbau. Weitere Schulungsaktivitäten werden im Folgenden gelistet. An der Universität Würzburg wurden folgende Workshop gehalten:

  • Regelmäßige Workshops für Professoren, Mitarbeiter und Studierende aller Fakultäten.
  • Regelmäßige Praktika für Studierende des Masterstudiengangs „Mittelalter und Frühe Neuzeit“.
  • Teilmodul des Zusatzzertifikats Digitale Kompetenz, das Studierenden der Modernen Philologien die Möglichkeit bietet, über ihr Studium hinaus Kompetenzen im Umgang mit digitalen Daten zu erwerben und nachzuweisen.


National und international wurden folgende Workshops angeboten:

  • Workshop auf der Jahrestagung der Digital Humanities im deutschsprachigen Raum 2020 in Paderborn. Das Feedback der über 20 Teilnehmer fiel überaus positiv aus.
  • Train-the-Trainer Workshop im Sommer 2019, bei dem Interessierte, die selbst OCR4all Workshops anbieten wollen oder bereits anbieten, gesondert geschult wurden. Außerdem hatten sie so die Möglichkeit, sich mit den Entwicklern über das Feedback aus der Community auszutauschen und das weitere Vorgehen zu diskutieren. Aufgrund des hervorragenden Feedbacks sind weitere Veranstaltungen dieser Art geplant. Der o. g. DHd Workshop wurde von der Würzburger Arbeitsgruppe in Kooperation mit einigen Teilnehmern des Train-the-Trainer Workshops ausgerichtet.
  • Zwei Workshops (Würzburg 2018 und Budapest 2019) im Rahmen der COST Action Distant Reading for European Literary History .
  • Seminar Historische Korpuslinguistik an der Humboldt-Universität zu Berlin: In Kooperation mit dem ZPD wurden von Masterstudierenden diverse Werke des 17. und 18. Jahrhunderts zum Thema Kräuter transkribiert. Die benötigten Berechnungen liefen dabei auf den Würz-burger Servern, wärend die Studierenden nach einer kurzen Einweisung die notwendigen Korrekturen remote und bequem über eine Weboberfläche leisten konnten.
  • Workshop im Rahmen des Lehrprojekts „Digital Visual Studies" am kunsthistorischen Institut der Universität Zürich im Programm „Stärkung der digitalen Kompetenzen im Bildungsbereich“
  • Workshop beim Schweizerischen Idiotikon in Zürich.
  • Workshop am Trier Center for Digital Humanities.


Von Teilnehmern des o. g. Train-the-Trainer Workshops wurden/werden (abgesehen von dem bereits erwähnten DHd Workshop und den zahlreichen Veranstaltungen an der Universität Würzburg) bereits folgende Lehrveranstaltungen angeboten:

  • Verschiedene Lehrveranstaltungen am Institut für Informations- und Sprachverarbeitung, LMU München.
  • Zahlreiche Workshops am Leopoldina-Zentrum für Wissenschaftsforschung.
  • Übung am Historischen Seminar der LMU München.
  • Im Sommer 2020 bieten zwei der Teilnehmer im Rahmen der European Summer University in Digital Humanities der Universität Leipzig zwei mehrtägige OCR4all Workshops an.


Bekannte Nutzer und Anwendungsszenarien: Über den Hauptdistributionsweg DockerHub wurde OCR4all bislang über 1.600 Mal heruntergeladen (Stand März 2020). Da ein Nutzer mehrere Downloads tätigen, eine Instanz von beliebig vielen Nutzer verwendet werden und zudem das Tool auch vollumfänglich über den auf GitHub zur Verfügung gestellten Code problemlos selbst installiert werden kann, ist eine genauere Abschätzung der Nutzerzahl nicht möglich. Stattdessen soll im Folgenden ein Überblick über bekannte Nutzer und Anwendungsszenarien gegeben werden. Dabei werden nur gesicherte Einsätze (per Publikation oder direkten Kontakt) gelistet und die zahlreichen weiteren Aktivitäten, die sich z. B. über GitHub oder diverse Social Media Plattformen andeuten, ignoriert.

Neben den Anwendungen in den Kallimachos-Teilprojekten Narragonien digital und Anagnosis kommt OCR4all überdies an folgenden Lehrstühlen und Projekten an der Universität Würzburg zum Einsatz:

  • “Camerarius digital” (Nachfolgeprojekt des DFG-Projekts Opera Camerarii, vgl. [Hamm et al. 2019].): Erfassung von 303 lateinischen und griechischen Drucken des deutschen Humanisten Joachim Camerarius (vgl. Abschnitt Evaluation; ein DFG-Sachbeihilfeantrag wurde gestellt). Antragsteller sind der Lehrstuhl für Klassische Philologie (Latinistik), der Lehrstuhl für künstliche Intelligenz und Wissenssysteme, der Lehrstuhl für Geschichte der Medizin und die Professur für deutsche Philologie.
  • Lehrstuhl für Computerphilologie und Neuere Deutsche Literaturgeschichte:
    • Massenerfassung von Frakturromanen des 19. Jh. (bereits über 800 Romane verarbeitet).
    • Erkennung von Lyrikanthologien mit Gedichten des Realismus/Naturalismus (SPP Computational Literary Studies , Teilprojekt „Moderne Lyrik“).
    • Aufbau eines Korpus von Heftromanen (Vorarbeit für Projektantrag).
    • Aufbau eines Korpus von Novellen und Erzählungen (Habilitationsprojekt von Julian Schröter).
  • Lehrstuhl für Deutsche Sprachwissenschaft:
    • Erfassung diverser Quellen (Schwerpunkt 19. Jh.) zur Anreicherung der Würzburger Datenbank sprachlicher Zweifelsfälle ([ www.zweidat.germanistik.uni-wuerzburg.de ZweiDat]) (Projektantrag in Vorbereitung).
    • Transkription von deutschsprachigen Frakturdrucken des 16. Jh. im Projekt Greifswald Digital.
    • Erfassung von Reiseführern für diskurslinguistische Studien (Dissertationsprojekt von Miriam Reischle).
    • Erkennung deutschsprachiger Drucktexte (größtenteils 17. Jh.), die alchemistische und astrologische Symbole enthalten (Dissertationsprojekt von Jonathan Gaede).
  • Lehrstuhl für Französische und Italienische Literaturwissenschaft: Erfassung von französi-schen Handschriften der Frühen Neuzeit (Machbarkeitsstudie für Projektantrag).
  • Lehrstuhl für Neuere Deutsche Literaturgeschichte I: Transkription ausgewählter Libretti der Hamburger Oper aus dem Zeitraum 1670-1728 (Vorbereitung für Projektantrag).
  • Jean Paul Portal: OCR von Originaldrucken von Jean Paul im Rahmen des Teilprojekts „Flegeljahre“ (läuft am 01.04.2020 an).
  • Lehrstuhl für vergleichende Sprachwissenschaft: OCR armenischer Texte des 19. Jahrhun-derts.
  • Lehrstuhl für englische Sprachwissenschaft: Erfassung von englischen Zeitungstexten und Briefen des 19. und 20. Jahrhunderts.


Nationale und internationale Projekte und Anwendungen von OCR4all umfassen:

  • Projekt MiMoText am Kompetenzzentrum der Universität Trier: Erfassung französischer Romane des 18. Jh.
  • Monumenta Germaniae Historica: Lexika aus der Inkunabelzeit (Kooperation mit ZPD zur Vorbereitung eines LIS-Projektantrags).
  • Max-Planck-Institut für Europäische Rechtsgeschichte: Erfassung rechtshistorischer Quellen (überwiegend frühneuzeitliche Drucke in verschiedensten Sprachen).
  • Deutsches Historisches Museum Berlin: OCR von Archivalien des 19. und 20. Jh.
  • Department of English, University of Bristol: The Literary Heritage of Anglo-Dutch Relations, 1050-1600.
  • Universidad Nacional de Educación a Distancia (Madrid): [www.incunabula.uned.es Projekt] zur Erfassung lateinischer Texte des 15. und 16. Jh.
  • Ältere Deutsche Philologie / Mediävistik, Universität Heidelberg: OCR verschiedener Texte Sebastians Brants um 1500.
  • Kommission für bayerische Landesgeschichte an der Bayerischen Akademie der Wissenschaften: Erfassung verschiedenster Drucke und Schreibmaschinenerzeugnisse (u. a. Geschichtsbücher, Jahrbücher, Ortsnamenbücher, ...).
  • Projekt WiTTFind am CIS der LMU München: Verarbeitung unterschiedlichen Materials, u. a. verstärkt Schreibmaschinenseiten.
  • Martin-Luther-Universität Halle-Wittenberg: Digitalisierung von frühneuzeitlichen Lexika.
  • Projekt Heinrich Wölflin – Gesammelte Werke des Kunsthistorischen Institut der Universität Zürich und des Max-Planck-Instituts für Kunstgeschichte, Bibliotheca Hertziana: Erfassung unpublizierter Handschriften (Proof of Concept in Kooperation mit dem ZPD).
  • Projekt „Epigrāphia Carnāṭica digital“ der Universität zu Köln und der LMU München (OCR der dravidischen Sprache Kannada; DFG-Antrag gestellt, Kooperation mit ZPD intendiert).
  • Humboldt-Universität zu Berlin, Institut für Archäologie: Erfassung koptischer Texte des 19. und 20. Jh.
  • Städtisches Museum Bingen: OCR unterschiedlicher historischer Schriftstücke.


Zusammenfassung und Ausblick: Mit OCR4all wurde ein Werkzeug geschaffen, mit dem auch nicht-technische Nutzer überaus anspruchsvolles Material selbständig und mit höchster Genauigkeit per OCR erfassen können. Das Tool wird bereits jetzt in einer Vielzahl von Anwendungsszenarien weit über die Grenzen Würzburgs hinaus produktiv eingesetzt. Durch die feste Verankerung im ZPD wird die langfristige Weiterentwicklung, Wartung und Dissemination sichergestellt, sowie die Vernetzung und Schulung der OCR4all Community aktiv vorangetrieben. Dabei muss selbstverständlich stets ein besonderer Fokus auf die Ansprüche und Bedürfnisse nicht-technischer Nutzer gelegt werden. Neben einer stetigen Optimierung der vorhandenen Anleitungen steht dabei v. a. eine weitere Vereinfachung des Installationsprozesses durch die Verwendung von VirtualBox sowie die Integration von nutzerfreundlicheren Ausgabeformaten im Vordergrund. Letzteres wird derzeit im Rahmen eines DHd-geförderten Kleinprojekts der im Sommer 2019 gegründeten DHd Arbeitsgruppe OCR umgesetzt, in dem die Konvertierung des Entwicklerformats PageXML in die Nutzerformate TEI, ALTO und PDF vorangetrieben wird. Die Universität Würzburg ist sowohl in der AG prominent vertreten, als auch, in Form des ZPD, direkt an der Umsetzung des Projekts beteiligt. Aus technischer Sicht stellt, neben der intendierten Einbindung der im Rahmen von OCR-D entstandenen Lösungen (vgl. Abschnitt zur Abgrenzung von und Synergieeffekte mit OCR-D), der Ausbau zu einer „echten“ Serveranwendung den nächsten großen Schritt dar. Da sich bei der Entwicklung der Anwendung, aufgrund der teils sehr rechenintensiven Prozesse, zunächst die Nutzung durch einen einzelnen Anwender klar im Vordergrund stand, besteht in dieser Hinsicht noch Verbesserungspotential. So arbeitet das ZPD derzeit v. a. an einer mehrstufigen Nutzerverwaltung sowie einem komplexen Ressourcenmanagement, das ein einfaches und sicheres kollaboratives Arbeiten unter idealer Ausnutzung der jeweils vorhandenen Serverinfrastruktur in Aussicht stellt. Abgesehen von der bereits zur Verfügung stehenden Instanz des ZPD haben bereits mehrere Institutionen konkretes Interesse an der Einrichtung eines ähnlichen Systems geäußert. Des Weiteren wird v. a. die Entwicklung und Einbindung einer robusteren vollautomatischen Segmentierungsmethode sowie einer (semi)automatischen Nachkorrektur vorangetrieben.

Use Case 1: Narragonien 2.0

Unterstützung der Entwicklung von OCR4all

Der UseCase hat die Entwicklung von OCR4all kontinuierlich unterstützt. Neben der Bereitstellung von Narrenschiff-Digitalisaten und von händisch erstellten Ground-Truth-Daten hat das Narragonien-Team seine literaturwissenschaftliche Expertise in die Weiterentwicklung von OCR4all eingebracht: Mit den informatischen Kollegen wurden Fragen der Nutzerfreundlichkeit und Anwenderperspektive diskutiert, Optimierungen des Workflows erörtert und die Usability der Benutzeroberfläche geprüft. In Kooperation mit den Informatikern wurden Setup- und User-Guides in englischer und deutscher Sprache für nicht-informatische Nutzer verfasst und Guidelines für OCR4all erstellt (Layoutsegmentierung, Ground-Truth-Erstellung usw.). Zudem hat das Narragonien-Team mehrere aufwendige Evaluationsdatensätze erstellt (Text- und Layout-Ground-Truth), die für die Veröffentlichungen zu OCR4all verwendet wurden, u.a. für [Reul et al. 2019c], an denen die Narragonien-Mitarbeiter M. Wehner und Chr. Grundig beteiligt waren.

OCR-Erkennung von Narrenschiff-Ausgaben

Dank der Fortschritte von OCR4all konnte die Transkription von Narrenschiff-Drucken, die aufgrund der OCR-Probleme in der ersten Projektphase v.a. händisch erfolgen musste, weitgehend automatisiert werden. Indem man händisch korrigiertes Textmaterial zugrunde legte, wurden neue, sog. „gemischte Modelle” trainiert, die die Erkennung von neuen Narrenschiff-Ausgaben stark erleichterten ([Springmann und Lüdeling, 2017]). So konnten mit vergleichsweise geringem Aufwand mit OCR4all weitere Ausgaben / Bearbeitungen und mehrere Einzelexemplare des Narrenschiffs erschlossen werden. Es wurden dabei Genauigkeiten von bis zu 99,8% erreicht. Für die Frühdruckzeit empfiehlt sich die OCR nunmehr als texterschließende Standardtechnik, die auch von nicht-Informatikern erfolgreich genutzt werden kann.

Kollaboratives Arbeiten mit Semantic MediaWiki

Im „Narragonien“-Projekt wurden die erarbeiteten Narrenschiff-Texte in einem Semantic MediaWiki (SMW) erfasst, am Digitalisat korrigiert und zu Lesetexten normalisiert. Diese wurden mit einem übergreifenden Orts- und Namensregister sowie mit einem Quellenregister verknüpft (s.u. zu TA 1.2.1). Um die Langlebigkeit dieser Daten und ihre plattformübergreifende Weiterverwendung zu gewährleisten, wurde in Kooperation mit dem ZPD (H. Baier) eine Transformationsroutine entwickelt, die nach festgelegten Regeln aus den Daten des Semantic MediaWiki automatisch XML-Dateien im validen TEI-P5-Format generiert. Dieses TEI-P5-Subset fußt auf dem verbreiteten Basisformat des Deutschen Textarchivs und wurde gegenüber diesem um die TEI-Varianzauszeichnung erweitert. Das SMW hat sich auch für nicht-informatische Nutzer als intuitives Annotations-Tool bewährt. Aufgrund seiner Flexibilität, der leichten Bedienbarkeit und der TEI-Exportoption empfiehlt es sich als Hilfsmittel für kollaborative Texterfassung und grundständige Textauszeichnung. Das SMW wird in den Geisteswissenschaften, u.a. im DFG-Projekt ‚Opera Camerarii‘, bereits nachgenutzt (vgl. http://wiki.camerarius.de, [Baier, Hamm, Schlegelmilch 2019]).

Textkorpus: Europäische Narrenschiff-Ausgaben vor 1500

Der UseCase hat sich das literaturwissenschaftliche Ziel gesetzt, wichtige europäische Narrenschiff-Ausgaben vor 1500 digital zu erschließen (Publizierte Projektbeschreibung und Beispielanalyse bei [Grundig / Hamm / Walter 2017]. Zu späteren Narrenschiffen vgl. etwa [Hamm 2019]). Erschlossen wurden folgende Ausgaben:

  • Sebastian Brant, ‚Narrenschiff‘, Basel 1494 (GW 5041): Digitalisat + Transkription + Lesetext
  • Sebastian Brant, ‚Narrenschiff‘, Basel 1495 (GW 5046): Digitalisat + Transkription + Lesetext
  • Sebastian Brant, ‚Narrenschiff‘, Basel 1499 (GW5047): Digitalisat + Transkription + Lesetext
  • Bearbeitung des ‚Narrenschiffs‘, Nürnberg 1494 (GW 5042): Digitalisat + Transkription + Lesetext
  • Bearbeitung des ‚Narrenschiffs‘, Straßburg 1494/5 (GW 5048): Digitalisat + Transkription + Lesetext
  • Jakob Locher, ‚Stultifera Navis‘, Basel 1.3.1497 (GW 5054): Digitalisat + Transkription
  • Jakob Locher, ‚Stultifera Navis‘, Basel 1.8.1497 (GW 5061): Digitalisat + Transkription + Lesetext
  • Jakob Locher, ‚Stultifera Navis‘, Basel 1498 (GW 5062): Digitalisat + Transkription
  • Niederdeutsche Bearbeitung des ‚Narrenschiffs‘, Lübeck 1497: Transkription + Lesetext
    • Die Transkription dieser Ausgabe wurde freundlicherweise von dem Projekt „Mittelniederdeutsch in Lübeck“ (MiL; WWU Münster; Dr. Robert Peters, Norbert Lange) zur Verfügung gestellt. Im ‚Narragonien digital‘ wurde sie geringfügig überarbeitet und um eine Lesefassung ergänzt. Das Digitalisat wird zeitnah in die Präsentation eingebunden.
  • Pierre Rivière. La Nef des folz, Paris 1497 (GW 5058): Digitalisat + Transkription + Lesetext


Die Transkriptionen bzw. Lesetexte umfassen jeweils ca. 350 Druckseiten, wurden in TEI-P5 kodiert und sind händisch nachkorrigiert. „Narragonien digital“ hat damit ein Textkorpus von 18 TEI-Textfassungen mit einem Gesamtvolumen von 5950 S. (ca. 3500 S. in frühneuhochdeutscher, ca. 350 S. in niederdeutscher, ca. 1400 S. in lateinischer und ca. 350 in französischer Sprache) erarbeitet. Aufgrund der sehr zeitaufwendigen Arbeiten an Register, Quellennachweisen und Variantenkodie-rung (s.o.) sowie aufgrund des Ausscheidens von Chr. Grundig (Vgl. [Grundig 2012], [Grundig 2016]. Die von J. Hamm betreute Dissertationsschrift von Christine Grundig, die u.a. das deutsche, lateinische und englische Narrenschiff behandelt, soll im Sommer 2020 eingereicht werden) sind die Abschlussarbeiten und Endkorrekturen an den restlichen Narrenschiff-Ausgaben noch nicht beendet. Für die französischen Ausgaben GW 5060 und GW 5065, für die niederländische Fassung GW 5066 und für die englische Bearbeitung (A. Barclay) liegen Transkriptionen und Lesetexte vor, doch TEI-Export und Schlusskorrektur stehen noch aus. Sie werden bis Ende 2020 nachgeholt. Die fertigen Narrenschiff-Texte sind bereits bzw. werden nach und nach in die Digitale Textpräsentation implementiert (s.u.) und als XML-Download verfügbar gemacht.

Digitale Textpräsentation im Internet

Die Projektergebnisse werden unter http://kallimachos.uni-wuerzburg.de/exist/apps/narrenapp/ verfügbar gemacht. Die Arbeitsversion dieser digitalen Textpräsentation wird momentan kontinuierlich verbessert und ergänzt, dann abschließend korrigiert und soll Ende 2020 freigeschaltet werden.

Diese digitale Präsentation der Narrenschiffe wurde vom ‚Narragonien digital‘-Team konzipiert und programmiert (wiss. Mitarb. D. Heublein, stud. Hilfskraft Y. Herbst). Ziel war es, einige bisher unedierte Narrenschiff-Texte erstmals zugänglich zu machen und an ihnen historische Text-, Bild- und Layouttransformationen der europäischen Narrenschiff-Tradition aufzuzeigen ([Burrichter 2017]; [Hamm 2017]). Diese Narragonien-Homepage wird im Sinne der Datenverfügbarkeit auf dem Kallimachos-Server gehostet. Ihr liegt eine eXist-Datenbank zugrunde, in der die aus dem Wiki exportierten TEI-Dateien der Narrenschiff-Ausgaben gespeichert werden. Eine in der Datenbank entwickelte Applikation bündelt alle Komponenten, die für eine Webpräsentation notwendig sind. Diese App ermöglicht die Darstellung der Daten in einem synoptischen Online-Viewer, der vier Funktionsbereiche umfasst:

  1. Paratexte und Metadaten: Einführungen in das Projekt, Metadaten der Narrenschiffe Forschungsbibliographie, Transkriptions- und Editionsrichtlinien, Register der Orte und Namen und der in margine zitierten Quellen, Downloadbereich (Verlinkung der Digitalisate und Bereitstellung der XML/TEI-Dateien mit Transkription und Lesetext).
  2. Präsentation der Lesetexte: Lesetexte mit den jeweiligen Digitalisaten; Verknüpfung der Orts- und Personennamen mit dem Gesamtregister; interlineare Anzeige von Auflagenvarianten, Presskorrekturen sowie Emendationen der Herausgeber; Kapitelverzeichnis; Suchfunktion.
    1. von Brants Narrenschiff (Basel 1495, GW 5046) mit den Textvarianten der ersten (Basel 1494; GW 5041) und der dritten Ausgabe (Basel 1499; GW 5047).
    2. der Nürnberger Bearbeitung (GW 5042)
    3. der Straßburger Bearbeitung (GW 5048)
  3. Synoptische Darstellung: Zur Präsentation der Einzeltexte tritt eine frei konfigurierbare Zwei-Fenster-Synopse. Sie erlaubt es, zwei beliebige Narrenschiffe bzw. zwei mediale Repräsentationen eines Narrenschiffs kapitelweise gegenüberzustellen. So lässt sich etwa das Digitalisat des Straßburger Narrenschiffs im linken und sein Lesetext im rechten Fenster anzeigen, so dass die vergleichende Lektüre in Bild und Text möglich wird. Es lassen sich aber auch z.B. in das linke Fenster das deutsche und in das rechte das lateinische Narrenschiff laden, so dass die lateinische Bearbeitung mit ihrer deutschen Vorlage vergleichbar ist. In der Synopse enthalten sind, jeweils mit Transkription und Lesetexte: GW 5041, GW 5042, GW 5046, GW 5047, GW 5048. Die anderen erarbeiteten Textfassungen werden zeitnah eingestellt. Durch den modularen Aufbau der eXist-Applikation ist die Synopse auch für andere digitale Editionsprojekte nachnutzbar.
  4. Die Suchfunktion umfasst die Textsuche in einem Einzeltext, ermöglicht aber auch eine ausgabenübergreifende Layoutsuche im Sinne einer Filterung nach Layoutbereichen. So lassen sich etwa zu allen Narrenschiffen die Holzschnitte zum 3. Kapitel oder die Mottoverse zu Kap. 12 anzeigen. Veränderungen im Layout und die „intermediale Varianz“ ([Hamm 2016]) der Narrenschiff-Überlieferung werden so darstellbar und leichter untersuchbar.


Die Präsentation der europäischen Narrenschiffe, die bis Ende 2020 um die restlichen Texte erweitert werden soll, geht über das übliche Format einer „digitalen Edition“ weit hinaus. Es handelt sich um ein integriertes Tool, das Texte nicht nur anzeigt, sondern in verschiedenen medialen Ausprägungen präsentiert und zugleich ihre überlieferungsgeschichtliche Bewegung darstellbar und nachvollziehbar macht. Ergebnisse aus dieser vergleichenden Narrenschiff-Analyse wurden von der Projektgruppe in Vorträgen präsentiert und in Aufsätzen publiziert, vgl. zuletzt u.a. [Burrichter 2019a], [Burrichter 2019b], [Burrichter 2019c], [Hamm 2019], [Hamm i.Dr.]. Mit dem Viewer und der online-Präsentation der Narrenschiffe erhält die Forschung nicht nur Zugriff auf bisher unedierte Narrenschiff-Ausgaben, sondern zudem ein innovatives Hilfsmittel für den philologischen Textvergleich und für die Analyse der frühneuzeitlichen Narrenliteratur in Europa.

Projektanträge, Tagungen, Vorträge usw.

(Publikationen s. Literaturverzeichnis)

Folge-Projektanträge, Weiterverwendung der Projektergebnisse

  • Paratextualität und Übersetzungspraxis in der belehrenden Literatur in der Frühen Neuzeit / Paratextualité et littérature didactique au début de l’ère moderne. Deutsch-Französischer Antrag bei der DFG im Programm DFG-ANR, Antragstellerinnen Brigitte Burrichter und Anne-Laure Metzger-Rambach (Université Bordeaux-Montaigne), eingereicht am 12. März 2020.
  • Camerarius digital. Antrag bei der DFG im Programm Sachbeihilfe. Antragsteller Thomas Baier, Joachim Hamm, Frank Puppe, Ulrich Schlegelmilch, eingereicht am 7. Februar 2020 [Nachfolgeprojekt zu ‚Opera Camerarii‘; Einsatz von Semantic MediaWiki sowie von OCR4all für griechischer und lateinischer Frühdrucke im Humanismus]
  • Praktika für OCR4all im Masterstudiengang „Mittelalter und Frühe Neuzeit“ der Univ. Würzburg
  • Aufnahme der korrigierten OCR-Transkriptionen von mehreren Narrenschiffen in das "GT4HistOCR dataset", das trainierte OCR-Modelle für die Texterkennung frühneuzeitlicher Drucke zur Verfügung stellt [Springmann et al. 2018].


Tagungen, Workshops, Exkursionen der Projektgruppe

  • Bordeaux, 31.5.bis 1.6. 2018: Die von Brigitte Burrichter und Anne-Laure Metzger-Rambach veranstaltete, internationale Tagung Les Nefs des folz en Europe fand vom 31.5. bis 1.6.2018 an der Universität Bordeaux statt. Gegenstand waren die Bearbeitungen des Narrenschiffs und der ‚Stultifera navis‘ im frühneuzeitlichen Europa.
  • Würzburg, 24.5. bis 25.5. 2019: Workshop zum aktuellen Stand der geplanten online-Edition. Teilgenommen haben als Gäste Anne-Laure Metzger-Rambach (Bordeaux), Micheal Rupp (Leipzig) und Thomas Wilhelmi (Heidelberg) sowie alle Mitarbeiter der Würzburger Arbeitsgruppe.
  • Oberrhein, 31.10. bis 2.11. 2019: Exkursion nach Straßburg und Basel, organisiert von Thomas Wilhelmi (Heidelberg). Teilgenommen haben die Mitarbeiter der Würzburger Arbeitsgruppe.


Vorträge:

  • Joachim Hamm: "Gen Narragonien". Sebastian Brants 'Narrenschiff' (1494) und seine deutschsprachigen Bearbeitungen im 16. Jahrhundert. Gastvortrag an der Univ. Braunschweig, 16.4.2019.
  • Brigitte Burrichter: Sebastian Brant im Kontext. Workshop an der Ecole Normale Supérieure de Paris, 11. Februar 2019.
  • Brigitte Burrichter: „Les Nefs des fous dans le contexte européen“, Vortrag im Rahmen der Tagung „À la recherche de Sébastian Brant (1457-1541), Straßburg, 8. Februar 2019
  • Joachim Hamm: Narragonien digital. Gastvortrag an der Univ. Saarbrücken, 14.6.2018.
  • Brigitte Burrichter: Les Nefs des folz en numérique. Une édition en ligne des Nefs européennes. Vortrag auf der Tagung "Les Nefs des folz en Europe" (Bordeaux), 31.5.-1.6.2018.
  • Raphaëlle Jung: Le chapitre B99 de la Nef des fous – une analyse comparée. Vortrag auf der Tagung "Les Nefs des folz en Europe" (Bordeaux), 31.5.-1.6.2018.
  • Christine Grundig: « Here maketh myne Autour a specyall mencion – Konzepte von Adaptation und Autorschaft in den englischen ‘Narrenschiff’-Bearbeitungen von Alexander Barclay und Henry Watson. Vortrag auf der Tagung "Les Nefs des folz en Europe" (Bordeaux), 31.5.-1.6.2018.
  • Joachim Hamm: Varianz und Autorschaft. Zu den Basler Ausgaben der ‚Stultifera navis’. Vortrag auf der Tagung "Les Nefs des folz en Europe" (Bordeaux), 31.5.-1.6.2018.
  • Dominika Heublein: Argumentauszeichung in TEI. Vortrag auf der Tagung "Les Nefs des folz en Europe" (Bordeaux), 31.5.-1.6.2018.
  • Julius Goldmann: Das Bild im Text - Bezüge zwischen Narration und Holzschnitt. Vortrag auf der Tagung "Les Nefs des folz en Europe" (Bordeaux), 31.5.-1.6.2018.
  • Joachim Hamm (gemeinsam mit Frank Puppe, Nico Balbach): Interne Kollation und Varianzanalyse in Narragonien digital 2.0. Vortrag beim Philtag 15, Univ. Würzburg. 10.4.2018.
  • Brigitte Burrichter: Sebastian Brant im Kontext. Workshop an der Ecole Normale Supérieure de Paris, 5. Februar 2018.
  • Joachim Hamm: Gelehrte Narreteien. Das 'Narrenschiff' von Sebastian Brant und das Würzburger Projekt "Narragonien digital". Vortrag im Alten Rathaus von Miltenberg in der Vortragsreihe des Unibun-es, 16.1.2018.
  • Joachim Hamm: Eine integrierte digitale Edition der 'Narrenschiffe' vor 1500. Vortrag in der Vortragsreihe des Akademieprojekts "Der Österreichische Bibelübersetzer", Univ. Augsburg, 30.11.2017.
  • Brigitte Burrichter: Patrice et les Dernydes. Les versions françaises de la Nef des fous de Sebastian Brant. Vortrag bei der Tagung Translatio et histoire des idées an der Universität Warschau vom 19. bis 21. Oktober 2017.
  • Joachim Hamm: Unfeste Texte? Überlegungen zu den ‚Narrenschiffen‘ der Frühen Neuzeit. Vortrag beim Internationalen Symposiums "Das 15. Jahrhundert", Melanchthon-Akademie Bretten, 12. bis 14. Oktober 2017.


Use Case 5: Anagnosis 2.0

Mit dem Training einer OCR auf griechischen Drucken von Aldus Manutius wurde zum ersten Mal versucht, die stark von handschriftlichen Ligaturen durchsetzten frühneuzeitlichen Drucke griechi-scher Klassiker zu erfassen. Die erste Phase der Arbeiten am Use Case Anagnosis wurde einer Ab-schätzung des Umsetzungsaufwandes für die vorgesehenen Arbeitsschritte anhand einer Auswahl an repräsentativen Ausgaben gewidmet. Voraussetzung dafür war die Anfang Oktober 2017 erfolgte Beschaffung des dazu benötigten Materials in Form hochauflösender Bildaufnahmen von den jeweiligen Host-Institutionen (Bayerische Staatsbibliothek, Universitätsbibliothek Jena). Bei der Auswahl der zu testenden Ausgaben wurde darauf geachtet, dass diese jeweils wenigstens bereits in Volltextdatenbanken vorhanden sind oder als älteste Quelle für den betreffenden Text gelten (da die handschriftliche Vorlage verloren ist). Darüber hinaus musste die Auswahl die verschiedenen Schrifttypen repräsentativ abbilden, die im Tätigkeitszeitraum der Werkstatt des Aldus Manutius (sowohl zu seinen Lebzeiten als auch nach dessen Tod) für den Satz griechischer Schrift verwandt wurden. Es wurden demnach folgende Drucke als Textgrundlage ausgewählt: Epistolae diversorum philosophorum, oratorum, rhetorum (Manutius 1499; ISTC ie00064000, GW 09367). Schrifttyp 7:114Gr nach GW; Galeni opera omnia (Manutius, Andreas Asolanus 1525), s. dazu (perilli2012); Schrifttyp 9:84Gr nach GW.

Mit der Arbeit an der Texterkennung der frühen Drucke wurden zwei sich gegenseitig bedingende Ziele verfolgt: (1) Erreichung einer Mindesterkennungsrate, welche für die das Sequence Alignment genügt (s. unten); (2) Verfeinerung der OCR-Ergebnisse, so dass sie wiederum als Ground Truth für die Weiterentwicklung des Erkennungsalgorithmus eingesetzt werden können. Beide Ziele konnte im Berichtszeitraum umgesetzt werden. An der Verfeinerung der OCR-Erkennung wurde durch manuelle Eingabe der Ground Truth, wobei insgesamt ca. 550 Zeilen GT erstellt wurden, dann durch Nachkorrektur der jeweils erstellten Ergebnisse gearbeitet. Die Eingabe der Ground Truth zum Training der verschiedenen Modelle erfolgte zunächst durch OCR4All (s. Kap. 1.1). Die erzielte Erkennungsgenauigkeit schwankt in Abhängigkeit der Qualität der Vorlagen stark, reicht aber meist für das Sequence Alignment aus, d.h. dem Auffinden eventueller bereits transkribierter Texte aus einer Datensammlung. Eine Übersicht findet sich im Poster „Aligning extant transcriptions of documentary and literary papyri with their glyphs“ (Link)

Der Workflow des Sequence Alignment Tools [Bald et al. 19] besteht aus folgenden Schritten. Vor dem Sequence Alignment werden die durch Texterkennung erstellten Zeilen normalisiert (Entfernen der Diakritika), um die Chance zu erhöhen, jeweils passende Entsprechungen im Vergleichstext zu finden. Durch eine Ähnlichkeitsmessung der Textanfänge wird zunächst das Vergleichsdokument in der Volltextdatenbank mit der höchsten Entsprechung vorausgewählt. Anschließend wird jede zu transkribierende Zeile (im folgende "OCR-Zeile" genannt) in N-Gramme aus fünf Zeichen segmentiert und diese im Vergleichstext (im folgenden Ground-Truth bzw. GT-Zeile genannt) gesucht. Aus lokalen Clustern von Treffern bei der N-Gramm-Suche werden Kandidaten generiert, die hinsichtlich der Anzahl der gefundenen N-Gramme und einer Ähnlichkeitsmessung bewertet werden. Aus dieser Einschätzung ergibt sich der jeweils beste Kandidat. Der globale (über die volle Länge der Zeilen alignierende) Needleman-Wunsch-Algorithmus zum Vergleich zweier Zeichenketten richtet die OCR-Zeile und den besten GT-Kandidaten so aufeinander aus, dass möglichst viele Zeichen übereinstimmen. Fehlende Zeichen (z. B. ein Komma) in der OCR-Zeile im Vergleich zur GT-Zeile werden durch Trennstriche (-) aufgefüllt, die Lücken markieren. Dabei wird die Länge der OCR-Zeile an die Länge der GT-Zeile angepasst. Die Ergebnisse des Alignments dienen anschließend als Input für das Korrektur-Tool (s. Abb. 6). Dieses zeigt die originale Textzeile mit der (fehlerhaften) OCR-Transkription und der besten mittels Alignments gefundenen Zeile eines Vergleichstextes, wobei die Unterschiede hervorgehoben werden. Die Nutzer können dann durch Auswahl von Buchstaben entscheiden, welche die korrekte Transkription ist (oder auch den Vergleichstext als Ganzes übernehmen). Abb. 6 zeigt ein Beispiel der Korrektur-Oberfläche des Alignment-Tools.

Abbildung 6: Korrektursicht des OCR-Textkorpus-Aligner für zwei griechische Textzeilen: Oben jeweils die Originalzeile, darunter die durch Alignment ausgewählter Vergleichszeile ("GT") und unten die durch OCR transkribierte Zeile, wobei durch farbige Markierungen die Ground Truth festgelegt wird (ganz unten ein virtueller Editor mit domänenspezifischen Sonderzeichen).

Angesichts der positiven Ergebnisse bei der Bearbeitung frühneuzeitlicher Drucke wurde die Synergie von Texterkennung mittels OCR4all und Alignment-Tool vor allem in der letzten Projektphase zur Herstellung von Ground Truth in einer griechischen Handschrift aus dem 16. Jahrhundert (BML, Plut. 75.7) eingesetzt, die noch nie zuvor vollständig transkribiert wurde. Ein solches historisches Dokument stellte somit ein interessantes Experimentierfeld für die im Teilprojekt entwickelten Funktionen dar. Das Hauptkriterium für die Auswahl dieser Handschrift war die Tatsache, dass sich die Form der Buchstaben im Manuskript nicht wesentlich vom Druckbild der in der Anfangsphase verwendeten Manutius-Ausgaben unterscheidet. Die Ergebnisse dieses ersten Versuchs geben Anlass zur Hoffnung, dass durch die systematische und integrierte Anwendung beider Verfahren (Texterkennung u. Aligment) das Ground Truth wesentlich schneller als bei einer manuellen Bearbeitung hergestellt werden kann, was wiederum zu einer bedeutenden Optimierung der Texterkennung noch nicht transkribierter Passagen beitragen kann.

Die Arbeiten zur Integration des Alignment-Tools in OCR4all wurden begonnen, konnten aber im Berichtszeitraum nicht abgeschlossen werden. Dazu ist aus Gründen der Software-Kompatibilität eine weitgehende Neuimplementierung des Alignment-Tools erforderlich. Derzeit muss der Schritt des Alignments einer OCR-Transkription mit auszuwählenden Vergleichstexten in einer separaten Applikation durchgeführt werden. Das Ergebnis kann hochgeladen und im LAREX-Editor von OCR4all zwecks Korrektur nachbearbeitet werden.

AP2: Information Extraction

TA 1.2.1: Entwicklung von Verfahren zur semi-automatischen Verschlagwortung

Die konzeptuelle Vorarbeit im UseCase “Narragonien” wurde dahingehend weitergeführt, dass eine (händische und analoge) Auszeichnung von geeigneten Begriffen an einem Text erprobt wurde. Die Ausweitung auf andere Texte und vor allem die angedachte technische Unterstützung sind komplex, da die Narrenschiff-Texte in einer älteren Sprachstufe geschrieben sind, für die es keine Ontologien gibt und die Übersetzung der Begriffe in die anderen Sprachen sich nicht auf Wörterbücher stützen kann. Angedachte Lösungen dieses Problems – etwa selbst generierte und bearbeitete Wörterbücher auf der Basis der Texte als Ausgangspunkt – waren aufgrund der personellen Ressourcen nicht realisierbar. Letztlich fiel die Entscheidung, alle Kräfte auf die Entwicklung des Viewers zu konzentrieren, damit dieser zum Projektende zur Verfügung steht. Die Arbeit an der Verschlagwortung soll nach Projektende weitergeführt werden. Ungeachtet des noch fehlenden Sachregisters wurden alle Narrenschiffe durch ein Personen- und Ortsregister erschlossen.

Hierzu wurden die Lesetexte (s.o. 1.1 AP1 “UseCase 1: Narragonien”) mit einem übergreifenden Gesamtregister verknüpft, das im Semantic MediaWiki erstellt wurde und insg. 975 Orts- und Personennamen enthält. Jeder Registereintrag wurde mit der GND und mit fachspezifischen Personen- und Ortslexika verknüpft und vom ‚Narragonien‘-Team ausführlich beschrieben. Dieses digitale Register geht über den üblichen verweisenden Paratext des Printmediums weit hinaus:

  • Zum einen bilden die digitalen Erläuterungen gleichsam einen Kommentar zu den Narrenschiffen in nuce, da sie die komplexen Anspielungen der Narrendichter auf biblische, historische und literarische Personen und Orte transparent und nachvollziehbar machen. Dies folgt dem Vorbild der Printausgabe des deutschen Narrenschiffs [Knape 2005], dessen Lemmatazahl freilich erheblich erweitert wurde.
  • Zum anderen umfasst das Online-Register nicht nur ein einzelnes, sondern alle digital erschlossenen Narrenschiffe, integriert also die deutsche Originalausgabe ebenso wie die deutschen, niederdeutschen, englischen, französischen, niederländischen und lateinischen Bearbeitungen. Indem in jedem Registereintrag dank der Wikitechnik die Belegstellen in diesen Narrenschiffen automatisch aufgelistet und im Viewer angezeigt werden, kann der Nutzer zur entsprechenden Textstelle springen und sofort ersehen, welche Narrenschiffe den jeweiligen Personen- bzw. Ortsnamen enthalten - und welche ihn nicht aus ihrer Vorlage übernehmen wollten.


Das Orts- und Namenregister eignet sich für die Nachnutzung durch andere geisteswissenschaftliche Semantic MediaWiki Projekte, die sich mit der Frühen Neuzeit beschäftigen. Dies gilt auch für das Belegstellenregister: Die Latinistinnen Rena Buß und Helena Wächter aus dem ‚Narragonien‘-Team haben die ca. 1400 (!) lateinischen Quellenverweise (loca concordantia), die Sebastian Brant in die 'Stultifera navis' eingefügt hatte, einzeln identifiziert und im Wiki mit dem Volltext der zitierten Textstelle (v.a. Bibel, antike Klassiker, Rechtstexte) verknüpft. Diese umfangreiche Sammlung lässt sich in zwei Richtungen verwenden. Folgt man den Links im Narrenschiff-Text, so wird der jeweilige Quellenverweis aufgelöst und man liest das Bibel- bzw. Klassikerzitat im Volltext. Geht man vom Register aus, so lässt sich eruieren, wie viele und welche Narrenschiffe auf eine bestimmte Belegstelle verweisen, wo also z.B. an die biblische Erzählung vom Armen Lazarus erinnert oder aus Ciceros Verresreden zitiert wird.

Die beiden Register sind erste Bausteine zu einem Gesamtkommentar der frühneuzeitlichen Narrenschiffe, der seit den Anfängen der Forschung im frühen 19. Jahrhundert ein Desiderat ist. Sie nutzen die Technik der semantischen Verknüpfung, die ein Semantic MediaWiki bereitstellt. Diese Verknüpfungen wurden durch die im Projekt entwickelte Transformationsroutine in das TEI-Format übertragen und in die digitale Präsentation der Narrenschiffe übernommen.

TA 1.2.2: Workflow zur Varianzanalyse

In Kooperation mit dem UseCase „Narragonien digital” wurde der „Variance-Viewer” entwickelt (s. die ergänzende Beschreibung unten zu “Use Case 1: Narragonien digital 2.0”). Es handelt sich um ein Open-Source-Tool, das Differenzen zwischen zwei Texten auf Zeichenebene findet und in verschiedene Kategorien differenziert und visualisiert, die die Nutzer über eine Konfigurationsdatei selbst definieren können [Balbach et al. 2020]. Dadurch sollen sie in die Lage versetzt werden, sich schnell einen Überblick über die wesentlichen Unterschiede zwischen Texten zu machen und systematisch bedingte Unterschiede (z.B. bezüglich Normalisierung von Texten) auf einen Blick zu erkennen. Derzeit kann der Variance-Viewer auf Basis eines generischen Konzeptes von Einfügungen, Ersetzungen und Löschungen folgende Kategorien von Unterschieden erkennen (vgl. Abb. 7):

Abbildung 7: Vergleich des edierten Lesetextes der Narrenschiff-Ausgabe GW5041 mit dem Ergebnis der OCR auf dem Originaltext einer anderen Druckausgabe, wobei die Änderungen sowohl OCR-Fehler als auch Normalisierungen der Schrift im Lesetext umfassen. Dies ist durch Hervorhebung der Änderungstypen in verschiedenen Farben leichter nachvollziehbar (Erläuterung der Typen im Text). Unten eine Statistik, die die 6523 gefundenen Änderungen nach Änderungstypen aufschlüsselt. Der Gesamttext umfasste 150 Seiten mit 4200 Zeilen, 26000 Wörtern und 121000 Zeichen und die zugehörige Konfigurationsdatei ("Settings") ca. 100 Zeilen. Für diese Analyse brauchte der Variance-Viewer in dem serverseitig ausgeführten Demo-Modus im Web ca. 25 Sekunden (für intensive Nutzung sollte der Open Source Code lokal installiert werden: https://github.com/cs6-uniwue/Variance-Viewer
  • Satzzeichen (Punctuation): Die Änderung bezieht sich nur auf ein Satzzeichen (. , ; - ? ! usw.).
  • Grapheme (Graphemics): Die Änderung bezieht sich nur auf bestimmte Schreibweisen (ae ä; ue ü; oe ö; ss ß; Groß/Kleinschreibung; th t; usw.).
  • Abkürzungen (Abbreviations): Die Änderung bezieht sich nur auf Abkürzungen (z.B. Dr. Doktor; Hr. Herr Herrn; usw.).
  • Leerzeichen im Wort, die ein Wort in zwei oder mehrere Wörter auftrennen. (Separation). Diese Option ist technisch aufwändiger, weil nicht einzelne Wörter, sondern Wortgruppen miteinander verglichen werden müssen.
  • Inhaltsänderungen mit nur einem Zeichen Unterschied (OneDifference), die nicht in der Graphem-Liste enthalten sind und anders bewertet werden als komplexere Änderungen.
  • Inhalt (Content): Alle übrigen Änderungen, die keiner der obigen Kategorien zugeordnet werden können einschließlich Hinzufügen oder Löschen sowie Änderungen, bei denen mehr als eine Änderung der obigen Typen gleichzeitig vorkommt.


Zusätzlich wurden prototypisch auch typographische Änderungen analysiert, die nicht den Inhalt, sondern das Layout betreffen, wobei zunächst nur das TEI-Element „rend” mit entsprechenden Attributen (kursiv; gesperrt; usw.) analysiert wird und angezeigt wird.

Der „Variance Viewer" hat sich in der Praxis der Varianzanalyse insb. im UseCase „Narragonien digi-tal” (s.u. zu „UseCase 1”) bewährt, nicht zuletzt, weil er die festgestellten Zeichenunterschiede automatisch zuvor festgelegten Typen von Varianz zuweisen kann (z.B. Varianz in Interpunktion, Graphematik / Abbreviaturen usw.) und die Varianzdarstellung durch die Markierung dieser Typen erheblich übersichtlicher macht. Der Variance-Viewer wurde wegen seiner einfachen Bedienung auch außerhalb des Kallimachos-Projektes eingesetzt, u.a. im Richard Wagner Schriften Projekt.

TA 1.2.3: Sequence Alignment

Die Arbeiten zum Sequence Alignment erfolgten in Kontext des Use Case 5 Anagnosis (s.a.)

TA 1.2.4: Entwicklung eines Tools zur automatischen Szenenerkennung

Nach anfänglichen Schwierigkeiten in der Erstellung von Guidelines ist es dennoch gelungen, sowohl einen Datensatz zu erstellen (der aktuell und über das Projektende hinaus noch weiterentwickelt wird) als auch eine Architektur eines Neuronalen Netzes zu finden, dass die Szenen automatisch mit großer Genauigkeit entdeckt.

TA 1.2.4.1: Konzeptionelle Modellierung von Handlungsabfolgen

Im Rahmen dieses Projektes zeigte sich, dass bereits eine manuelle Annotation von Szenen aus literaturwissenschaftlicher Sicht sehr schwierig ist. Letztlich wurde in gemeinsamen Anstrengungen mit Prof. Gius (Hamburg) und Prof. Reiter (Darmstadt) mehrere verschiedene Definitionen von Szenen sowie deren Operationalisierbarkeit untersucht. Im Rahmen dieser Zusammenarbeit entstanden drei verschiedene Guidelines mit zugehörig annotierten Daten, die anschließend gemeinsam auf einen Satz von Annotationsrichtlinien reduziert wurden. Diese Kollaboration wird auch über das Projektende weiterhin bestehen, so dass mehr manuelle Daten annotiert werden können, und die automatische Komponente durch mehr Trainingsdaten verlässlicher werden kann.

Die entstandenen Richtlinien sowie die Annotationen wurden im Rahmen eines Panels auf der DH 2019 einem Fachpublikum vorgestellt und dort diskutiert (Gius et al. 2019).

TA 1.2.4.2: Annotation und automatische Erkennung von Handlungsabfolgen

Unabhängig von der Schwierigkeit der Datenakquise wurde ein Algorithmus basierend auf Deep Learning und Voting entwickelt, der in der Lage ist, automatisch Szenengrenzen mit ca. 90% Genauigkeit vorherzusagen. Erfreulich dabei ist, dass dieser Algorithmus weder besonders viele Daten für diese Erkennungsgenauigkeit benötigt (ca. 10 Heftromane waren dafür ausreichend), noch besonders auf eine Guideline angepasst ist. Da wir Datensätze für mehrere Guidelines zur Verfügung hatten, konnten wir empirisch verifizieren, dass der gleiche Algorithmus bei Vorliegen geeigneter Trainingsdaten in der Lage ist, auch diese Guidelines zu verinnerlichen und anschließend mit hoher Genauigkeit Szenen zu erkennen.

Der Algorithmus arbeitet dabei in einem Sliding-Window Verfahren, mit einer Fenstergröße von mindestens 10 Sätzen. Jeder Satz wird BERT kodiert und anschließend werden mit Hilfe von verschiedenen Convolution und Rekurrenten Layern Features eines Satzes extrahiert (siehe Abb. 8).

Abbildung 8: Abbildung der Satzrepräsentation in der Neuronalen Architektur für die automatische Szenenerkennung.

Diese Satzrepräsentationen werden anschließend von einem weiteren LSTM verarbeitet, woraus für jeden Satz innerhalb des Fensters anschließend eine Vorhersage getroffen wird, ob dieser eine Szenengrenze darstellt oder nicht. Da jeder Satz in mehreren dieser Fenster enthalten ist, werden alle Vorhersagen aggregiert und mittels eines Voting Verfahrens die finale Aussage getroffen.

Die hohe Genauigkeit ohne den weiteren Bedarf von externen Features, wie Orte oder eine feingranulare Aussage über aktuell Anwesende und Abwesende Figuren verhalf dazu, dass trotz der Verzögerung der Annotation doch ein gutes Verfahren gefunden werden konnte. Das daraus resultierende Paper (Herud et al 2020) befindet sich aktuell unter Begutachtung für die ACL, einer hochrangigen Konferenz im Bereich Natural Language Processing.

TA 1.2.4.3: Integration der entwickelten Methoden in einen gemeinsamen prototypischen end-to-end UIMA-Workflow

Aufgrund der Nutzung von Deep Learning für die automatische Erkennung von Szenen wurde dieser Arbeitsschritt in Python durchgeführt. Dieser Code arbeitet auf einem JSON Format, für das ein Konverter von und nach UIMA-xmi vorliegt, so dass zumindest die Ergebnisse im UIMA-Workflow nutzbar sind. Des Weiteren wurde bereits in Kallimachos I eine Komponente für Python entwickelt, die es Pythonnutzern ermöglicht, direkt mit xmi-Dokumenten zu arbeiten.

TA 1.2.5: Verfeinerung der Figurenanalyse (Named Entity Recognition, Coreference Resolution, Relationserkennung zwischen Figuren, Sentimenterkennung)

Im Rahmen dieses Arbeitspaketes wurden sowohl diverse Experimente für die Entwicklung einer Figurenerkennung auf Basis des in Kallimachos annotierten Datensatzes DROC durchgeführt, als auch die Koreferenz um Relation und um die Möglichkeit, nutzerspezifisches Wissen zu integrieren, erweitert. Des Weiteren wurde eine Architektur eines Neuronalen Netzes entwickelt, das den emotionalen Verlauf von Figuren in Romanen verfolgen kann.

TA 1.2.5.1: Feingranulare Attribuierung der Figuren durch Wissensmodellierung

Mit Hilfe vorhandener Daten aus Kallimachos I konnten für dieses Arbeitspaket diverse Untersuchungen und Erweiterungen vorgenommen werden. Die Erkennung von Figuren in Romanen ist zunächst in zwei Teile aufgeteilt: a) die Erkennung und Auflösung von Figurenreferenzen und b) die Extraktion von Relationen zwischen den Figuren.

Da üblicherweise, wie auch zu Beginn von Kallimachos I, keine annotierten Daten der Domäne vorliegen, wurden diverse Untersuchungen für eine automatische Domänenanpassung bei der Erkennung von Figurenreferenzen vorgenommen (siehe Abb. 9).

Abbildung 9: Verschiedene Ansätze für die Entwicklung einer Figurenreferenzerkennung mit hoher Qualität.

Dabei stellte sich heraus, dass nur mit Daten einer anderen Domäne sowie aus dem Internet zusammen gestellten Listen eine Erkennungsqualität von über 80% F1-Score erreicht werden kann. Möchte man über 90% F1-Score, so benötigt man entweder einen sehr guten Regelingenieur, oder man muss Daten der Zieldomäne annotieren. Es konnte auch gezeigt werden, dass eine Kombination der regelbasierten Komponente und der gelernten Komponente Ergebnisse von 92% erreicht, und somit insgesamt am besten abschneidet.

Die Koreferenz wurde mit globalen Constraints und einer Komponente zur Integration von nutzerspezifischem Wissen aus Zusammenfassungen erweitert (siehe TA 1.5.3).

Im Bereich der Relationserkennung wurde mit Methoden des Deep Learnings die automatische Erkennung von Sprecher und Angesprochenem erweitert, so dass gute Erkennungsgenauigkeiten von über 90% auch auf englischsprachigen Texten möglich sind. Die Nutzung von Deep Learning für die Erkennung von Familienrelationen konnte die Ergebnisse aus Kallimachos I nicht übertreffen, so dass für diese Komponente nach wie vor eine Kombination aus einer regelbasierten und einer maschinellen Lernkomponente im Einsatz ist. Mittels mit ATHEN annotierten Zusammenfassungen konnten diverse Untersuchungen für die Evaluation automatisch extrahierter Figurennetzwerke gemacht. Die Kernergebnisse zeigen, dass die Kernfiguren mit einer hohen Genauigkeit erkannt werden, die Relationen allerdings nicht gut erkannt werden, was durch eine Fehleranalyse auf die Problematik der Koreferenzanalyse zurückgeführt werden konnte.

Hierzu befinden sich aktuell noch zwei Journal-Paper unter Begutachtung (Krug et al 2020a; Krug et al 2020b)

TA 1.2.5.2: Erweiterung der Relationen um Dimensionen der Emotionalität und Polarität)

Zur Erweiterung der extrahierten Relationen um emotionale Beziehungen wurde eine Bachelorarbeit betreut, in der aufbauend auf einer Vorarbeit von Kim und Klinger [Kim et al. 2019] die Analyse von Emotionen in Interaktionen zwischen Figuren verbessert wurde. Dazu wurde zunächst ein Modell für die Klassifikation von in kurzen Textausschnitten, die zwei Figuren enthalten, beschriebenen Emotionen entwickelt, das die Ergebnisse von Kim und Klinger nahezu immer verbessert. Anschließend wurde eine Methode entwickelt, um die extrahierten Emotionen über den Text zu aggregieren und damit die Gesamtrelation der Figuren zu erkennen. Weiterhin können mit dieser Methode die Verläufe der Beziehungen zwischen Figuren visualisiert werden, wie in Abbildung 10 exemplarisch gezeigt. Für die Evaluation dieses Verfahrens wurden Beziehungen aus den Harry Potter-Romanen von J.K. Rowling manuell annotiert. Das daraus entstandene Paper (Zehe et al 2020) ist aktuell unter Begutachtung für die KONVENS. Das annotierte Korpus wird spätestens mit Veröffentlichung des Papers ebenfalls für weitere Forschung freigegeben.

Abbildung 10: Verlauf der Sentiments zwischen verschiedenen Hauptfiguren über Harry Potter

TA 1.2.5.3: Die Integration von globalen Constraints zur Verbesserung der Coreference Resolution

In den bestehenden regelbasierten Algorithmus wurde eine Komponente integriert, die mit Hilfe von automatisch erkannten Familienrelationen zwischen den Figuren, konsistente Ergebnisse erzeugt. Auch wenn dies von Vorteil ist, kann damit die Erkennungsrate allerdings auch nur um etwas 1-2% F1-Score gesteigert werden. Um dies weiter auszunutzen, wurde eine Möglichkeit entworfen, nutzerspezifisches Wissen über einen Text direkt mit in den Algorithmus zu geben. Dies geschieht über eine JSON-Datei. Dieses Wissen umfasst generelle Relationen zwischen Figuren, Spitznamen, sowie Metadaten wie das Geschlecht einzelner Figuren. In einer empirischen Studie wurde dieses Metawissen von Zusammenfassungen manuell extrahiert und dem Algorithmus mitgegeben. Da die manuelle Sammlung dieses Metawissens aus Zusammenfassungen geschieht, nimmt dies nicht viel Zeit in Anspruch. Insgesamt konnten so Verbesserungen von bis zu 10% pro Dokument erreicht werden, insgesamt eine durchschnittliche Verbesserung von 4% F1.

TA 1.2.5.4:Integration der entwickelten Methoden in einen gemeinsamen prototy-pischen end-to-end UIMA-Workflow

Die oben genannten Komponenten sind zur Nutzung zur Verfügung und in einen einheitlichen Workflow integriert.

TA 1.2.6: Erfassung der Metadaten für die literarischen Korpora

Die Metadaten des Korpus deutschsprachiger Romane des 19. Jahrhunderts wurden vollständig durch Angaben zum Erscheinungsdatum bzw. zum engen Erscheinungszeitraum ergänzt. In Fällen in denen das Erscheinen nicht mehr rekonstruierbar ist, wurde eine Schätzung basierend auf dem Alter der AutorInnen vorgenommen. Die Informationen stammen aus einschlägigen Datenbanken sowie aus für diesen Zweck digitalisierten Bibliographien. Damit sind die Metadaten zu Titeln, Autoren und Erscheinungsdatum für 3800 Romane abgeschlossen. Für ein Teilkorpus wurden zusätzlich Erzählperspektive und Gattung ermittelt.

Durch die in AP1 erzielten Fortschritte im Bereich OCR ist es möglich geworden, das Romankorpus weiter aufzustocken. Es wurden 400 Romane aus dem Bestand der Bayerischen Staatsbibliothek in TEI transformiert und in die Sammlung aufgenommen. Der Prozess wird auch nach Ende des Projekts mit der entwickelten Pipeline weitergeführt.

Der Aufbau einer Sammlung kontemporärer Literatur ist durch den Kauf von eBooks (bezahlt aus Mitteln des Lehrstuhls für Computerphilologie) und die Erstellung einer Pipeline zur Transformation in valides TEI vorangeschritten. Die Sammlung teilt sich in die Kategorien Hoch- und Schemaliteratur. Während sich zum jetzigen Zeitpunkt nur 200 Romane der Hochliteratur im Korpus befinden, liegen bereits 1000 sog. Heftchenromane der Schemaliteratur (Liebes-, Grusel- und Science-Fiction-Romane) vor. Dieses Ungleichgewicht lässt sich sowohl auf die gesteigerte Heterogenität im Layout der Hochliteratur, welche die Überführung in TEI erschwert, als auch auf die grundsätzliche Problematik der Klassifikation eines Romans als Hochliteratur zurückführen. Um ein subjektives Ungleichgewicht innerhalb der Sammlung zu vermeiden, wurde auf Listen der Nominierungen für Buchpreise zurückgegriffen (bisher: Deutscher Buchpreis und Büchnerpreis). Die Metadaten konnten flächendeckend der Onlinepräsenz der Verlage entnommen werden. Durch eine Kooperation mit der Deutschen Nationalbibliothek konnte eine wesentlich größere Sammlung von Romanen erschlossen werden. Derzeit befinden sich dort 25.000 Heftromane verschiedener Genres, 2000 Romane der Hochliteratur, welche mit dem oben beschriebenen Kriterium ermittelt wurden, sowie 8000 Romane aus dem Taschenbuch-Segment. Die Texte liegen in TEI und in diversen zur Analyse notwendigen Formaten vor. Um die Romane aus ihrem Quellformat (ebooks) zu extrahieren, wurde eine Komponente entwickelt, welche in naher Zukunft veröffentlicht wird. Während die Sammlung aus erworbenen Romanen zur Entwicklung von Fragestellungen und Methoden verwendet wird, kann das große Korpus der DNB genutzt werden, um statistisch repräsentative Ergebnisse zu erzeugen (siehe Jannidis et al. 2019a; 2019b, 2020). Aus der Kooperation konnte ein Anforderungsprofil für künftige Kooperationen zwischen Forschergruppen und der DNB entwickelt werden. Auf Basis dieser Erfahrungswerte läuft dort aktuell ein Call for Projects.

Use Case 1: Narragonien digital 2.0

Zu den Beiträgen des UseCase „Narragonien digital“ zur Entwicklung von Verfahren der semi-automatischen Verschlagwortung und der Registererstellung (vgl. oben TA 1.2.1.)

Darüber hinaus wurden im ‘Narragonien’-UseCase Aspekte der Varianz untersucht. Als „Varianz“ verstanden werden in diesem Zusammenhang jegliche Art von Abweichungen zwischen verwandten Textausgaben des Narrenschiffs (vgl. [Hamm i.Dr.], [Hamm 2016]): also Unterschiede auf der Buchstaben-, Wort- oder Satzebene, in den Holzschnitten, im Kapitelbestand oder in der Kapitelanordnung. Diese Varianten können in der Frühdruckzeit in aufeinander folgenden Ausgaben begegnen und auf eine Überarbeitung, eine Revision zurückgehen. Sie können aber auch durch direkte Eingriffe in den laufenden Druckprozess entstehen und somit zu Unterschieden zwischen den Exemplaren einer Auflage führen („Presskorrekturen“). Diese (der Frühdruckforschung bekannten) Varianzphänomene sind mediengeschichtlich von Bedeutung, da sie die „Beweglichkeit“ von Texten nicht nur im Handschriften-, sondern auch im Druckzeitalter dokumentieren und die populäre Auffassung, ein gedruckter Text sei unveränderlich, widerlegen.

In der Editionswissenschaft ist das Kollationieren verwandter Textfassungen eine Standardtechnik der Textkritik. Sie wird durch zahlreiche Textvergleichstools, die bereits auf dem Markt sind, unterstützt. Der am Lehrstuhl für künstliche Intelligenz entwickelte ‚Variance Viewer‘ (s. TA 1.2.2) bietet den Vorteil, online in jedem Browser ausgeführt werden und zwei Texte klassifizierend vergleichen zu können. Die im ‚Narragonien‘-Projekt entwickelte Idee bestand darin, die im Textvergleich eruierten Unterschiede (Zeichen, Worte, Sätze usw.) durch die automatische Anwendung von konfigurierbaren Regeln klassifizieren zu lassen. So kann der ‚Variance Viewer‘ etwa Abweichungen, die in die zuvor festgelegten Zeichengruppe ,;!?;. fallen, als „Varianz in der Interpunktion“ klassifizieren und in der Ergebnisanzeige mit eigener Farbmarkierung (ein- / ausblendbar) hervorheben. Diese Erweiterung des ‚Variance Viewers‘ und ihre diversen Tests erfolgten in enger Kooperation mit Nico Balbach.

Die klassifizierende Textkollation wurde am lateinischen Narrenschiff erprobt, da gerade zu diesem mehrere Ausgaben und digitalisierte Druckexemplare vorliegen. Sie erbrachte zwei Ergebnisse:

  1. Die Kollation mit dem ‚Variance Viewer‘ eruierte weit mehr Varianten zwischen der Erst- und Zweitausgabe der 'Stultifera navis' als bisher bekannt. Der Grund hierfür liegt in dem Umstand, dass die Forschung sich bisher auf die gedruckte Teilausgabe der ‚Stultifera navis‘ stützte ([Hartl 2001]), die auf dem Münsteraner Exemplar der Erstausgabe basierte. Dieses Exemplar jedoch erwies sich nach seiner Kollation als Mischfassung aus Erst- und Zweitausgabe (was zuvor unbe-merkt geblieben war), so dass entsprechend weniger Varianten zwischen der ersten und zweiten Narrenschiff-Ausgaben auftraten. Hauptergebnis der ‚Narragonien‘-Kollation ist also, dass Sebastian Brants Revision zwischen der Erst- und Zweitausgabe weitaus umfänglicher und tieferreichend war als bisher bekannt. Dieser Befund wurde auf der Narrenschiff-Tagung in Bordeaux 2018 vorgestellt und wird nun in einer zur Publikation angenommenen Studie veröffentlicht [Hamm i. Dr.].
  2. Nicht bestätigt werden konnte die Hypothese, dass die Exemplare des lateinischen Narren-schiffs (ebenso wie die des deutschen) textuelle Unterschiede aufweisen, die auf Presskorrekturen hinweisen. Mit Hilfe von OCR4all wurden mehrere Exemplare der Erst- und der Zweitauflage der ‚Stultifera navis‘ erkannt (mit einer Genauigkeit von ca. 99,8%) und im ‚Variance Viewer‘ kollationiert. Diese „interne Kollation“ bestätigte zum einen den bereits bekannten Befund, dass einzelne Exemplare der Erstausgabe während der Drucklegung bzw. Bindung um Textseiten oder eine ganze Lage erweitert wurden, die erst in der Zweitausgabe in allen Exemplaren vorhanden sind. Zum anderen ergab die Kollation, dass in den untersuchten Exemplaren der Erst- und Zweitausgabe keinerlei Varianz auf Zeichen-, Wort- oder Satzebene festzustellen war. Hier bieten die lateinische Erst- und Zweitausgabe also einen festen, stabilen Text, und dies im Unterschied zu den volkssprachigen Narrenschiffen: Denn in der Basler Erstausgabe des deutschen Narrenschiffs ließen sich mehrere Presskorrekturen eruieren, und auch in der bisher genauer untersuchten französischen Erstausgabe begegnen, wenn auch in geringem Umfang, Exemplarvarianten (verglichen wurden bisher drei Exemplare), die in der Textpräsentation verzeichnet sind.

Der ‚Variance Viewer‘ kommt dem Standardprozedere eines jeden Editionsprojekts entgegen, das sich mit Varianzphänomenen auseinanderzusetzen hat. Da der Viewer online im Browser läuft und eine Klassifizierungsautomatik besitzt, die der philologische Nutzer eigenständig konfigurieren kann, ist er ein wesentliches, vielfach nachnutzbares Hilfsmittel für digitale Editionen.

Use Case 2: Quantitative Analyse narrativer Texte

Als Ergebnis diese Use Cases steht nun mit ATHEN eine Annotationsumgebung zur Verfügung, mit dem Fokus, Annotationen von Entitäten, deren Koreferenzen und Relationen zwischen den Entitäten zu erstellen. Die Annotation von Szenen wurde mit der Web-Version „WebATHEN“ erledigt. Es wurde die aus Kallimachos I entstanden Pipeline mit automatischen Komponenten überarbeitet und um die in 2.5 erwähnten Features erweitert. Die Verwendung von BERT und Deep Learning ermöglichte zudem eine Komponente, die in der Lage ist, automatisch Szenengrenzen vorher zusagen mit einer Genauigkeit von ca. 90%. Die annotierten Algorithmen sind öffentlich verfügbar, die Daten können aufgrund eingeschränkter Lizenzen allerdings nicht veröffentlicht werden.

Use Case 5: Anagnosis 2.0

Ziel des AP2 ist die automatische Zuordnung durch OCR erkannter Textfragmente gegen eine Voll-textdatenbank (Sequence Alignment) mit dem Output der kanonischen Zitierweise. Das Alignment wurde in TA 1.2 bereits erreicht. Der kanonische Output steht noch aus, ist jedoch als Korollar dieses Ergebnisses zu betrachten.

AP3: Stilometrie

Sämtliche in diesem Abschnitt beschriebenen Arbeiten wurden in enger Kooperation zwischen Teilprojekt 01UG1715B (Prof. Evert, FAU Erlangen-Nürnberg) und dem Lehrstuhl für Computerphilologie (Prof. Jannidis, im Teilprojekt 01UG1715A an der Universität Würzburg) durchgeführt. Eine klare Abgrenzung zwischen den Beiträgen der beiden Arbeitsgruppen ist in den meisten Fällen nicht möglich. In den folgenden Abschnitten ist hervorgehoben, wenn einzelne Teilarbeiten primär oder federführend an einem der Standorte (FAU bzw. JMU) verortet waren.

TA 1.3.1: Robuste Verfahren zur Erfassung lexikalischer Komplexität (in Verbindung mit Teilprojekt FAU 01UG1715B, Prof. Evert)

In einer ersten Phase wurden statistische Modelle für Type-Token-Verteilungen (sogenannte LNRE-Modelle) weiterentwickelt und für Simulationsexperimente nutzbar gemacht. Die Ergebnisse dieser Arbeiten wurden in ein Open-Source-Softwarepaket integriert (https://zipfr.r-forge.r-project.org/) und in Tutorials, Vorträgen und Sommerschulkursen einer breiteren Fachöffentlichkeit vermittelt:

  • “Type-token distributions, Zipf's law, and quantitative productivity.”

Kurs bei der Corpus Linguistics Summer School 2018. Birmingham, UK.

  • “Measures of Productivity and Lexical Diversity.̦” Plenarvortrag bei der 44. Jahreskonferenz der Japan Association for English Corpus Studies. Tokyo, Japan.
  • “What Every Computational Linguist Should Know About Type-Token Distributions and Zipf’s Law.” Tutorial bei der LREC 2018 Conference. Miyazaki, Japan. [1]
  • “What Every Corpus Linguist Should Know About Type-Token Distributions and Zipf’s Law.” Tutorial workshop bei der Corpus Linguistics 2019 Conference. Cardiff, UK.
  • “Corpus Statistics with R.” Tutorial bei der KONVENS 2019. Erlangen, Deutschland.

Materialien zu den Kursen werden online (https://zipfr.r-forge.r-project.org/lrec2018.html) zum Selbststudium bereitgestellt und können unter einer Creative-Commons-Lizenz weiterverwertet werden. Weitere Erkenntnisse aus diesen Arbeiten wurden in [Diwersy et al. 2019] vorgestellt.

Im Rahmen der Simulationsexperimente konnte gezeigt werden, dass die statistischen Modelle für relativ kleine Stichproben (z.B. Kurzgeschichten oder einzelne Romankapitel) eine hohe Unsicherheit aufweisen und nicht als Basis für robuste Komplexitätsmaße geeignet sind. Stattdessen wurde auf einen empirischen Ansatz zurückgegriffen, der eine Kombination aus Bootstrapping- und Cross-Validation-Techniken darstellt (Evert et al. 2017). Komplexitätsmaße werden für nicht-überlappende Fenster einer festen Größe berechnet und dann über den ganzen Text gemittelt, wodurch (i) die problematische Abhängigkeit vieler Maße von der Textgröße aufgehoben wird und (ii) Konfidenzintervalle aller Komplexitätsmaße für einzelne Texte bestimmt werden können. Analog dazu wurden alle weiteren methodologischen Untersuchungen anhand empirischer Experimente anstelle von Simulationsstudien durchgeführt.

Für die in Arbeitspaket 3 durchgeführten Experimente wurde auf das in TA 1.2.6 beschriebene Kor-pus kontemporärer Romane aus Hoch- und Schemaliteratur zurückgegriffen (im Folgenden als „Ro-mankorpus“ bezeichnet). Da nicht als gegeben vorausgesetzt werden kann, dass Hochliteratur tat-sächlich eine größere lexikalische Komplexität aufweist als Schemaliteratur, wurde zur Validierung der Komplexitätsmaße zusätzlich ein Korpus aus Artikeln der Zeitschriften GEO und GEOlino (Magazin für Kinder) herangezogen, das aus der Readability-Forschung stammt (Weiß & Meurers 2018) und im Rahmen einer Kooperation mit Prof. Meurers (Tübingen) genutzt werden konnte.

Abbildung 11: Korrelationsmatrix der lexikalischen Komplexitätsmaße für die Texte im Romankorpus, berechnet für eine Fenstergröße von 7500 Token
Abbildung 12: Korrelationsmatrix der lexikalischen Komplexitätsmaße für die Texte im Romankorpus, berechnet für eine Fenstergröße von 250 Token.

Bestehende Maße zur Erfassung lexikalischer Komplexität auf Basis von Type-Token-Verteilungen wurden gesammelt, gemäß dem Ansatz von Evert et al. (2017) modifiziert, in Python implementiert und empirisch auf ihre Robustheit hin untersucht. Wesentliche Aspekte waren dabei die Abhängig-keit von der gewählten Fenstergröße („Bleiben die Komplexitätswerte über verschiedene Fenster-größen hinweg ähnlich?“; analog zur Textlängenabhängigkeit klassischer Maße), die Rangfolgenstabilität („Bleibt die Rangfolge der einzelnen Texte hinsichtlich ihrer Komplexität über verschiedene Fenstergrößen hinweg stabil?“) und der Einfluss der computerlinguistischen Vorverarbeitung (z.B. „Wie wirkt sich eine Lemmatisierung auf die Komplexitätswerte aus?“). Dabei zeigte sich u.a., dass es kaum einen Unterschied macht, ob man die Maße anhand der ursprünglichen Wortformen oder anhand von Lemmata berechnet, dass aber die Genauigkeit der Tokenisierung durchaus eine Rolle spielt (verbesserte Genauigkeit wurde dazu mit dem speziell entwickelten Tokenizer SoMeWeTa erreicht, vgl. Proisl 2018). Als sinnvoll hat es sich zudem erwiesen, Interpunktionszeichen auszuschließen, da sie bei einigen Maßen insbesondere Vergleiche zwischen Textsorten oder Genres systematisch verzerren können.

Schließlich wurden Korrelationsanalysen zur Bestimmung von Ähnlichkeiten zwischen den Komplexitätsmaßen durchgeführt („Gibt es Gruppen von Maßen, die sehr stark korrelieren und somit den gleichen Aspekt lexikalischer Komplexität erfassen?“). Als Ergebnis konnten die über 20 in der Literatur vorgeschlagenen Maße in wenige Gruppen untergliedert werden, wobei sich Maße innerhalb einer Gruppe sehr ähnlich oder sogar nahezu identisch verhalten (siehe Abb. 11). Die Gruppeneinteilung ist allerdings von der Fenstergröße abhängig: bei kleinen Fenstern verhalten sich die Maße zunehmend ähnlich und Gruppen beginnen zu verschmelzen (Abb. 12). Eine zusammenfassende Publikation dieser Erkenntnisse wird derzeit vorbereitet (vgl. TA 1.3.2).

LNRE-Modelle wurden primär an der FAU erforscht und weiterentwickelt. Die Zusammenstellung der Komplexitätsmaße, ihre empirische Evaluation und Korrelationsanalysen wurden von beiden Arbeitsgruppen gemeinsam durchgeführt.

TA 1.3.2: Entwicklung neuer Komplexitätsmaße (in Verbindung mit Teilprojekt FAU 01UG1715B)

In Teilaufgabe 1.3.2 wurden quantitative Komplexitätsmaße betrachtet, die die lexikalische Ebene umfassender beschreiben als reine Type-Token-Maße oder über diese Ebene hinausgehen. Im Zentrum unserer Untersuchungen stand dabei Komplexität als sprach- und literaturwissenschaftliches Konstrukt bzw. als textimmanentes Phänomen, in Abgrenzung zu Komplexitätsbegriffen aus der Lesbarkeits-/Verständlichkeitsforschung und der Psychologie. Um die Validität der untersuchten Komplexitätsmaße empirisch zu prüfen, wurden – anhand des Romankorpus und des GEO-/GEOlino-Korpus – Texte mit erwarteter hoher Komplexität (Werke der Hochliteratur, Zeitschriftenartikel für Erwachsene) mit Texten mit geringerer erwarteter Komplexität (Schemaliteratur, Zeitschriftenartikel für jüngere Leser) verglichen.

Ziel dieser Studie war es, eine höhere Konstruktvalidität für das Konzept „lexikalische Komplexität“ als solches zu erreichen, indem auf einer Zwischenebene verschiedene Aspekte des intuitiven Komplexitätsbegriffs möglichst präzise operationalisiert werden. Mathematische Komplexitätsmaße können dann auf diese Zwischenebene bezogen werden und so eine klare Deutung erhalten.

Ein erster Vergleich von Werken der Hochliteratur mit denen der Schemaliteratur ergab bei vielen Maßen weniger stark ausgeprägte Komplexitätsunterschiede als erwartet – einzelne Maße scheinen also die für Hochliteratur erwartete Komplexität nicht vollständig wiederzugeben. Gleichzeitig ist bei allen untersuchten Maßen die Varianz zwischen verschiedenen Texten in der Hochliteratur deutlich höher als in der Schemaliteratur, die sich in allen Genres wesentlich homogener zeigt. Mit zunehmender Fenstergröße zeigen sich die erwarteten Komplexitätsunterschiede zwischen Hoch- und Schemaliteratur immer deutlicher, während Unterschiede zwischen Genres der Schemaliteratur unverändert bestehen bleiben. Eine naheliegende – obgleich noch zu prüfende – Erklärung wäre, dass Wiederholungen innerhalb kleinerer Textabschnitte in der Schemaliteratur bewusst vermieden werden (wie von gängigen Stilratgebern empfohlen und vermutlich redaktionell gefordert). In der Hochliteratur ist dies nicht unbedingt der Fall: Wiederholungen werden womöglich gar als Stilmittel eingesetzt und das unterstellte größere Vokabular der Autorinnen und Autoren offenbart sich erst bei der Untersuchung größerer Abschnitte. Sollte dies zutreffen, messen die lexikalischen Maße bei sehr kleinen und sehr großen Fenstergrößen verschiedene Dinge, gewissermaßen Mikro- und Makrokomplexität.

Insgesamt stellt sich heraus, dass lexikalisch-stilistische Komplexität ein multidimensionales Phäno-men ist, dem einzelne Maße nicht gerecht werden können. Folglich ist es auch nicht ausreichend, statistisch fundierte und validierte Maße zu entwickeln, die unempfindlich gegenüber Artefakten (wie z.B. Nichtzufälligkeit) sind. Die Kombination mehrerer Maße in Form einer Hauptkomponentenanalyse der Korrelationsmuster zeigte vielversprechende Ergebnisse, zugleich wurde aber offensichtlich, dass die verbreiteten Komplexitätsmaße gar nicht alle potentiell relevanten Dimension von Komplexität abdecken. In Anlehnung an Jarvis (2013a, 2013b) wurden daher geeignete Maße für weitere Dimensionen (Dispersion, Semantic Disparity, Evenness, Lexical Density und Rarity) gesucht und anhand des GEO-/GEOlino-Korpus validiert.

Abbildung 13: Komplexitätsmaße für das GEO-/GEOlino-Korpus (standardisiert).
Abbildung 14: Korrelationsmatrix der Komplexitätsmaße für das GEO-/GEOlino-Korpus.

Abb. 13 zeigt die lexikalischen Maße Type-Token-Ratio und Honorés H sowie ausgewählte Referenzmaße für die zusätzlichen Dimensionen im Vergleich; alle Werte wurden dafür z-standardisiert. Dafür, dass es sich hierbei tatsächlich um zusätzliche Dimensionen handelt, die unterschiedliche Aspekte von Textkomplexität messen, spricht die Korrelationsmatrix in Abb.14.

Zur Erfassung der zusätzlichen Komplexitätsdimensionen wurden u.a. Maße für die Erkennung von Wiederholungen und Formelhaftigkeit in Texten untersucht. Im Fokus standen dabei klassische und neuronale Sprachmodelle, sowie Kompressionsalgorithmen. Die Berechnung von Perplexitätswerten mit Hilfe klassischer N-Gramm-Modelle hat sich als nicht zielführend herausgestellt. Ein besonderes Problem ist die stark ausgeprägte Empfindlichkeit der Sprachmodelle für typographische Unterschiede zwischen Texten sowie für nicht im Sprachmodell enthaltene Wörter. Darüber hinaus erfordern N-Gramm-Modelle komplexe Softwarebibliotheken und benötigen große Mengen Arbeitsspeicher. Sie sind damit für eine Integration in die für Endanwender gedachte Toolbox (TA 1.3.3) wenig geeignet. Neuronale Sprachmodelle (bspw. BERT) bieten im Vergleich eine genauere Vorhersage des Textes, lassen sich – obwohl das Trainieren der Modelle wesentlich aufwendiger ist – anschließend leichter anwenden und können besser mit nicht im Vokabular enthaltenen Wörtern umgehen. Gängige Kompressionsalgorithmen konnten die erwarteten Komplexitätsunterschiede zwischen Hoch- und Schemaliteratur sowie zwischen Zeitschriftenartikeln für erwachsene und jüngere Leser teilweise gut reproduzieren (bspw. mit gzip). Aufgrund der Komplexität solcher Algorithmen lässt sich allerdings nicht eindeutig klären, welche Komplexitätsdimension damit erfasst wird.

Über lexikalische Dimensionen hinaus wurden Komplexitätsmaße für die syntaktische Struktur von Texten untersucht, die entweder über eine Dependenz- oder über eine Konstituentenstrukturanalyse explizit gemacht wird. Zahlreiche syntaktische Komplexitätsmaße wurden bereits ausführlich untersucht und angewendet (z.B. Pakhomov et al. 2011). Bei der Sammlung und Implementierung solcher Komplexitätsmaße haben sich allerdings Forschungslücken insb. in Bezug auf Zusammenhänge zwischen verschiedenen syntaktischen Maßen sowie zwischen syntaktischen und lexikalischen Maßen aufgetan, die bei der Antragstellung noch nicht offenkundig waren. Unsere Experimente dazu zeigten, dass auch syntaktische Komplexitätsmaße in Gruppen stark miteinander korrelierender Maße eingeteilt werden können. Zumindest teilweise liefern sie wie erhofft Informationen, die komplementär zu den lexikalischen Komplexitätsmaßen sind (Proisl et al. 2019).

Die Integration der Dimension Semantic Disparity folgt der Intuition, dass Redundanz in Texten nicht vollständig auf der lexikalischen Ebene erfasst werden kann. Semantic Disparity bezieht daher auch die Semantik des Textes mit ein. Um die Ähnlichkeit zweier Segmente zu ermitteln wird in Anlehnung an Cha et al. (2017) die Distanz zwischen allen Wörtern des ersten Segments und allen Wörtern des zweiten Segments in einem Word-Embedding-Raum berechnet und gemittelt. Das Maß berücksichtigt so, dass beide Segmente zwar unterschiedliche Wörter enthalten, inhaltlich jedoch ähnliches ausdrücken können. Das Maß erscheint besonders interessant für weitere Studien, da semantische Distanz, analog zu Komplexität, als mehrdimensionales Phänomen gesehen werden muss.

Die Ergebnisse von Teilaufgaben TA 1.3.1 und 1.3.2 werden in Form einer best practice-Referenzpublikation veröffentlicht, die derzeit erstellt wird und bei Digital Scholarship in the Humanities eingereicht werden soll.

Die Arbeiten zu dieser Teilaufgabe wurden überwiegend von beiden Arbeitsgruppen gemeinsam durchgeführt. Neue Maße auf Basis von Sprachmodellen und Semantic Disparity wurden primär an der JMU entwickelt, Hauptkomponentenanalysen primär an der FAU durchgeführt.

TA 1.3.3: Aufbau einer gemeinsamen Toolbox (in Verbindung mit Teilprojekt FAU 01UG1715B)

Die in Teilaufgaben 1.3.1 und 1.3.2 untersuchten bzw. entwickelten Maße und Verfahren wurden in einer frei verfügbaren, quelloffenen Python-Toolbox implementiert und über ein GitHub-Repostiory bereitgestellt (https://github.com/tsproisl/Linguistic_and_Stylistic_Complexity). Soweit sinnvoll und möglich werden alle Maße über den in TA 1.3.1 beschriebenen Fensteransatz berechnet (mit frei wählbarer Fenstergröße), wodurch Standardabweichungen und Konfidenzintervalle mit ausgegeben werden können. Zusätzlich zu der Implementierung der Maße sind auch ausgewählte Untersuchungen zu den Maßen im Rahmen der Toolbox frei verfügbar. Die Toolbox ist modular aufgebaut und kann dadurch leicht um weitere Maße erweitert werden. Sie lässt sich einfach von der Kommandozeile aufrufen, kann über ein Python-API aber auch in andere Programmpakete integriert werden. Die in der Toolbox implementierten Maße können beispielsweise für Clustering-Aufgaben herangezogen werden, die auf Vorarbeiten aus der ersten Projektphase aufbauen (Autorschaftsattribution, Hochliteratur vs. Schemaliteratur, literarische vs. nicht-literarische Texte, usw.). Das Github-Repository der Toolbox ist bereits national und international auf breites Interesse gestoßen (Github-Stars aus Indien, China, Australien, USA, Japan, Ungarn).

In einer Web-App (https://kallimachos.shinyapps.io/lexical_diversity_measures), die mit Hilfe des R-Frameworks Shiny entwickelt wurde, können die untersuchten Maße lexikalischer Diversität interaktiv verglichen werden (siehe Abb. 15). So lassen sich z.B. Korrelations-Plots oder Box-Plots abhängig von Genre und Fenstergröße betrachten. Die Shiny-App wird laufend weiterentwickelt und mit neuen Darstellungen und Daten ergänzt.

Die Software-Pakete wurden unter Federführung der FAU von beiden Arbeitsgruppen gemeinsam entwickelt.

Abbildung 15: Shiny-App zur interaktiven Visualisierung von Komplexitätsmaßen.

Use Case 3: Komplexität literarischer Werke aus stilometrischer Sicht (in Verbindung mit Teilprojekt FAU 01UG1715B)

Die Literaturwissenschaft geht in der Regel davon aus, dass literarische Texte unterschiedliche Komplexitätsgrade aufweisen und dabei die Komplexität der verwendeten Sprache – d.h. der Reichtum oder die Vielfalt des Vokabulars – einer von vielen bestimmenden Faktoren ist. Die Untersuchungen aus TA 1.3.2 haben gezeigt, dass dieser Faktor wiederum als mehrdimensionales Phänomen zu betrachten ist. Die ausgewählten und neu entwickelten quantitativen Maße für die verschiedenen Komplexitätsdimensionen konnten genutzt werden, um Texte der Hoch- und Schemaliteratur (TA 1.2.6) zu beschreiben. Ein erster Befund (Abb. 16) zeigt gleich mehrere Auffälligkeiten. Erstens ist Hochliteratur anders als erwartet nicht in jeder Dimension komplexer als Schemaliteratur. Zweitens ist auffällig, dass Hochliteratur innerhalb der Aspekte stärker streut als Schemaliteratur, also eine größere Binnenvarianz aufweist. Addiert man die Werte für Einzelaspekte zu einer kombinierten Kennzahl für die Gesamtkomplexität (Abb. 17), so erweisen sich Science-Fiction-Romane absolut gesehen als komplexer. Dieser Effekt ist auf unterschiedliche Ausprägungen der Dimensionen für beide Textgruppen zurückzuführen, was Interpretationsspielräume eröffnet. Vergleichsweise einleuchtend ist hier der Aspekt Rarity, da Science-Fiction-Romane in der Regel sehr viel Aufwand auf das Konstruieren fiktiver Welten mitsamt exklusivem Vokabular verwenden, während Romane der Hochliteratur eher in alltäglichen Szenerien verhaftet sind. Weitergehend ist Density nicht nur in Science-Fiction, sondern auch in Horror und Kriminalromanen stärker ausgeprägt als in Hochliteratur, was durch höheres, handlungsgetriebenes Erzähltempo zu erklären sein könnte. Der Effekt ist für Evenness weniger stark ausgeprägt, lässt aber auf ein eher strukturiertes Erzählen schließen, also beispielsweise auf die Trennung zwischen Handlung und Beschreibung der fiktiven Welt in Science-Fiction-Romanen.

Abbildung 16: Komplexitätsmaße für Hochliteratur und Heftroman-Genres (standardisiert).

Um zu überprüfen, ob die hohe gemessene Komplexität von Science-Fiction nur an der Textauswahl lag, wurde eine Folgeuntersuchung mit englischsprachigen E-Books sowie großen Mengen englischsprachiger Fan-Fiction durchgeführt (Blombach, A. & Proisl, T. (2020): Unexpected Complexity and Romance in Disguise: The Case of Science Fic-tion Novels and Fanfiction. Vortrag beim 9. Hildesheim-Göttingen-Workshop zu DH und CL; Blombach, A., Proisl, T., Evert, S., Heinrich, P., & Dykes, N. (angenommen): Into the Perryverse: A CL Journey to the Realm of Lexical Complexity. Vortrag auf dem ICAME-Workshop To boldly go: Corpus approaches to the language of Science Fiction.)

Auch hierbei zeigte sich deutlich höhere Komplexität verglichen mit anderen Genres.

Abbildung 17: Kombinierte Komplexität von Hochliteratur und Heftroman-Genres aus 6 Dimensionen; die Dimension Variability wird hier durch das Type-Token-Verhältnis repräsentiert.

Die Befunde zu Komplexitätsunterschieden in Hochliteratur und Science-Fiction deuten auf charakteristische, interpretierbare Komplexitätsprofile literarischer Textgruppen hin. So konnte in einer weiteren Studie unter Verwendung des Bestands der DNB (siehe TA 1.2.7) tatsächlich ein ähnliches Profil für Subgenres des Liebesromans (Arzt-, Heimat-, Adels- und Familienromane, siehe Abb. 18 im Vergleich zu Science Fiction) gemessen werden. Dieser Befund eröffnet Anschlussfragen nach historischer Kontinuität, Stabilität in Genres und Gattungen, sowie der allgemeinen Entwicklung von Komplexität in der Literaturgeschichte.

Abbildung 18: Komplexitätsprofile verschiedener Genres von Heftromanen.

Die Veröffentlichung der Ergebnisse wird in unmittelbarer Zukunft innerhalb eines Journals im DH-Bereich angestrebt. Zudem wurde während der Projektlaufzeit ein projektbezogener Personenaustausch (Förderlinie DAAD) mit dem Lehrstuhl für Language Informatics der University of Osaka durchgeführt. Ziel dieser Kooperation ist die Evaluation und Anwendung der Komplexitätsmaße in verschiedenen Sprachen.

Alle Arbeiten zu Use Case 3 wurden in enger Abstimmung gemeinsam von beiden Arbeitsgruppen durchgeführt. Das Kooperationsprojekt mit der University of Osaka ist an der JMU angesiedelt.

AP4: Benutzerschnittstelle zur quantitativen Analyse arabisch-lateinischer Übersetzungen

TA 1.4.1: Ausbau von Korrekturwerkzeugen zur orthographischen Normalisierung

Für den bisherigen Aufbau des Textkorpus wurde zur Vereinheitlichung der Schreibweisen auf eine Kombination aus regelbasierten Ersetzungen und manuellen Korrekturen gesetzt. Mit dem ständigen Anwachsen des Textkorpus muss dabei einerseits der manuelle Anteil reduziert werden, andererseits darf die Anwendung der Regeln auf neues Vokabular nicht zu fehlerhaften Ersetzungen führen. Dazu werden derzeit insbesondere Methoden des Deep Learning (vgl. etwa [Kestemont et al. 2017]) diskutiert und im Rahmen unseres Projekts auf ihre Tauglichkeit für die Normalisierung des arabisch-lateinischen Textkorpus hin überprüft. Da die orthographische Normalisierung zusammen mit der Korrektur von OCR-Fehlern und der Auflösung von Abkürzungen einen wichtigen, aber im Arbeitsablauf späteren Bestandteil der unter “Use Case 4: Identifikation von Übersetzern” beschriebenen Transkriptionsumgebung bildet, wurde diese Aufgabe hinter die Zusammenstellung der OCR-Komponenten und Benutzerschnittstellen zurückgestellt.

TA 1.4.2: Einsatz von Semantic MediaWiki als digitale Forschungsumgebung

Auf der Basis der im Rahmen des Narragonien-Projekts gesammelten Erfahrungen konnte ein umfangreiches Datenmodell für ein Semantic MediaWiki entwickelt werden. Dabei wird über die Eingabe und Verwaltung von Textmetadaten hinaus das Ziel verfolgt, den Forschungsstand zu den arabisch-lateinischen Übersetzungen zu erfassen. Dies umfasst einerseits eine Auflistung verfügbarer Textquellen in Handschriften und Editionen, andererseits aber auch eine Recherche der bisherigen Zuweisungen der Autorschaft und Übersetzung der Texte. Dafür konnte in dem Wiki eine Plattform geschaffen werden, die insbesondere die Zusammenarbeit mehrerer Bearbeiter erleichtert. Die bisher als XML-Dokumente oder Tabellen vorliegenden Daten konnten mit Hilfe von selbst entwickelten Konvertierungsskripten importiert werden. Die Einbindung der existierenden Arbeitsumgebung, die diverse Funktionen zu Textanalyse und zum Textvergleich bündelt, wird ebenfalls weiterverfolgt. Da eine vollständige Integration eine Portierung der Tools von Python nach PHP erfordern und damit einen beträchtlichen Entwicklungsaufwand mit sich bringen würde, hat sich als die beste Strategie erwiesen, die dem bestehenden Webinterface zugrundeliegende Anwendung an die vorhandenen API-Schnittstellen des MediaWiki anzubinden, um damit einen Datenaustausch zwischen den beiden Plattformen und eine flexible Verteilung der einzelnen Benutzerschnittstellen zu ermöglichen.

In der täglichen Arbeit hat sich das Wiki als Plattform zum Aufbau einer Datenbank der Textquellen bewährt. Inzwischen dokumentiert es mehr als 400 Texte von über 100 Autoren und Übersetzern sowie zahlreiche Quellen in Handschriften, Drucken und Editionen. Die damit zusammengestellte strukturierte Metadatensammlung dient als Grundlage für die Planung der Digitalisierung der arabisch-lateinischen Übersetzungen im Rahmen des [ http://arabic-latin-corpus.philosophie.uni-wuerzburg.de/ Arabic-Latin Corpus Project] und zur notwendigen Einordnung der Texte bei ihrer korpuslinguistischen Erschließung.

Use Case 4: Identifikation von Übersetzern

In der bisherigen Arbeit mit Delta hat sich gezeigt, dass nur mit einem ausreichend großen Textkorpus valide Aussagen durch stilometrische Methoden möglich sind. Das Ziel des mit der Kallimachos-Infrastruktur initiierten Arabic-Latin Corpus Project ist es daher, alle arabisch-lateinischen Übersetzungen des 10.-14. Jahrhunderts zu digitalisieren. Die Erweiterung unserer Textsammlung beginnt zunächst mit der Sammlung der existierenden Quellen im Wiki, benötigt im zweiten Schritt aber vor allem einen Digitalisierungsworkflow. Als Pilotprojekt wurde zunächst ein Frühdruck der lateinischen Version von Alhazens Optik mit LAREX und Ocropus erfasst. Um nicht nur lateinische, sondern auch arabische Textquellen zu erschließen, wurden die bereits in den anderen Arbeitsgruppen entwickelten und erprobten OCR-Lösungen entsprechend angepasst. Dabei werden derzeit die Vorteile des auf der Basis von Ocropus entstandenen Kraken-Systems ([Romanov et al. 2017]) hinsichtlich der Erkennung bidirektionaler Texte sowie von dem im Rahmen von OCR4All verwendeten, neu entwickelten Tool Calamari genutzt und mit der Leistungsfähigkeit der halbautomatischen Layoutanalyse in LAREX verbunden. Anhand einer modernen Edition der arabischen Version der Optik konnte zunächst die Realisierbarkeit dieses Ansatzes erprobt werden.

Um die Möglichkeiten der OCR mehreren Nutzern im laufenden Betrieb parallel zur Verfügung zu stellen, wurde die Entwicklung eines webbasierten Transkriptionstools "nashi" mit OCR-Unterstützung begonnen. Die Anwendung, die bereits auf [2] frei verfügbar ist, bietet ein Interface zur Transkription, Korrektur und Kommentierung gescannter Texte basierend auf dem PAGE-Format, wobei für einen ergonomisch sinnvollen und effizienten Arbeitsablauf ein eigenes, den Text in die Bildanzeige integrierendes Interface erstellt wurde. Der OCR-Text kann auf einem separaten System generiert und bei fortschreitender Transkription laufend im Hintergrund aktualisiert werden. Damit wurden in den letzten zwei Jahren etwa 300.000 Zeilen Text aus arabischen und lateinischen Editionen sowie lateinischen Frühdrucken segmentiert und transkribiert. Die Texte werden sukzessive nach TEI-XML konvertiert, in einem Git-Repository gepflegt, mit den Metadaten aus dem Wiki (TA 4.2) versehen und auf einer eigenen Website veröffentlicht.

Durch die Digitalisierung der arabischen Originale wird nun eine neue Perspektive auf die unterschiedlichen Übersetzerstile möglich. Für eine quantitative Analyse bedarf es dabei einer alignierten Fassung von Original und Übersetzung. Als erster Schritt in dieser Richtung wurde eine in Javascript implementierte bilinguale Parallelansicht ausgewählter Texte erstellt, die auf der Basis bestehender Glossardaten beide Texte in Relation setzt. Für die Arbeit am Arabic-Latin Glossary wird dieses Werkzeug bereits produktiv genutzt, eine Veröffentlichung zweisprachiger digitaler Texte ist in Planung. Um eine Alignierung auch bei Texten zu erreichen, für die keine Glossare existieren, wurden erste Experimente mit Werkzeugen aus dem Bereich des statistischen maschinellen Übersetzens durchgeführt.

Präsentiert wurden die laufenden Arbeiten zur Digitalisierung und digitalen Analyse der arabisch-lateinischen Übersetzungen bei Vorträgen in Cordoba , Boston , London , Hamburg und Wien:

  • Hasse, D. N.: Boston, Tufts University, Classics Department: ‘Identifying anonymous translators from Arabic into Latin: solving problems of philology and computational stylometry’.
  • Hasse, D. N.: London, Institute of Historical Research: ‘Using Digital Technologies for the Study of Medieval Arabic-Latin Translators’.
  • Hasse, D. N. und Büttner, A.: Hamburg, Third PESHAT International Conference: ‘Arabic and Latin Glossary and Arabic and Latin Corpus’.
  • Hasse, D. N. und Büttner, A.: Wien, Österreichische Akademie der Wissenschaften: ‘Creating ALGloss and ALCorpus: a Digital Lexicon and a Digital Corpus of Arabic-Latin Translations’.

Erschienen ist inzwischen die Studie der Übersetzungen philosophischer Texte [Hasse & Büttner 2018], sowie ein Artikel zur Identifizierung des Übersetzers einiger astronomisch-astrologischer Traktate [Hasse 2016]. Ein weiterer Artikel zu mehrfach übersetzten Texten ist bereits im Druck [Hasse, im Druck].

Veröffentlichungen

Softwareverzeichnis'mit Download-Links

Literaturverzeichnis

  • [Balbach et al. 2020] Balbach, N., Reul, C., Puppe, F. (2020): Typisierte Varianz-Analyse von Texten. In: DHd 2020 Spielräume: Digital Humanities zwischen Modellierung und Interpretation, 235-238.
  • [Bald et al. 2019] Bald, M., Damiani, V., Essler, H., Eyeselein, B., Reul, C., Puppe, F. (2019]: Korrektur von fehlerhaften OCR Ergebnissen durch automatisches Alignment mit Texten eines Korpus, DHd (Digital Humanities, 6. Jahrestagung), 309-311.
  • [Burrichter 2017]: Burrichter, B. (2017): Rahmen und intendiertes Publikum. Die Paratexte in Sebastian Brants 'Narrenschiff' und seinen Übersetzungen. In: Rahmungen. Präsentationsformen und Kanoneffekte. Hg. v. Ph. Ajouri, U. Kundert und C. Rohde. Berlin, 107-122.
  • [Burrichter 2019a]: Burrichter, B. (2019): Sebastian Brants ‘Narrenschiff’ und seine französischen Übersetzungen. In: Etudes Germaniques 3, 505-521.
  • [Burrichter 2019b]: Burrichter, B. (2019): Sebastian Brants ‘Narrenschiff’ und seine europäische Rezeption im 15. Jahrhundert. Vorstellung der digitalen Edition wichtiger Ausgaben (deutsch, lateinisch, französisch und englisch) und erste Ergebnisse eines Vergleichs. In: B. Bastert, S, Hartmann: Romania und Germania. Kulturelle und literarische Austauschprozesse in Spätmittelalter und Früher Neuzeit, Wiesbaden, 311-323.
  • [Burrichter 2019c] Burrichter, B. (2019): Patrice et les Dernydes. Les versions françaises de la Nef des fous de Sebastian Brant. In: A. Kukulka-Wojtasik (Hg.): «Translatio» et Histoire des Idées: «Translatio» and the History of Ideas, Frankfurt a.M..
  • [Diwersy et al. 2019] Diwersy, S., Evert, S., Heinrich, P., & Proisl, T. (2019): Means of Productivity – on the Statistical Modelling of the Restrictedness of Lexico-Grammatical Patterns. In: EUROPHRAS 2019. Productive Patterns in Phraseology, pages 20–21. Santiago de Compostela, Spain.
  • [Evert et al. 2017] Evert, S., Wankerl, S., & Nöth, E. (2017): Reliable measures of syntactic and lexical complexity: The case of Iris Murdoch. In: Proceedings of the Corpus Linguistics 2017 Conference. Birmingham, UK.
  • [Fischer 2017] Fischer, E. (2017). Automatische Extraktion von Interaktionen zwischen zwei Personen in literarischen Texten. Masterarbeit, Universität Würzburg.
  • [Grundig / Hamm / Walter 2017] Grundig, C., Hamm, J., Walter, V. (2017): Narragonien digital. Mit einer Analyse von Kapitel 4 des ‚Narrenschiffs‘ in Ausgaben und Bearbeitungen des 15. Jahrhundert. In: Wolfenbütteler Notizen zur Buchgeschichte 42, 97-120.
  • [Grundig 2017] Grundig, C. (2017): Theologische Überformung des ‚Narrenschiffs‘. Geiler von Kaysersberg und die sogenannte ‚Interpolierte Fassung‘. In: Archiv für das Studium der neueren Sprachen und Literaturen 254, 1-16.
  • [Hamm 2016] Hamm, J. (2016): Intermediale Varianz. Sebastian Brants 'Narrenschiff' in deutschen Ausgaben des 15. Jahrhunderts. In: Überlieferungsgeschichte transdisziplinär. Neue Perspektiven auf ein germanistisches Forschungsparadigma. In Verbindung mit H. Brunner und F. Löser hg. v. D. Klein. Wiesbaden, 223-240.
  • [Hamm 2017] Hamm, J. (2017): Zu Paratextualität und Intermedialität in Sebastian Brants Vergilius pictus (Straßburg 1502). In: Intermedialität in der Frühen Neuzeit. Formen, Funktionen, Konzepte. Hg. v. J. Robert. Berlin, Boston, 236-259.
  • [Hamm 2019] Hamm, J. (2019): Narren mit Außlegung. Zum ›Welt Spiegel oder Narren Schiff‹ (Basel 1574) des Nikolaus Höniger von Königshofen. In: Traditionelles und Innovatives in der geistlichen Literatur des Mittelalter. Hg. von J. Haustein u. a., Stuttgart, 407-426.
  • [Hamm et al. 2019]: T. Baier, J. Hamm, U. Schlegelmilch (Hg.; 2019): Opera Camerarii. Eine semantische Datenbank zu den gedruckten Werken von Joachim Camerarius d.Ä. (1500 - 1574). Bearb. v. M. Gindhart, M. Huth und J. Schultheiß, Würzburg, http://wiki.camerarius.de.
  • [Hamm i.Dr.]: Hamm, J. (i.Dr.): Auctor und interpres im Dialog. Sebastian Brants Beiträge zur 'Stultifera navis' (1497). In: Das 15. Jahrhundert. Internationales Symposium in der Melanchthon Akademie Bretten, 12.-14. Oktober 2017. (zum Druck angenommenes Manuskript unter http://www.camerarius.de/wp-content/uploads/2020/03/Hamm_Narrenschiff_im_Druck.pdf
  • [Hasse & Büttner 2018] Hasse, D. and Büttner, A.: Notes on Anonymous Twelfth-Century Translations of Philosophical Texts from Arabic into Latin on the Iberian Peninsula, in: D.N. Hasse und A. Bertolacci, Hrsg., The Arabic, Hebrew and Latin Reception of Avicenna’s Physics and Cosmology (Berlin / Boston: de Gruyter, 2018), S. 313-369.
  • [Hasse 2016] Hasse, D.: Stylistic Evidence for Identifying John of Seville with the Translator of Some Twelfth-Century Astrological and Astronomical Texts from Arabic into Latin on the Iberian Peninsula, in C. Burnett, P. Mantas-Espana, Hrsg., Ex Oriente Lux. Translating Words, Scripts and Styles in Medieval Mediterranean Sociecty (Córdoba / London: UCOPress, CNERU / The Warburg Institute: 2016), 19-43.
  • [Hasse im Druck] Hasse, D.: Three Double Translations from Arabic into Latin by Gerard of Cremona and Dominicus Gundisalvi, in: Dragos Calma (Hrsg.), Reading Proclus and the Book of Causes, Volume 2 (Leiden: Brill, im Druck).
  • [Jannidis et al. 2018] Jannidis, F., Konle, L., Zehe, A., Hotho, A., Krug, M. (2018). Analysing Direct Speech in German Novels. In DHd 2018.
  • [Jannidis et al. 2019a] Jannidis, F., Konle, L., Leinen, P. (2019). Fernsicht auf 10.000 Heftromane. In DHd 2019.
  • [Jannidis et al 2019b] Jannidis, F., Konle, L., Leinen, P. (2019). Thematic Complexity. In DH 2019.
  • [Jannidis et al 2020] Jannidis, F., Konle, L., Leinen, P. (2019). Confounding variables in Sub-Genre Classification: intrusive problems. In DHd 2020.
  • [Krug et al. 2017] Krug, M., Reger, I., Jannidis, F., Weimer, L., Madarász, N., und Puppe, F. (2017). Overcoming Data Sparsity for Relation Detection in German Novels.
  • [Krug et al. 2020a] Krug, M., Schmidt, D., Wehner, N., Jannidis, F., Puppe, F. (2020). Evaluation of state of the art methods for coreference resolution and quotation attribution on German literary novels, Under Review for Journal of Natural Language Engineering.
  • [Krug et al. 2020b] Krug, M., Schmidt, D., Jannidis, F., Puppe, F. (2020). Techniques for High Quality Character Reference Detection on German Historical Novels. Under Review for De Gruyter Open Linguistics.
  • [Gius et al. 2019] Gius, E., Jannidis, F., Krug, M., Zehe, A., Hotho, A., Puppe, F., Krebs, J., Reiter, N., Wiedmer, N. & Konle, L. (2019). Detection of Scenes in Fiction. Proceedings of Digital Humanities 2019 .
  • [Hartl 2001] Hartl, N. (2001): Die »Stultifera navis«. Jakob Lochers Übertragung von Sebastian Brants »Narrenschiff«, 2 Bde., Münster 2001 (Studien und Texte zum Mittelalter und zur frühen Neuzeit 1).
  • [Herud et al. 2020] Herud, K., Zehe, A., Krug, M., Puppe, F. & Hotho, A. (*2020). SceneIt - End-to-End Neural Scene Detection in Fictional Texts, Under Review for ACL 2020.
  • [Proisl 2018] Proisl, T. (2018): SoMeWeTa: A Part-of-Speech Tagger for German Social Media and Web Texts. In: Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), pages 665–70. Miyazaki, Japan.
  • [Proisl et al. 2019] Proisl, T., Konle, L., Evert, S., Jannidis, F. (2019): Dependenzbasierte syntaktische Komplexitätsmaße. In: DHd 2019 Conference Abstracts. Frankfurt am Main, Germany.
  • [Reul et al. 2017] Reul, C., Springmann, U., Puppe, F. (2017). LAREX: A Semi-automatic Open-source Tool for Layout Analysis and Region Extraction on Early Printed Books. In: Proceedings of the 2Nd International Conference on Digital Access to Textual Cultural Heritage, DATeCH2017, 137–142, New York, NY, USA. ACM.
  • [Reul et al. 2018a] Reul, C., Springmann, U., Wick, C., Puppe, F. (2018). Improving OCR Accuracy on Early Printed Books by Utilizing Cross Fold Training and Voting. In: 13th IAPR International Workshop on Document Analysis Systems (DAS), 423-428.
  • [Reul et al. 2018b] Reul, C., Wick, C., Springmann, U., Puppe, F. (2018). Transfer Learning for OCRopus Model Training on Early Printed Books. In: 027.7 Zeitschrift für Bibliothekskultur / Journal for Library Culture 5,1, 38-51.
  • [Reul et al. 2018c] Reul, C., Springmann, U., Wick, C., Puppe, F.: Improving OCR Accuracy on Early Printed Books by combining Pretraining, Voting, and Active Learning. In: JLCL (Special Issue on Automatic Text and Layout Recognition) 33,1, 3-24.
  • [Reul et al. 2019a]: Reul, C., Springmann, U., Wick, C., Puppe, F. (2019). State of the Art Optical Character Recognition of 19th Century Fraktur Scripts using Open Source Engines. In: DHd 2019 Digital Humanities: multimedial & multimodal, 212-215.
  • [Reul et al. 2019b] Reul, C., Göttel, S., Springmann, U., Wick, C., Würzner, K-M., Puppe, F. (2019). Automatic Semantic Text Tagging on Historical Lexica by Combining OCR and Typography Clas-sification. In: Proceedings of the 3rd International Conference on Digital Access to Textual Cultural Heritage, 33-38.
  • [Reul et al. 2019c] Reul, C., Christ, D., Hartelt, A., Balbach, N., Wehner, M., Springmann, U., Wick, C., Grundig, C., Büttner, A., Puppe, F. (2019). OCR4all - An Open-Source Tool Providing a (Semi-) Automatic OCR Workflow for Historical Printings. In: Applied Sciences. 9 (22) 4853. https://doi.org/10.3390/app9224853
  • [Wehner 2019] Wehner, M. (2019). Texterkennungssoftware für historische Drucke. In: KulturBetrieb 25 (2019), 42-43.
  • [Wehner et al, 2020] Wehner, M., Dahnke, M., Landes, F., Nasarek, R., Reul, C. (2020). OCR4all - Eine semi-automatische Open-Source-Software für die OCR historischer Drucke. In: DHd 2020 Spielräume: Digital Humanities zwischen Modellierung und Interpretation. Konferenzabstracts, 43-45. http://doi.org/10.5281/zenodo.3666690
  • [Weiß & Meurers 2018] Weiß, Z. & Meurers, D. (2018): Modeling the readability of German targeting adults and children: An empirically broad analysis and its cross-corpus validation. In: Proceedings of the 27th International Conference on Computational Linguistics, pages 303–317, Santa Fe, New Mexico, USA.
  • [Wick et al. 2018] Wick, C., Reul, C., Puppe, F. (2019). Comparison of OCR Accuracy on Early Printed Books using the Open Source Engines Calamari and OCRopus. JLCL (Special Issue on Automatic Text and Layout Recognition) 33,1, 79-96.
  • [Wick et al. 2020] Wick, C., Reul, C., Puppe, F., (2020). Calamari - A High-Performance Tensorflow-based Deep Learning Package for Optical Character Recognition. In: Digital Humanities Quarterly (final zur Veröffentlichung angenommen).
  • [Zehe et al. 2020] Zehe, A., Arns, J., Hettinger, L. & Hotho, A. (*2020). HarryMotions - Classifying Relationships in Harry Potter based on Emotion Analysis. Under Review for KONVENS 2020

Zitierte Literatur von Fremdautoren (nicht im Projekt)

  • [Boenig et al. 2020] Boenig, M., Engl, E., Baierer, K., Hartmann, V., Neudecker, C. (2020). Volltexttransformation frühneuzeitlicher Drucke – Ergebnisse und Perspektiven des OCR-D- Pro-jekts. In: DHd 2020 Spielräume: Digital Humanities zwischen Modellierung und Interpretation. Konferenzabstracts, 244-247.
  • [Cha et al. 2017] Cha, M., Gwon, Y., & Kung, H. T. (2017): Language modeling by clustering with word embeddings for text readability assessment. In: Proceedings of the 2017 ACM on Conference on Information and Knowledge Management.
  • [Grundig 2012]: Grundig, C. (2012): Text und Paratext. Konzepte von Paratextualität in deutschsprachigen Werken Sebastian Brants. Masch. Magisterarbeit. Würzburg 2012.
  • [Hart 2001]: Hartl, N. (Hg., 2001): Die ‚Stultifera navis‘. Jakob Lochers Übertragung von Sebastian Brants ‚Narrenschiff‘. Bd. 1.1: Untersuchung und Kommentar; Bd. 1.2: Teiledition und Übersetzung. Münster, New York, München.
  • [Jarvis 2013a] Jarvis, S. (2013a): Capturing the Diversity in Lexical Diversity. In: Language Learning, 63 (1): 87–106.
  • [Jarvis 2013b] Jarvis, S. (2013b): Defining and Measuring Lexical Diversity. In: Jarvis, S. & Daller, M. (Hrsg.): Vocabulary Knowledge. Human Ratings and Automated Measures. Amsterdam: John Benjamins. (= Studies in Bilingualism 47)
  • [Kestemont et al. 2017] Kestemont, M., de Pauw, G., van Nie, R., und Daelemans, W. (2017). Lemmatization for variation-rich languages using deep learning. Digital Scholarship in the Humanities, 32(4):797–815.
  • [Kim et al. 2019] Kim, E. & Klinger, R. (2019). Frowning Frodo, Wincing Leia, and a Seriously Great Friendship: Learning to Classify Emotional Relationships of Fictional Characters, NAACL 2019
  • [Knape 2005]: Knape, J. (Hg., 2005): Sebastian Brant. Das ‚Narrenschiff‘. Studienausgabe. Mit allen 114 Holzschnitten des Drucks Basel 1494. Stuttgart 2005.
  • [Neudecker et al. 2019] Neudecker, C., Baierer, K., Federbusch, M., Würzner, K-M., Boenig, M., Herrmann, E., Hartmann, V. (2019). OCR-D: An end-to-end open-source OCR framework for historical documents. In: Proceedings of the 3rd International Conference on Digital Access to Textual Cultural Heritage, Brüssel, S. 53–58.
  • [Pakhomov et al. 2011] Pakhomov, S., Chacon, D., Wicklund, M., & Gundel, J. (2011): Computerized assessment of syntactic complexity in Alzheimer’s disease: A case study of Iris Murdoch’s writing. Behavior research methods, 43(1): 136–144.
  • [Pletschacher und Antonacopoulos 2010] Pletschacher, S., Antonacopoulos, A. (2010). The PAGE (page analysis and ground-truth elements) format framework. In Pattern Recognition (ICPR), 2010 20th International Conference on, Seiten 257–260. IEEE.
  • [Romanov et al. 2017] Romanov, M., Miller, M. T., Bowen, S., Kiessling, B. (2017). Important New Developments in Arabographic Optical Character Recognition (OCR). CoRR, abs/1703.09550.
  • [Springmann und Lüdeling, 2017] Springmann, U., Lüdeling, A. (2017). OCR of historical printings with an application to building diachronic corpora: A case study using the RIDGES herbal corpus. Digital Humanities Quarterly, 11(2).
  • [Springmann et al. 2018] Springmann, U.; Reul, Chr.; Dipper, St.; Baiter, J. (2018): Ground Truth for training OCR engines on historical documents in German Fraktur and Early Modern Latin. Arxiv e-prints. https://arxiv.org/abs/1809.05501
  • [Strötgen und Gertz, 2013] Strötgen, J., Gertz, M. (2013). Multilingual and Cross-domain Temporal Tagging. Language Resources and Evaluation, 47(2):269–298.
  • [Vobl et al. 2014] Vobl, T., Gotscharek, A., Reffle, U., Ringlstetter, C., und Schulz, K. (2014). PoCoTo - an Open Source System for Efficient Interactive Postcorrection of OCRed Historical Texts. In Proceedings of the First International Conference on Digital Access to Textual Cultural Heritage, 57–61. DATeCH ’14. New York, NY, USA: ACM.