Projektbeschreibung: Unterschied zwischen den Versionen

← Zum vorherigen Versionsunterschied Zum nächsten Versionsunterschied →

Version vom 3. Juni 2016, 10:31 Uhr

Projektbeschreibung

KALLIMACHOS führt Geisteswissenschaftler, Informatiker und Bibliothekare in einem regionalen Digital-Humanities-Zentrum zusammen. Die an der Universität Würzburg vorhandenen Kooperationen und Kompetenzen werden durch Partner am DFKI Kaiserslautern (OCR) und an der Universität Erlangen-Nürnberg (Linguistische Informatik) ergänzt. Der Aufbau des Zentrums wird bis zum 3. Quartal 2017 durch das Bundesministerium für Bildung und Forschung im Rahmen der Fördermaßname e-Humanities bezuschusst.

Unser Aufgabenschwerpunkt liegt auf der Erarbeitung digitaler Editionen und quantitativer Analyseverfahren aus dem Bereich des Text Mining, z.B. Stilometrie, Topic Modeling und Named Entity Recognition. Wir bieten unseren Projektpartnern die nötige technische und soziale Infrastruktur, die Geisteswissenschaftler bei der Beantwortung von Forschungsfragen auf der Basis digitaler Methoden unterstützt.

Auf der technischen Seite gehören dazu die Entwicklung und Bereitstellung der benötigten Software-Komponenten und das Erarbeiten prototypischer Arbeitsabläufe, die in bereits vorhandene Infrastrukturen integriert werden. Dabei ist uns gerade auch die langfristige Verfügbarkeit, Pflege und Archivierung der Projekte, Portale und Forschungsdaten ein wichtiges Anliegen. Insofern baut KALLIMACHOS eine intergrierte Struktur für Forschungsdatenmanagement in den Geisteswissenschaften auf.

Außerdem fördern wir durch regelmäßige Workshops und Tagungen den Austausch zwischen den regionalen und überregionalen Digital-Humanities-Projekten. Durch Beratungen und Schulungen führen wir Fachleuten, aber auch weniger technikaffinen Wissenschaftlern und dem akademischen Nachwuchs die Möglichkeiten digitaler Methoden zur Bearbeitung von Forschungsfragen vor Augen und bieten methodische, technische und organisatorische Unterstützung.

[bearbeiten]

Prototypische Arbeitsabläufe zu Edition und Datenanalyse

Ausgehend von unseren Teilprojekten als Use Cases werden prototypische Abläufe zur Datenerfassung und -analyse für die Geisteswissenschaften etabliert und für das Zielpublikum verständlich dokumentiert. Im Rahmen der Entwicklung des Workflowmanagementsystems Wüsyphus II können etablierte Tools zu Arbeitsketten zusammengefügt werden. Diese sollen durch interne und öffentliche Schulungen auch einer größeren Öffentlichkeit im Bereich der Digital Humanities bekannt gemacht werden. Die ermittelten Best-Practice-Implementierungen werden in die Workflows integriert, am Beispiel der Use Cases empirisch validiert und der Forschungsgemeinschaft zur Verfügung gestellt. So wird das „Nachbauen“ mit eigenen Daten im Rahmen weiterer Projekte vereinfacht.

Nicht jedes Teilprojekt durchläuft alle Punkte der Wüsyphus-II-Workflowkette. So kann es etwa vorkommen, dass für ein Projekt bereits die nötigen Digitalisate vorliegen, womit das Einscannen der physischen Originale nicht nötig ist. Die Planung eines individuellen Projektworkflows ist aber für alle Teilprojekte obligatorisch. Die folgende Grafik zeigt, welche Arbeitsschritte der Workflowkette für unsere Use Cases von Bedeutung sind:

Einscannen der Originale

Das in der Zentralbibliothek der Universität eingerichtete Digitalisierungszentrum stellt die nötige Technik und das Fachpersonal für die Neu- und Ersterstellung von hochwertigen Digitalisaten zur Verfügung. Auch für schwierige Fälle stehen innovative Lösungen parat: So sind mit einer eigens angefertigten Buchwippe auch konservatorisch sichere Scanarbeiten an Büchern mit einem Öffnungswinkel nur 60° möglich und für die Digitalisierung großformatiger Poster steht eine spezielle Unterdruck-Saugwand zur Verfügung.

Metadateneditor

Der bereits existierende Metadateneneditor des Digitalisierungszentrums ermöglicht die zentrale Pflege umfassender vordefinierter Metadatensätze für Handschriften, Inkunabeln, Drucke und Grafiken. Verbesserungen der Web-Performance und der Benutzerführung sind für kommende Erweiterungen des Metadateneditors in WüSyphusII geplant. Auch die Aufnahme weiterer Datentypen, z.B. für Artefakte und andere Realia, ist vorgesehen.

OCR-Modul

Collage verschiedener Typentabellen — Erstellung von Typentabellen, hier am Beispiel des Teilprojekts Narragonien.

Das OCR-Modul stellt eine automatisierte Vorverarbeitung für die Volltexterstellung zur Verfügung. Hierzu entwickeln zwei Arbeitsgruppen am DFKI Kaiserslautern und an der Universität Würzburg bestehende Tools und Software-Bausteine weiter, um auch solche Texte erschließen zu können, für die bislang keine qualitativ hochwertigen OCR-Lösungen vorliegen. Im Zentrum dieser Arbeiten steht dabei der Use-Case Narragonien.

Die OCR-Arbeitsgruppe an der UB Würzburg begleitet und evaluiert auf den Spuren etablierter Tools, etwa aus dem EMOP-Projekt (Franken+, Gamera, Tesseract) den Entwicklungsprozess am DFKI. Dazu werden verlags- bzw. offizinspezifischen Typeninventare in einem MUFI-Zeichensatz erstellt, wobei das eigens entwickelte Tool Glyph Miner wertvolle Dienste leistet. Mithilfe dieser Typeninventare können offizinspezifische OCR-Trainingsdaten erzeugt werden, die zur Erfassung weitere Texte der Offizin mit demselben Typeninventar genutzt werden können. Dieser Ansatz erbrachte mit der Tesseract-Enginge bereits Erkennungsgenauigkeiten von über 93%, die zuvor auf vergleichbarem Material noch nie erreicht wurden.

Synoptischer Editor

Ansicht des Transkriptionseditors. Links ist der Originalscan, rechts der bearbeitete Transkriptionstext. In einem aufgerufenen Fenster können verschiedene historische Glyphen ausgewählt werden, die auf einer heutigen Computertastatur nicht zu finden sind — Der für das Teilprojekt Narragonien entwickelte synoptische Editor zur vereinfachten Korrektur von OCR-Transkriptionen.

Das Modul bietet ein Framework für Online-Editoren, in denen Texte und Bilder nebeneinander angezeigt, annotiert und über Bild-Text-Links verknüpft werden können. Die Editoren können dabei auf die Anforderungen der jeweiligen Projekte zugeschnitten werden. So wird ein intuitives Web-Editionswerkzeug geschaffen, das auch ohne tiefgreifende Kenntnisse von Textkodierung und XML-Formaten eine manuelle Nachkorrektur von OCR-Resultaten ermöglicht. Damit wird, in Verbindung mit der Benutzerrechteverwaltung und der Redaktionsinfrastruktur des WÜsyphus II-Workflowsystems, die Einbeziehung von Hilfskräften, Seminarteilnehmern und sogar interessierten "Laien" in Editionsprojekte möglich gemacht.

Datenexport und Web-Portale

Die annotierten Texte, Bilder und weitere Datentypen werden je nach Projektanforderung in eine Vielzahl gängiger Export- und Austauschformate überführbar sein. So wird z.B. über TEI-konforme XML-Kodierungen auch der Datenaustausch mit dem TextGrid-Repository ermöglicht. Neben den Exportformaten werden für die Projektportale auch individuelle Anzeigelösungen angeboten: Insbesondere das vorgestellte Framework für synoptische Editoren kann auch zur Erstellung eines synoptischen Viewers für die Web-Präsentation der Teilprojekte genutzt werden. So können etwa die zugrundeliegenden Scans eines Texts, der OCR-Text oder Transkriptionen, Übersetzungen, Annotationen und Metadaten parallel angezeigt oder ausgeblendet werden.

Semantic MediaWiki

Auf der Basis von Semantic MediaWiki, einer Open-Source-Erweiterung des von Portalen wie Wikipedia bekannten Wiki-Systems, wird eine einfach benutzbare und schnell anpassbare Web-3.0-Komponente zur Bearbeitung, Strukturierung und Präsentation der erfassten Daten zur Verfügung gestellt. Dank Benutzerrechteverwaltung und der automatischen Versionierung von Änderungen ist SMW insbesondere auch für die Implementierung von Crowdsourcing-Verfahren geeignet. Für die Übernahme der Daten aus der Wiki-Umgebung nach WüySyphus II werden Schnittstellen und Importroutinen entwickelt. Für weniger komplexe Projekte kann SMW auch direkt als Anzeigeportal weiterverwendet werden. Die bereits mitgelieferten Such- und Abfragemöglichkeiten des Systems eignen sich insbesondere auch für die Umsetzung von Datenbankprojekten.

Textanalyse-Schnittstelle

Dieses Modul unterstützt, aufbauend auf den Textanalyse-Use-Cases:

die Zusammenstellung eines Korpus zu analysierender Texte aus dem TextGrid-Repository bzw. WÜsyphus u.a. anhand ihrer Metadaten,

die Aufbereitung der gewählten Texte mit ihren Metadaten für ihre Analyse mit UIMA,

die Durchführung der Analyse und schließlich

eine Einbindung der Analyseergebnisse in TextGrid, etwa durch die Rückübertragung von Annotationen durch UIMA nach TEI.

Diese Teilschritte können, ggf. in angepasster Form, auch allgemeiner von anderen Projekten nachgenutzt werden. So sollen langfristig auch Neulinge und "Laien" im Bereich Datenanalyse von den Vorteilen der automatischen Analyseverfahren profitieren, etwa wenn es um die Erkennung grammatischer Fälle oder von Eigennamen in einem Text geht. Als Austauschformat zwischen den Textanalyse-Modulen und WüSyphus II ist das CoNLL-Format vorgesehen.

Versionierung und Archivierung

Ein entscheidendes und oft vernachlässigtes Kriterium für den Erfolg digitaler Projekte nicht nur in den Geisteswissenschaften ist die abschließende Sicherstellung einer langfristigen Nachvollziehbarkeit und Nachnutzbarkeit der zugrundeliegenden Datenpakete. Für "lebendige", d.h. für beständig weitergepflegte und erweiterte Datensammlungen und Teilkorpora ist vor allem die Gewährleistung der Datensicherheit von entscheidender Wichtigkeit. Zur Versionsverwaltung sind neben den vorgestellten Wiki-Lösungen auch Git-basierte Systeme vorgesehen. Parallel zur stabilen Verfügbarmachung und Versionierung der Daten werden Methoden zu ihrer Langzeitarchivierung implementiert.

[bearbeiten]

Koordination

Zentrum für Philologie und Digitalität

Am Hubland

D-97074 Würzburg

Telefon: 0931/31-80534

E-mail

Dr. Hans-Günter Schmidt (Projektleitung)

Kerstin Kornhoff (Organisation)

Marion Friedlein (Organisation)

Regina Beitzinger (Organisation)

Almut Wenk (Organisation)

Tanja Altenhöfer (Organisation)

Jonathan Gaede (Wiki-Systeme und Kommunikation mit den Use-Cases)

Dr. Herbert Baier-Saip (Systementwicklung und Systemadministration)

Dipl.-Inform. Felix Kirchner (Systementwicklung und OCR)

Martin Gruner (Entwicklung, Wiki-Systeme und OCR)

Markus Kinner (OCR und Pflege der Arbeitsstationen)

Dipl.-Ing. Marco Dittrich (Scantechnik, OCR und Digitalisierung)

Ulf Weinmann (Bildbearbeitung und Digitalisierung)

Irmgard Götz-Kenner (Bildbearbeitung und Fotografie)

Partner an der JMU Würzburg

Textmining-Kompetenzen

Lehrstuhl für Computerphilologie und Neuere Deutsche Literaturgeschichte

Am Hubland, Bau 8

D-97074 Würzburg

Tel.: 0931-31 88421

E-Mail

Prof. Dr. Fotis Jannidis

Lehrstuhl für Künstliche Intelligenz und Angewandte Informatik (Informatik VI)

Arbeitsgruppe Data Mining und Information Retrieval

Am Hubland

D-97074 Würzburg

Tel.: 0931-31 86731

Prof. Dr. Frank Puppe
Prof. Dr. Andreas Hotho
Dipl.-Math. Lena Hettinger

Projektgruppe Narragonien digital

Neuphilologisches Institut / Romanistik

Lehrstuhl für Französische und Italienische Literaturwissenschaft

Am Hubland, Bau 5

D-97074 Würzburg

Tel.: 0931 31-85681

Prof. Dr. Brigitte Burrichter

Viktoria Walter

Lehrstuhl für deutsche Philologie, Ältere Abteilung

Professur für deutsche Philologie, insb. Literaturgeschichte des späten Mittelalters und der frühen Neuzeit

Am Hubland, Bau 4

D-97074 Würzburg

Tel.: 0931 31-81679

Prof. Dr. Joachim Hamm

Christine Grundig M.A.

Projektgruppe Anagnosis

Institut für Klassische Philologie

Lehrstuhl I (Gräzistik)

Residenzplatz, 2 (Südflügel)

D-97070 Würzburg

Prof. Dr. Dr. h.c. Michael Erler

AR Dr. Holger Essler

Vincenzo Damiani, M.A.

Projektgruppe Schulwandbilder digital

Lehrstuhl für Systematische Bildungswissenschaft

Forschungsstelle Historische Bildmedien

Campus Hubland Nord

Oswald-Külpe-Weg 86

D-97074 Würzburg

Tel.: 0931 31 89672

E-mail

Univ.-Prof. Dr. phil. habil. Andreas Dörpinghaus (Lehrstuhlinhaber)
Dr. phil. Ina Uphoff (Projektleiterin)
Dipl. Päd. Eva Zimmer, M.A. (stellv. Projektleiterin)

Projektgruppe Identifikation von Übersetzern

Institut für Philosophie

Philosophie- und Wissenschaftsgeschichte der griechisch- arabisch- lateinischen Tradition

Residenz - Südflügel

D-97070 Würzburg

Tel. 0931 31 2778

Prof. Dr. Dag Nikolaus Hasse

Andreas Büttner, B.A.

Jonathan Maier

Projektgruppe Romangattungen

Lehrstuhl für Computerphilologie und Neuere Deutsche Literaturgeschichte

Am Hubland, Bau 8

D-97074 Würzburg

Tel.: 0931-31 88421

E-Mail

Prof. Dr. Fotis Jannidis

Isabella Reger

Lehrstuhl für Künstliche Intelligenz und Angewandte Informatik (Informatik VI)

Arbeitsgruppe Data Mining und Information Retrieval

Am Hubland

D-97074 Würzburg

Tel.: 0931-31 86731

Dipl.-Math. Lena Hettinger

Projektgruppe Romanfiguren

Lehrstuhl für Künstliche Intelligenz und Angewandte Informatik (Informatik VI)

Arbeitsgruppe Data Mining und Information Retrieval

Am Hubland

D-97074 Würzburg

Tel.: 0931-31 86731

Prof. Dr. Frank Puppe

Markus Krug, M.Sc.

Lehrstuhl für Computerphilologie und Neuere Deutsche Literaturgeschichte

Am Hubland, Bau 8

D-97074 Würzburg

Tel.: 0931-31 88421

E-Mail

Prof. Dr. Fotis Jannidis

Isabella Reger

Externe Partner

Professur für Korpuslinguistik (FAU Erlangen-Nürnberg)

Bismarckstr. 6

91054 Erlangen

Tel.: +49 09131 85-29251

E-mail

Prof. Dr. Stefan Evert

Thomas Proisl, M.A.

Deutsches Forschungszentrum für Künstliche Intelligenz (DFKI) GmbH

Forschungsgruppe Wissensmanagement

Trippstadter Straße 122

67663 Kaiserslautern

Tel.: 0631 20575-1000

E-Mail

Prof. Dr. Andreas Dengel

Dr. Syed Saqib Bukhari

@@ Zeile 48: / Zeile 48: @@
 ==OCR-Modul==
 [[File:CollageOCR.png|thumbnail|Erstellung von Typentabellen, hier am Beispiel des Teilprojekts [[Narragonien]].| link=http://kallimachos.de/kallimachos/images/kallimachos/0/03/CollageOCR.png | alt=Collage verschiedener Typentabellen]]
-Das OCR-Modul stellt eine automatisierte Vorverarbeitung für die Volltexterstellung zur Verfügung. Auf der Grundlage der Arbeiten und Softwarebausteine des DFKI wird der im Projekt verfolgte Ansatz aus folgenden Schritten bestehen:
+Das OCR-Modul stellt eine automatisierte Vorverarbeitung für die Volltexterstellung zur Verfügung. Hierzu entwickeln zwei Arbeitsgruppen am DFKI Kaiserslautern und an der Universität Würzburg bestehende Tools und Software-Bausteine weiter, um auch solche Texte erschließen zu können, für die bislang keine qualitativ hochwertigen OCR-Lösungen vorliegen. Im Zentrum dieser Arbeiten steht dabei der Use-Case Narragonien.
+Die OCR-Arbeitsgruppe an der UB Würzburg begleitet und evaluiert auf den Spuren etablierter Tools, etwa aus dem EMOP-Projekt  (Franken+, Gamera, Tesseract) den Entwicklungsprozess am DFKI. Dazu werden verlags- bzw. offizinspezifischen Typeninventare in einem MUFI-Zeichensatz erstellt, wobei das eigens entwickelte Tool Glyph Miner wertvolle Dienste leistet. Mithilfe dieser Typeninventare können offizinspezifische OCR-Trainingsdaten erzeugt werden, die zur Erfassung weitere Texte der Offizin mit demselben Typeninventar genutzt werden können. Dieser Ansatz erbrachte mit der Tesseract-Enginge bereits Erkennungsgenauigkeiten von über 93%, die zuvor auf vergleichbarem Material noch nie erreicht wurden.
+<!--
+Auf der Grundlage der Arbeiten und Softwarebausteine des DFKI wird der im Projekt verfolgte Ansatz aus folgenden Schritten bestehen:
 *Integration der bisherigen OCR-Komponenten auf Softwarebene,
 *Training von neuen Zeichensätzen für historische Druck- und Handschriften,
 *Entwicklung von „Wörterbüchern“ für historische Orthographien,
 *Weiterentwicklung der nichtparametrischen Methoden für die Bildvorverarbeitung, Layoutanalyse und Sprachmodellierung.
-<!--Erwähnen: Gute Ergebnisse beim Narrenschiff ?-->
+-->
 <br clear=all>