Projektbeschreibung

[bearbeiten]

KALLIMACHOS führt Geisteswissenschaftler, Informatiker und Bibliothekare in einem regionalen Digital Humanities-Zentrum zusammen. Die an der Universität Würzburg vorhandenen Kooperationen und Kompetenzen werden durch Partner am DFKI Kaiserslautern (OCR) und an der Universität Erlangen-Nürnberg (Fachbereich Linguistische Informatik) ergänzt.

Unser Aufgabenschwerpunkt liegt auf der Betreuung digitaler Editionen und quantitativer Analyseverfahren aus dem Bereich des Text Mining, z.B. Stilometrie, Topic Modeling und Named Entity Recognition. Wir bieten unseren Projektpartnern die nötige technische und soziale Infrastruktur, die Geisteswissenschaftler bei der Beantwortung von Forschungsfragen auf der Basis digitaler Methoden unterstützt.

Auf der technischen Seite gehören dazu die Entwicklung und Bereitstellung der benötigten Software-Komponenten und das Erarbeiten prototypischer Arbeitsabläufe, die in bereits vorhandene Infrastrukturen integriert werden. Dabei ist uns gerade auch die langfristige Verfügbarkeit, Pflege und Archivierung der Projekte, Portale und Forschungsdaten ein wichtiges Anliegen.

Außerdem fördern wir durch regelmäßige Workshops und Tagungen den Austausch zwischen den regionalen und überregionalen Digital-Humanities-Projekten. Durch Beratungen und Schulungen führen wir Fachleuten ebenso wie dem akademischen Nachwuchs die Möglichkeiten digitaler Methoden zur Bearbeitung von Forschungsfragen vor Augen und bieten methodische, technische und organisatorische Unterstützung.

[bearbeiten]

Vollständiger Projekt-Workflow

Ziel des Koordinationsprojekts ist die vollständige Begleitung geisteswissenschaftlicher Digitalisierungsprojekte - von der Digitalisierung der Originale über die automatisierte Erkennung und Annotation der Texte und Bilder hin zur Editionserstellung und Anzeige als Online-Portal und

Nicht für alle Projekte

Dazu Bla Bla und Bla

Der WÜsyphus II-Workflow

Datei:3QV.png

Scans

Interner Metadateneditor

OCR-Modul

Das OCR-Modul stell eine automatisierte Vorverarbeitung für die Volltexterstellung zur Verfügung. Auf der Grundlage der Arbeiten und Softwarebausteine des DFKI besteht der im Projekt verfolgte Ansatz aus folgenden Schritten bestehen:

Integration der bisherigen OCR-Komponenten auf Softwarebene,
Training von neuen Zeichensätzen für historische Druck- und Handschriften,
Entwicklung von „Wörterbüchern“ für historische Orthographien,
Weiterentwicklung der nichtparametrischen Methoden für die Bildvorverarbeitung, Layoutanalyse und Sprachmodellierung.

Synoptischer Editor

Das Modul bietet ein Framework für Editoren, mit denen Texte und Bilder nebeneinander angezeigt, annotiert und über Bild-Text-Links verknüpft werden können. Die Editoren können dabei auf die Anforderungen der jeweiligen Projekte zugeschnitten werden.

So wird ein intuitives Web-Editionswerkzeug geschaffen, das auch ohne tiefgreifende Kenntnisse im Bezug auf Textkodierung und XML-Formate eine manuelle Nachkorrektur der Resultate des automatischen Bildanalyse- und OCR-Moduls ermöglicht. Damit wird, in Verbindung mit der Benutzerrechteverwaltung des WÜsyphus-Workflowsystems, die Einbeziehung von Hilfskräften, Seminarteilnehmern und sogar interessierten "Laien" in Editionsprojekte erleichtert bzw. überhaupt erst möglich gemacht.

Das Modul basiert auf einer Weiterentwicklung der Dreifachlupe mit synchronisierten, zoombaren Bildstreifen für Scan, Transkription und Übersetzung dar, die sich als Präsentationswerkzeug bereits im Rahmen von [Link: http://vb.uni-wuerzburg.de/ub/index.html Virtuellen Bibliothek Würzburg] und Franconica Online bewähren konnte. Zusätzlich werden Komponenten des auf Open-Source-Basis verfügbaren CK-Editors ausgebaut. Die entsprechend erweiterte WÜsyphus-Dreifachlupe wird so angepasst, dass sie zusammen mit dem CK-basierten XML-Editor auch in der TextGrid-Weboberfläche verwendet werden kann.

[Ausgabeperspektive?]

Wiki-Systeme

In ähnlicher Perspektive wird ein auf der Open Source Software JAMWiki beruhendes moderiertes Wiki-System, das bereits im UB-Projekt Libri Sancti Kiliani digital operationell ist, für weitere Medientypen und für die Verwendung in TextGrid angepasst und funktional erweitert. Mit dieser Web-2.0-Komponente wird ein weiteres sehr einfach benutzbares Werkzeug bereitgestellt, das den Stamm potentiell Beitragender zu einem Projekt ortsunabhängig vergrößert. TextGrid wird damit um ein System für Beiträge Dritter, die nicht unmittelbar auf den Originaldaten arbeiten sollen, erweitert.

[Aktuell ja Semantik Mediawiki]

Schnittstelle Repositories-Datenanalyse

Dieses Modul unterstützt anhand der Textanalyse-Use-Cases

die Zusammenstellung eines Korpus zu analysierender Texte aus dem TextGrid-Repository bzw. WÜsyphus u.a. anhand ihrer Metadaten,

die Aufbereitung der gewählten Texte mit ihren Metadaten für ihre Analyse mit UIMA,

die Ausführung der Analyse und schließlich

eine Einbindung der Analyseergebnisse in TextGrid, etwa durch die Rückübertragung von Annotationen durch UIMA nach TEI.

Diese Teilschritte können, ggf. in angepasster Form, auch allgemeiner von anderen Projekten nachgenutzt werden. So sollen langfristig auch Neulinge und "Laien" im Bereich Datenanalyse von den Vorteilen der automatischen Analyseverfahren profitieren, etwa wenn es um die Erkennung grammatischer Fälle oder von Eigennamen in einem Text geht.

Aufbau prototypischer Arbeitsabläufe zur Datenanalyse

Ausgehend von den Teilprojekten als Use Cases werden prototypische Abläufe zur Datenanalyse für die Geisteswissenschaften etabliert und für das Zielpublikum verständlich dokumentiert. Diese Workflows, die etablierte Tools zu Arbeitsketten zusammenstellen sowie Eigenentwicklungen einbringen, sollen durch entsprechende interne und öffentliche Schulungen auch einer größeren Öffentlichkeit im Bereich der Digital Humanities bekannt gemacht werden. Im Bereich der statistischen Analyse quantitativer Ergebnisse sind dabei grundlegende methodologische Probleme zu lösen. Die so ermittelten Best-Practice-Implementierungen werden in die Workflows integriert, im Rahmen der Use Cases empirisch validiert und der Forschungsgemeinschaft zur Verfügung gestellt. So wird die das „Nachbauen“ mit eigenen Daten im Rahmen weitere Projekte vereinfacht.

Die folgende Grafik zeigt, welche Arbeitsschritte der Workflowkette für die derzeitigen Teilprojekte von Bedeutung sind: