Projektbeschreibung

[bearbeiten]

KALLIMACHOS führt Geisteswissenschaftler, Informatiker und Bibliothekare in einem regionalen Digital Humanities-Zentrum zusammen. Die an der Universität Würzburg vorhandenen Kooperationen und Kompetenzen werden durch Partner am DFKI Kaiserslautern (OCR) und an der Universität Erlangen-Nürnberg (Fachbereich Linguistische Informatik) ergänzt.

Unser Aufgabenschwerpunkt liegt auf der Betreuung digitaler Editionen und quantitativer Analyseverfahren aus dem Bereich des Text Mining, z.B. Stilometrie, Topic Modeling und Named Entity Recognition. Wir bieten unseren Projektpartnern die nötige technische und soziale Infrastruktur, die Geisteswissenschaftler bei der Beantwortung von Forschungsfragen auf der Basis digitaler Methoden unterstützt.

Auf der technischen Seite gehören dazu die Entwicklung und Bereitstellung der benötigten Software-Komponenten und das Erarbeiten prototypischer Arbeitsabläufe, die in bereits vorhandene Infrastrukturen integriert werden. Dabei ist uns gerade auch die langfristige Verfügbarkeit, Pflege und Archivierung der Projekte, Portale und Forschungsdaten ein wichtiges Anliegen.

Außerdem fördern wir durch regelmäßige Workshops und Tagungen den Austausch zwischen den regionalen und überregionalen Digital-Humanities-Projekten. Durch Beratungen und Schulungen führen wir Fachleuten ebenso wie dem akademischen Nachwuchs die Möglichkeiten digitaler Methoden zur Bearbeitung von Forschungsfragen vor Augen und bieten methodische, technische und organisatorische Unterstützung.

[bearbeiten]

Hier z.B. die Scanner!

TODO

[bearbeiten]

Modulbasiertes Vorgehen

OCR-Modul

Das Modul soll eine automatisierte Vorverarbeitung für die Volltexterstellung bieten. Auf der Grundlage der Arbeiten und Softwarebausteine des DFKI wird die Arbeit im Projekt aus folgenden Schritten bestehen:

Integration der bisherigen OCR-Komponenten auf Softwarebene,
Training von neuen Modellen [Zeichensätzen?] für historische Druck- und Handschriften,
Entwicklung von Sprachmodellen („Wörterbüchern“) für historische Orthographie,
Weiterentwicklung der nichtparametrischen Methoden [zu technisch?] für die Bildvorverarbeitung, Layoutanalyse und Sprachmodellierung.

[Erwähnen: Gute Ergebnisse beim Narrenschiff]

Modul Synoptischer Editor

Das Modul bietet ein Framework für Editoren, mit denen Texte und Bilder nebeneinander angezeigt, annotiert und über Bild-Text-Links verknüpft werden können. Die Editoren können dabei auf die Anforderungen der jeweiligen Projekte zugeschnitten werden.

Neben den deutlich mächtigeren TextGrid-XML-Editor für den Spezialanwender tritt damit ein intuitives Web-Editionswerkzeug auf den Plan, das auch ohne tiefgreifende Kenntnisse im Bezug auf Textkodierung und XML-Formate eine manuelle Nachkorrektur der Resultate des automatischen Bildanalyse- und OCR-Moduls ermöglicht. Damit wird, in Verbindung mit der Benutzerrechteverwaltung des WÜsyphus-Workflowsystems, die Einbeziehung von Hilfskräften, Seminarteilnehmern und sogar interessierten "Laien" in Editionsprojekte erleichtert bzw. überhaupt erst möglich gemacht.

Das Modul basiert auf einer Weiterentwicklung der Dreifachlupe mit synchronisierten, zoombaren Bildstreifen für Scan, Transkription und Übersetzung dar, die sich als Präsentationswerkzeug bereits im Rahmen von [Link: http://vb.uni-wuerzburg.de/ub/index.html Virtuellen Bibliothek Würzburg] und Franconica Online bewähren konnte. Zusätzlich werden Komponenten auf Open-Source-Basis verfügbaren CK-Editors ausgebaut. Die entsprechend erweiterte WÜsyphus-Dreifachlupe wird so angepasst, dass sie zusammen mit dem CK-basierten XML-Editor auch in der TextGrid-Weboberfläche verwendet werden kann.

[Ausgabeperspektive?]

Wiki-Systeme

In ähnlicher Perspektive wird ein auf der Open Source Software JAMWiki beruhendes moderiertes Wiki-System, das bereits im UB-Projekt Libri Sancti Kiliani digital operationell ist, für weitere Medientypen und für die Verwendung in TextGrid angepasst und funktional erweitert. Mit dieser Web-2.0-Komponente wird ein weiteres sehr einfach benutzbares Werkzeug bereitgestellt, das den Stamm potentiell Beitragender zu einem Projekt ortsunabhängig vergrößert. TextGrid wird damit um ein System für Beiträge Dritter, die nicht unmittelbar auf den Originaldaten arbeiten sollen, erweitert.

[Aktuell ja Semantik Mediawiki]

Schnittstelle Repositories-Datenanalyse

Dieses Modul unterstützt anhand der Textanalyse-Use-Cases

die Zusammenstellung eines Korpus zu analysierender Texte aus dem TextGrid-Repository bzw. WÜsyphus u.a. anhand ihrer Metadaten,

die Aufbereitung der gewählten Texte mit ihren Metadaten für ihre Analyse mit UIMA,

die Ausführung der Analyse und schließlich

eine Einbindung der Analyseergebnisse in TextGrid, etwa durch die Rückübertragung von Annotationen durch UIMA nach TEI.

Diese Teilschritte können, ggf. in angepasster Form, auch allgemeiner von anderen Projekten nachgenutzt werden. So sollen langfristig auch Neulinge und "Laien" im Bereich Datenanalyse von den Vorteilen der automatischen Analyseverfahren profitieren, etwa wenn es um die Erkennung grammatischer Fälle oder von Eigennamen in einem Text geht.

Aufbau prototypischer Arbeitsabläufe zur Datenanalyse

Ausgehend von den Use Cases werden prototypische Abläufe zur Datenanalyse für Textwissenschaftler etabliert und vor allem ausreichend und für das Zielpublikum verständlich dokumentiert. Ziel ist es, so den Einsatz solcher Verfahren zu befördern, indem man das „Nachbauen“ mit eigenen Daten möglichst vereinfacht. Diese Workflows, die etablierte Tools zu Arbeitsketten zusammenstellen sowie Eigenentwicklungen einbringen, sollen durch entsprechende interne und öffentliche Schulungen auch einer größeren Öffentlichkeit im Bereich der Digital Humanities bekannt gemacht werden. Im Bereich der statistischen Analyse quantitativer Ergebnisse sind dabei grundlegende methodologische Probleme zu lösen. Die so entstandenen Best-Practice-Implementierungen werden in die Workflows integriert, im Rahmen der Use Cases empirisch validiert und der Forschungsgemeinschaft zur Verfügung gestellt.

[bearbeiten]

TODO