KALLIMACHOS führt Geisteswissenschaftler, Informatiker und Bibliothekare in einem regionalen Digital-Humanities-Zentrum zusammen. Die an der Universität Würzburg vorhandenen Kooperationen und Kompetenzen werden durch Partner am DFKI Kaiserslautern (OCR) und an der Universität Erlangen-Nürnberg (Linguistische Informatik) ergänzt. Der Aufbau des Zentrums wird bis zum 3. Quartal 2017 durch das Bundesministerium für Bildung und Forschung (BMBF) im Rahmen der Fördermaßname e-Humanities bezuschusst.
Unser Aufgabenschwerpunkt liegt auf der Betreuung digitaler Editionen und quantitativer Analyseverfahren aus dem Bereich des Text Mining, z.B. Stilometrie, Topic Modeling und Named Entity Recognition. Wir bieten unseren Projektpartnern die nötige technische und soziale Infrastruktur, die Geisteswissenschaftler bei der Beantwortung von Forschungsfragen auf der Basis digitaler Methoden unterstützt.
Auf der technischen Seite gehören dazu die Entwicklung und Bereitstellung der benötigten Software-Komponenten und das Erarbeiten prototypischer Arbeitsabläufe, die in bereits vorhandene Infrastrukturen integriert werden. Dabei ist uns gerade auch die langfristige Verfügbarkeit, Pflege und Archivierung der Projekte, Portale und Forschungsdaten ein wichtiges Anliegen.
Außerdem fördern wir durch regelmäßige Workshops und Tagungen den Austausch zwischen den regionalen und überregionalen Digital-Humanities-Projekten. Durch Beratungen und Schulungen führen wir Fachleuten ebenso wie dem akademischen Nachwuchs die Möglichkeiten digitaler Methoden zur Bearbeitung von Forschungsfragen vor Augen und bieten methodische, technische und organisatorische Unterstützung.
Ausgehend von unseren Teilprojekten als Use Cases werden prototypische Abläufe zur Datenanalyse für die Geisteswissenschaften etabliert und für das Zielpublikum verständlich dokumentiert. Im Rahmen unseres eigens entwickelten Workflowmanagementsystems Wüsyphus II können die etablierte Tools zu Arbeitsketten zusammengefügt werden. Diese sollen durch interne und öffentliche Schulungen auch einer größeren Öffentlichkeit im Bereich der Digital Humanities bekannt gemacht werden. Die ermittelten Best-Practice-Implementierungen werden in die Workflows integriert, am Beispiel der Use Cases empirisch validiert und der Forschungsgemeinschaft zur Verfügung gestellt. So wird die das „Nachbauen“ mit eigenen Daten im Rahmen weiterer Projekte vereinfacht.
Nicht alle Punkte der Wüsyphus-II-Workflowkette müssen im Rahmen von KALLIMACHOS durchlaufen werden. So kann es etwa vorkommen, dass für ein Projekt bereits die nötigen Digitalisate vorliegen, womit das Einscannen der physischen Originale nicht nötig ist. Die Planung eines individuellen Projektworkflows ist aber für alle Teilprojekte obligatorisch. Die folgende Grafik zeigt, welche Arbeitsschritte der Workflowkette für unsere Use Cases von Bedeutung sind:
Das in der Zentralbibliothek der Universät eingerichtete Digitalisierungszentrum stellt die nötige Technik und das Fachpersonal für die Neu- und Ersterstellung von hochwertigen Digitalisaten aus den physischen Originalen zur Verfügung. Auch für schwierige Fälle stehen innovative Lösungen parat: So sind mit einer eigens angefertigten Buchwippe auch Scanarbeiten an Büchern mit einem maximalen Öffnungswinkel bis 60° oder größer möglich und für die Digitalisierung großformatiger Poster steht eine spezielle Unterdruck-Saugwand zur Verfügung.
Der bereits existierende anpassbare Metadateneneditor des Digitalisierungszentrums ermöglicht die zentrale Pflege umfassender vordefinierter Metadatensätze für Handschriften, Inkunabeln, Drucke und Grafiken. Verbesserungen der Web-Performance und der Benutzerführung sind für kommende Erweiterungen des Metadateneditors geplant. Auch die Aufnahme weiterer Datentypen, z.B. für Artefakte und andere Realia, ist für den Ausbau des Metadateneditors vorgesehen.
Das OCR-Modul stellt eine automatisierte Vorverarbeitung für die Volltexterstellung zur Verfügung. Auf der Grundlage der Arbeiten und Softwarebausteine des DFKI wird der im Projekt verfolgte Ansatz aus folgenden Schritten bestehen:
Das Modul bietet ein Framework für Online-Editoren, in denen Texte und Bilder nebeneinander angezeigt, annotiert und über Bild-Text-Links verknüpft werden können. Die Editoren können dabei auf die Anforderungen der jeweiligen Projekte zugeschnitten werden. So wird ein intuitives Web-Editionswerkzeug geschaffen, das auch ohne tiefgreifende Kenntnisse im Bezug auf Textkodierung und XML-Formate eine manuelle Nachkorrektur der Resultate des automatischen Bildanalyse- und OCR-Moduls ermöglicht. Damit wird, in Verbindung mit der Benutzerrechteverwaltung des WÜsyphus II-Workflowsystems, die Einbeziehung von Hilfskräften, Seminarteilnehmern und sogar interessierten "Laien" in Editionsprojekte erleichtert bzw. überhaupt erst möglich gemacht.
Das Modul basiert auf einer Weiterentwicklung der Dreifachlupe mit synchronisierten, zoombaren Bildstreifen für Scan, Transkription und Übersetzung dar, die sich als Präsentationswerkzeug bereits im Rahmen von Virtuellen Bibliothek Würzburg und Franconica Online bewähren konnte. Zusätzlich werden Komponenten des auf Open-Source-Basis verfügbaren CK-Editors ausgebaut. Die entsprechend erweiterte WÜsyphus-Dreifachlupe wird so angepasst, dass sie zusammen mit dem CK-basierten XML-Editor auch in der TextGrid-Weboberflächeverwendet werden kann.
Die annotierten Texte, Bilder und weitere Datentypen werden je nach Projektanforderung in eine Vielzahl gängiger Export- und Austauschformate überführbar sein. So wird z.B. über TEI-konforme XML-Codierungen auch der Datenaustausch mit dem TextGrid-Repository ermöglicht. Neben den Exportformaten werden für die Projektportale auch individuelle Anzeigelösungen angeboten: Insbesondere das vorgestellte Framework für synoptischen Editoren kann auch zur Erstellung eines synoptischer Viewers für die Web-Präsentation des Projekts genutzt werden. So können etwa die zugrundeliegenden Scans eines Texts, die OCR-Transkription, Übersetzungen, Annotationen und Metadaten parallel angezeigt oder ausgeblendet werden.
Auf der Basis von Semantic MediaWiki, einer Open-Source-Erweiterung des von Portalen wie Wikipedia bekannten Wiki-Systems, wird eine einfach benutzbare und schnell anpassbare Web-3.0-Komponente zur Bearbeitung, Strukturierung und Präsentation der erfassten Daten zur Verfügung gestellt. Dank Benutzerrechteverwaltung und der automatischen Versionierung von Änderungen ist SMW insbesondere auch für die Implementierung von Crowdsourcing-Verfahren geeignet – etwa durch Seminarteilnehmer oder interessierte Hobbyisten. Für weniger komplexe Projekte kann SMW auch direkt als Anzeigeportal weiterverwendet werden. Die bereits mitgelieferten Such- und Abfragemöglichkeiten des Systems eignen sich insbesondere auch für die Umsetzung von Datenbankprojekten.
Dieses Modul unterstützt, aufbauend auf den Textanalyse-Use-Cases:
Diese Teilschritte können, ggf. in angepasster Form, auch allgemeiner von anderen Projekten nachgenutzt werden. So sollen langfristig auch Neulinge und "Laien" im Bereich Datenanalyse von den Vorteilen der automatischen Analyseverfahren profitieren, etwa wenn es um die Erkennung grammatischer Fälle oder von Eigennamen in einem Text geht.
Ein entscheidendes und oft vernachlässigtes Kriterium für den Erfolg digitaler Projekte nicht nur in den Geisteswissenschaften ist die abschließende Sicherstellung einer langfristigen Nachvollziehbarkeit und Nachnutzbarkeit der zugrundeliegenden Datenpakete. Für "lebendige", dh. für beständig weitergepflegte und erweiterte und Teilkorpora ist vor allem die Sicherstellung einer angemessenen Versionierung der Daten von entscheidender Wichtigkeit. Zur Versionsverwaltung sind neben den vorgestellten Wiki-Lösungen auch Git-basierte Systeme vorgesehen. Parallel zur stabilen Verfügbarmachung und Versionierung der Daten werden im Rahmen von KALLIMACHOS auch Methoden zu ihrer Langzeitarchivierung implentiert.
Am Hubland
D-97074 Würzburg
Telefon: 0931/31-80534
Am Hubland, Bau 8
Tel.: 0931-31 88421
Arbeitsgruppe Data Mining und Information Retrieval
Lehrstuhl I (Gräzistik)
Residenzplatz, 2 (Südflügel)
Forschungsstelle Historische Bildmedien
Campus Hubland Nord
Oswald-Külpe-Weg 86
Tel.: 0931 31 89672
Philosophie- und Wissenschaftsgeschichte der griechisch- arabisch- lateinischen Tradition
Residenz - Südflügel
D-97070 Würzburg
Bismarckstr. 6
91054 Erlangen
Tel.: +49 09131 85-29251
Forschungsgruppe Wissensmanagement
Trippstadter Straße 122
67663 Kaiserslautern
Tel.: 0631 20575-1000
Ich habe ein geisteswissenschaftliches Projekt, für das ich gerne mit KALLIMACHOS zusammenarbeiten würde. Wen soll ich kontaktieren und wann können wir anfangen?
Brauchen wir eigene DH-Kompetenzen, um ein digitales Projekt bei KALLIMACHOS zu starten?
Eigentlich müssen wir für unser Projekt gar nichts mehr digitalisieren, sondern können direkt mit vorliegenden Daten weiterarbeiten. Ist das noch ein Fall für KALLIMACHOS?
Eigentlich brauchen wir nur Digitalisate und e-Texte, die weiteren Schritte der Workflowkette sind für unser Projekt nicht relevant. Ist das noch ein Fall für KALLIMACHOS?
Eigentlich ist unser Projekt schon abgeschlossen, aber wir suchen eine dauerhafte Lösung für die Web-Anzeige und die Archivierung. Ist das noch ein Fall für KALLIMACHOS?
Was ist mit den weiteren Dienstleistungen des Digitalisierungszentrums?
Wo finde ich das Digitalisierungszentrum?
Was bedeutet die Abkürzung OCR?
Was bedeutet Text Mining?
Was ist der Zweck von Stilometrie?