Projektbeschreibung: Unterschied zwischen den Versionen

Aus Kallimachos
Wechseln zu:Navigation, Suche
(Projektgruppe Leserlenkung)
(OCR und Textmining)
 
(268 dazwischenliegende Versionen von 3 Benutzern werden nicht angezeigt)
Zeile 1: Zeile 1:
 
=Projektbeschreibung=  
 
=Projektbeschreibung=  
[[File:Datentunnel.jpg | 600px |link=]]
+
[[File:Datentunnel.jpg | |link=| alt= Bilder und Texte auf dem Weg ins digitale Zeitalter]]
 
<br clear=all>
 
<br clear=all>
  
 
==Projektbeschreibung==
 
==Projektbeschreibung==
KALLIMACHOS führt Geisteswissenschaftler, Informatiker und Bibliothekare in einem regionalen Digital-Humanities-Zentrum zusammen. Die an der Universität Würzburg vorhandenen Kooperationen und Kompetenzen werden durch Partner am [http://www.dfki.de/web/kontakt/dfki-kaiserslautern DFKI Kaiserslautern] (OCR) und an der [http://www.linguistik.uni-erlangen.de/index.shtml Universität Erlangen-Nürnberg] (Linguistische Informatik) ergänzt.  
+
KALLIMACHOS führt Geisteswissenschaftler und Informatiker in einem regionalen Digital-Humanities-Zentrum zusammen. Der Aufbau des Zentrums wird nach dem Ende der ersten Förderphase 2017 noch bis zum 3. Quartal 2019 durch das Bundesministerium für Bildung und Forschung im Rahmen der Fördermaßnahme [http://www.pt-dlr-gsk.de/de/992.php  ''e-Humanities''] bezuschusst. Die an der Universität Würzburg vorhandenen Kompetenzen werden durch Partner am [http://www.dfki.de/web/kontakt/dfki-kaiserslautern DFKI Kaiserslautern] (Förderphase I) und an der [http://www.linguistik.uni-erlangen.de/index.shtml Universität Erlangen-Nürnberg] (Förderphase I und II) ergänzt.  
  
Unser Aufgabenschwerpunkt liegt auf der Betreuung digitaler Editionen und quantitativer Analyseverfahren aus dem Bereich des ''Text Mining'', z.B. ''Stilometrie'', ''Topic Modeling'' und ''Named Entity Recognition''. Wir bieten unseren Projektpartnern die nötige technische und soziale Infrastruktur, die Geisteswissenschaftler bei der Beantwortung von Forschungsfragen auf der Basis digitaler Methoden unterstützt.  
+
Unser Aufgabenschwerpunkt liegt auf der Erarbeitung digitaler Editionen und quantitativer Analyseverfahren aus dem Bereich des ''Text Mining'', z.B. ''Stilometrie'', ''Topic Modeling'' und ''Named Entity Recognition''. Wir bieten unseren Projektpartnern die nötige technische und soziale Infrastruktur, die Geisteswissenschaftler bei der Beantwortung von Forschungsfragen auf der Basis digitaler Methoden unterstützt.  
  
Auf der technischen Seite gehören dazu die Entwicklung und Bereitstellung der benötigten Software-Komponenten und das Erarbeiten prototypischer Arbeitsabläufe, die in bereits vorhandene Infrastrukturen integriert werden. Dabei ist uns gerade auch die langfristige Verfügbarkeit, Pflege und Archivierung der Projekte, Portale und Forschungsdaten ein wichtiges Anliegen.
+
Auf der technischen Seite gehören dazu die Entwicklung und Bereitstellung der benötigten Software-Komponenten und das Erarbeiten prototypischer Arbeitsabläufe, die in bereits vorhandene Infrastrukturen integriert werden. Dabei ist uns gerade auch die langfristige Verfügbarkeit, Pflege und Archivierung der Projekte, Portale und Forschungsdaten ein wichtiges Anliegen. Insofern baut KALLIMACHOS eine intergrierte Struktur für Forschungsdatenmanagement in den Geisteswissenschaften auf.
  
Außerdem fördern wir durch regelmäßige Workshops und Tagungen den Austausch zwischen den regionalen und überregionalen Digital-Humanities-Projekten. Durch Beratungen und Schulungen führen wir Fachleuten ebenso wie dem akademischen Nachwuchs die Möglichkeiten digitaler Methoden zur Bearbeitung von Forschungsfragen vor Augen und bieten methodische, technische und organisatorische Unterstützung.
+
Außerdem fördern wir durch regelmäßige Workshops und Tagungen den Austausch zwischen den regionalen und überregionalen Digital-Humanities-Projekten. Durch Beratungen und Schulungen führen wir Fachleuten, aber auch weniger technikaffinen Wissenschaftlern und dem akademischen Nachwuchs die Möglichkeiten digitaler Methoden zur Bearbeitung von Forschungsfragen vor Augen und bieten methodische, technische und organisatorische Unterstützung.
  
=Arbeitsplan=
+
=Förderphase I=
==Prototypische Arbeitsabläufe zur Datenanalyse==
+
==Prototypische Arbeitsabläufe zu Edition und Datenanalyse==
Ausgehend von unseren Teilprojekten als ''Use Cases'' werden prototypische Abläufe zur Datenanalyse für die Geisteswissenschaften etabliert und für das Zielpublikum verständlich dokumentiert. Im Rahmen unseres eigens entwickelten Workflowmanagementsystems ''Wüsyphus II'' können die etablierte Tools zu Arbeitsketten zusammengefügt werden. Diese sollen durch interne und öffentliche Schulungen auch einer größeren Öffentlichkeit im Bereich der Digital Humanities bekannt gemacht werden. <!-- Im Bereich der statistischen Analyse quantitativer Ergebnisse sind dabei grundlegende methodologische Probleme zu lösen.-->Die ermittelten Best-Practice-Implementierungen werden in die Workflows integriert, am Beispiel der ''Use Cases'' empirisch validiert und der Forschungsgemeinschaft zur Verfügung gestellt. So wird die das „Nachbauen“ mit eigenen Daten im Rahmen weiterer Projekte vereinfacht.  
+
Ausgehend von unseren Teilprojekten als ''Use Cases'' werden prototypische Abläufe zur Datenerfassung und -analyse für die Geisteswissenschaften etabliert und für das Zielpublikum verständlich dokumentiert. Im Rahmen der Entwicklung des Workflowmanagementsystems ''Wüsyphus II'' können etablierte Tools zu Arbeitsketten zusammengefügt werden. Diese sollen durch interne und öffentliche Schulungen auch einer größeren Öffentlichkeit im Bereich der Digital Humanities bekannt gemacht werden. <!-- Im Bereich der statistischen Analyse quantitativer Ergebnisse sind dabei grundlegende methodologische Probleme zu lösen.-->Die ermittelten Best-Practice-Implementierungen werden in die Workflows integriert, am Beispiel der ''Use Cases'' empirisch validiert und der Forschungsgemeinschaft zur Verfügung gestellt. So wird das „Nachbauen“ mit eigenen Daten im Rahmen weiterer Projekte vereinfacht.  
  
Nicht alle Punkte der Wüsyphus-II-Workflowkette müssen im Rahmen von KALLIMACHOS durchlaufen werden. So kann es etwa vorkommen, dass für ein Projekt bereits die nötigen Digitalisate vorliegen, womit das Einscannen der physischen Originale nicht nötig ist. Die Planung eines individuellen Projektworkflows ist aber für alle Teilprojekte obligatorisch. Die folgende Grafik zeigt, welche Arbeitsschritte der Workflowkette für unsere ''Use Cases'' von Bedeutung sind:  
+
Nicht jedes Teilprojekt durchläuft alle Punkte der Wüsyphus-II-Workflowkette. So kann es etwa vorkommen, dass für ein Projekt bereits die nötigen Digitalisate vorliegen, womit das Einscannen der physischen Originale nicht nötig ist. Die Planung eines individuellen Projektworkflows ist aber für alle Teilprojekte obligatorisch. Die folgende Grafik zeigt, welche Arbeitsschritte der Workflowkette für unsere ''Use Cases'' von Bedeutung sind:  
  
[[File:WFUC.png | link=]]
+
[[File:WFUC.png | link= |alt=Darstellung der Teilhabe der Use Cases Narragonien digital, Anagnosis, Schulwandbilder digital,
 +
Narrative Techniken und Untergattungen, Leserlenkung in Bezug auf Figuren und Identifizierung Anonymer Übersetzer an der Workflowkette.]]
 +
<!--
 +
Ein ''Projektworkflow'' wird für alle Teilprojekte konzipiert. Beim Schulwandbilder-Projekt müssen die nötigen ''Scans'' zunächst angefertigt und über den ''Metadateneditor'' erfasst und verwaltet werden. Für die Projekte Narragonien digital, Anagnosis und für die Schulwandbilder sind ''OCR-Komponenten'' vorgesehen, für Anagnosis und Narragonien werden außerdem ''synoptische Editoren'' zur Verfügung gestellt. An den folgenden Modulen ''Export und Portaldarstellung'', ''Semantic Media Wiki''/''Textanalyse'' sowie der abschließenden Versionierung partizipieren alle Use-Cases in unterschiedlichem Maße.
 +
-->
 
<!--[[File:3QV.png]]-->
 
<!--[[File:3QV.png]]-->
 
<!--[[File:WUEsyphus.png]]-->
 
<!--[[File:WUEsyphus.png]]-->
  
 
==Einscannen der Originale==
 
==Einscannen der Originale==
Das in der Zentralbibliothek der Universät eingerichtete Digitalisierungszentrum stellt die  
+
Das in der Zentralbibliothek der Universität eingerichtete Digitalisierungszentrum stellt die  
nötige Technik und das Fachpersonal für die Neu- und Ersterstellung von hochwertigen Digitalisaten aus
+
nötige Technik und das Fachpersonal für die Neu- und Ersterstellung von hochwertigen Digitalisaten zur Verfügung. Auch für schwierige Fälle stehen innovative Lösungen parat:
den physischen Originalen zur Verfügung. Auch für schwierige Fälle stehen innovative Lösungen parat:
+
So sind mit einer eigens angefertigten Buchwippe auch konservatorisch sichere Scanarbeiten an Büchern mit einem Öffnungswinkel nur 60° möglich und für die Digitalisierung großformatiger Poster steht eine spezielle Unterdruck-Saugwand zur Verfügung.
So sind mit einer eigens angefertigten Buchwippe auch Scanarbeiten an Büchern mit einem maximalen Öffnungswinkel bis 60° oder größer möglich und für die Digitalisierung großformatiger Poster steht eine spezielle Unterdruck-Saugwand zur Verfügung.
 
 
<!--[[File: Ulf am Scanner.jpg | 200px]]
 
<!--[[File: Ulf am Scanner.jpg | 200px]]
 
[[File: Saugwand.jpg | 200px]]
 
[[File: Saugwand.jpg | 200px]]
Zeile 33: Zeile 36:
 
[[File: Scanner.jpg | 200px]]-->
 
[[File: Scanner.jpg | 200px]]-->
 
<gallery mode="packed">
 
<gallery mode="packed">
File: Ulf am Scanner.jpg
+
File: Ulf am Scanner.jpg | alt=Ein Mitarbeiter des Digitalisierungszentrums beim Scannen eines historischen Buches an der Buchwiege
File: Buchwiege.jpg
+
File: Buchwiege.jpg | alt= Nahansicht der Buchwiege mit einem Buch mit einem Öffnungswinkel knapp unter 90 Grad.
File: Saugwand.jpg
+
File: Saugwand.jpg | alt= Die Poster-Saugwand
 
<!--File: Cobra.jpg-->
 
<!--File: Cobra.jpg-->
File: Scanner.jpg  
+
File: Scanner.jpg | alt= Totale einer Scanstation
 
</gallery>
 
</gallery>
  
 
==Metadateneditor==
 
==Metadateneditor==
[[File:MetaEditor.png | thumbnail | Benutzeroberfläche des Metadateneditors | link=http://kallimachos.de/kallimachos/images/1/11/MetaEditor.png]]
+
[[File:MetaEditor.png | thumbnail | Die Benutzeroberfläche des Metadateneditors | link=http://kallimachos.de/kallimachos/images/kallimachos/1/11/MetaEditor.png | alt= Benutzeroberfläche des Metadateneditors]]
Der bereits existierende anpassbare Metadateneneditor des Digitalisierungszentrums ermöglicht die zentrale Pflege umfassender vordefinierter Metadatensätze für Handschriften, Inkunabeln, Drucke und Grafiken. Verbesserungen der Web-Performance und der Benutzerführung sind für kommende Erweiterungen des Metadateneditors geplant. Auch die Aufnahme weiterer Datentypen, z.B. für Artefakte und andere Realia, ist für den Ausbau des Metadateneditors vorgesehen.
+
Der bereits existierende Metadateneneditor des Digitalisierungszentrums ermöglicht die zentrale Pflege umfassender vordefinierter Metadatensätze für Handschriften, Inkunabeln, Drucke und Grafiken. Verbesserungen der Web-Performance und der Benutzerführung sind für kommende Erweiterungen des Metadateneditors in WüSyphusII geplant. Auch die Aufnahme weiterer Datentypen, z.B. für Artefakte und andere Realia, ist vorgesehen.
 
<br clear=all>
 
<br clear=all>
  
 
==OCR-Modul==
 
==OCR-Modul==
[[File:CollageOCR.png|thumbnail|Erstellung von Typentabellen, hier am Beispiel des Teilprojekts [[Narragonien]].| link=http://kallimachos.de/kallimachos/images/0/03/CollageOCR.png]]
+
[[File:NarragonienOCR.png|thumbnail|OCR von Scanseiten einer lateinischen Ausgabe des [[Narragonien|Narrenschiffs]].|link=http://kallimachos.de/kallimachos/images/kallimachos/d/d0/NarragonienOCR.png|alt=Darstellung des OCR-Prozesses: Links die Originalscans als Graustufenbild, rechts der e-Text]]
Das OCR-Modul stellt eine automatisierte Vorverarbeitung für die Volltexterstellung zur Verfügung. Auf der Grundlage der Arbeiten und Softwarebausteine des DFKI wird der im Projekt verfolgte Ansatz aus folgenden Schritten bestehen:
+
Das OCR-Modul stellt eine automatisierte Vorverarbeitung für die Volltexterstellung zur Verfügung. Hierzu entwickeln zwei Arbeitsgruppen am [https://www.dfki.de/web Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI)] und an der Universität Würzburg bestehende Tools und Software-Bausteine weiter, um auch solche Texte erschließen zu können, für die bislang keine qualitativ hochwertigen OCR-Lösungen vorliegen. Im Zentrum dieser Arbeiten steht der Use-Case [[Narragonien:Main | Narragonien]]. 
 +
<br clear=all>
 +
===''anyOCR'': ein lernendes Zeichenerkennungssystem===
 +
Das DFKI prägte den Begriff ''anyOCR'' für eine adaptierbare optische Texterkennungs-Methode, die sich – im Gegensatz zu etablierten (auf Zeichensegmenten basierenden und segmentierungsfreien) OCR-Systemen – automatisch an unterschiedliche Anforderungen und die spezifischen Probleme der Schrifterkennung auf historischen Dokumenten anpassen kann. Traditionelle segmentierungsfreie, auf Sequenzlernen basierende OCR-Ansätze konnten bereits erfolgreich auf handschriftliche, in unterschiedlicher Weise gedruckte, sowie historische Dokumente angewendet werden, um komplette Textzeilen auf einmal und mit höherer Erkennungsrate erkennen, als traditionelle segmentierungsbasierte Zeichenerkennungsverfahren. Um bei diesen Verfahren jedoch zufriedenstellende Leistungen zu erhalten, wird sehr viel manuell transkribiertes  Trainingsmaterial – sogenannte Ground Truth – benötigt, dessen Erzeugung zeitaufwändig und somit teuer ist. Die Option der synthetischen Generierung von Trainingsdaten entzieht sich der Domäne historischer Dokumente überdies, da keine repräsentativen Texte verfügbar sind.
 +
<br clear=all>
 +
[[File:anyOCRtPipeline.png|600px|center|OCRoRACT-anyOCR Training Pipeline|link=|alt=Modellhafte Darstellung des Trainingsprozesses im anyOCR-Ansatz]]
 +
<br clear=all>
 +
Um dem Problem fehlender Ground Truth-Daten zum Training des Sequenzlernens zu begegnen, hat das DFKI das auf der ''anyOCR''-Methode basierende Framework ''OCRoRACT'' entwickelt. Hierbei wird zunächst ein konventionelles, auf Zeichensegmenten basierendes OCR-Verfahren bzw. dessen Erkennungsergebnis eingesetzt, um ein initiales OCR-Modell unter Verwendung einzelner erkannter Symbole zu trainieren. Diese (im Gegensatz zur Ground Truth) möglicherweise fehlerbehafteten Textzeilen werden dann, wie die sonst manuell erzeugte Ground Truth, zum Trainieren des Sequenzlernens verwendet. Durch die systemimmanente Einbeziehung von Kontextinformationen erlernt das System die weitgehende Korrektur etwaiger Fehler in dieser Pseudo-Ground Truth. Ein auf diese Weise auf historischen Dokumenten trainiertes ''OCRoRACT''-System lieferte bereits gute Erkennungsergebnisse trotz des zwangsweisen Verzichts auf die üblicherweise notwendigen Wörterbücher.
 +
<br clear=all>
 +
<br clear=all>
  
 +
<!--===Offizinspezifische Typeninventare===
 +
[[File:CollageOCR.png|thumbnail|Erstellung von Typentabellen am Beispiel des Teilprojekts [[Narragonien]].| link=http://kallimachos.de/kallimachos/images/kallimachos/0/03/CollageOCR.png | alt=Collage verschiedener Typentabellen]]
 +
Die OCR-Arbeitsgruppe an der UB Würzburg begleitet und evaluiert auf den Spuren etablierter Tools, etwa aus dem EMOP-Projekt  (''Franken+, Gamera, Tesseract'') den Entwicklungsprozess am DFKI. Dazu werden verlags- bzw. offizinspezifischen Typeninventare in einem MUFI-Zeichensatz erstellt, wobei das eigens entwickelte Tool Glyph Miner wertvolle Dienste leistet. Mithilfe dieser Typeninventare können offizinspezifische OCR-Trainingsdaten erzeugt werden, die zur Erfassung weitere Texte der Offizin mit demselben Typeninventar genutzt werden können. Dieser Ansatz erbrachte mit der Tesseract-Enginge bereits Erkennungsgenauigkeiten von über 93%, die zuvor auf vergleichbarem Material noch nie erreicht wurden.
 +
<br clear=all>
 +
-->
 +
<!--
 +
Alt
 +
==OCR-Modul==
 +
[[File:CollageOCR.png|thumbnail|Erstellung von Typentabellen, hier am Beispiel des Teilprojekts [[Narragonien]].| link=http://kallimachos.de/kallimachos/images/kallimachos/0/03/CollageOCR.png | alt=Collage verschiedener Typentabellen]]
 +
Das OCR-Modul stellt eine automatisierte Vorverarbeitung für die Volltexterstellung zur Verfügung. Hierzu entwickeln zwei Arbeitsgruppen am [https://www.dfki.de/web DFKI Kaiserslautern] und an der Universität Würzburg bestehende Tools und Software-Bausteine weiter, um auch solche Texte erschließen zu können, für die bislang keine qualitativ hochwertigen OCR-Lösungen vorliegen. Im Zentrum dieser Arbeiten steht dabei der Use-Case [[Narragonien:Main | Narragonien]]. Auf der Grundlage der Arbeiten und Softwarebausteine des DFKI wird der im Projekt verfolgte Ansatz aus folgenden Schritten bestehen:
 
*Integration der bisherigen OCR-Komponenten auf Softwarebene,
 
*Integration der bisherigen OCR-Komponenten auf Softwarebene,
 
*Training von neuen Zeichensätzen für historische Druck- und Handschriften,
 
*Training von neuen Zeichensätzen für historische Druck- und Handschriften,
 
*Entwicklung von „Wörterbüchern“ für historische Orthographien,
 
*Entwicklung von „Wörterbüchern“ für historische Orthographien,
 
*Weiterentwicklung der nichtparametrischen Methoden für die Bildvorverarbeitung, Layoutanalyse und Sprachmodellierung.  
 
*Weiterentwicklung der nichtparametrischen Methoden für die Bildvorverarbeitung, Layoutanalyse und Sprachmodellierung.  
<!--Erwähnen: Gute Ergebnisse beim Narrenschiff ?-->
+
 
 +
 
 +
Die OCR-Arbeitsgruppe an der UB Würzburg begleitet und evaluiert auf den Spuren etablierter Tools, etwa aus dem EMOP-Projekt  (''Franken+, Gamera, Tesseract'') den Entwicklungsprozess am DFKI. Dazu werden verlags- bzw. offizinspezifischen Typeninventare in einem MUFI-Zeichensatz erstellt, wobei das eigens entwickelte Tool Glyph Miner wertvolle Dienste leistet. Mithilfe dieser Typeninventare können offizinspezifische OCR-Trainingsdaten erzeugt werden, die zur Erfassung weitere Texte der Offizin mit demselben Typeninventar genutzt werden können. Dieser Ansatz erbrachte mit der Tesseract-Enginge bereits Erkennungsgenauigkeiten von über 93%, die zuvor auf vergleichbarem Material noch nie erreicht wurden.
 
<br clear=all>
 
<br clear=all>
 +
-->
  
 
==Synoptischer Editor==
 
==Synoptischer Editor==
[[File:NarragonienTransEditor.png | thumbnail | Beispiel 1: Der für das Teilprojekt [[Narragonien]] entwickelte synoptische Editor zur vereinfachten Korrektur von OCR-Transkriptionen. | link=http://kallimachos.de/kallimachos/images/e/ed/NarragonienTransEditor.png]]
+
[[File:NarragonienTransEditor.png | thumbnail | Der für das Teilprojekt [[Narragonien]] entwickelte synoptische Editor zur vereinfachten Korrektur von OCR-Transkriptionen. | link=http://kallimachos.de/kallimachos/images/kallimachos/e/ed/NarragonienTransEditor.png | alt=Ansicht des Transkriptionseditors. Links ist der Originalscan, rechts der bearbeitete Transkriptionstext. In einem aufgerufenen Fenster können verschiedene historische Glyphen ausgewählt werden, die auf einer heutigen Computertastatur nicht zu finden sind]]
[[File:AnagnosisEditor.png | thumbnail | Beispiel 2: Der für das Teilprojekt [[Anagnosis]] entwickelte synoptische Editor zur Verknüpfung von Glyphen in Bild und im elektronischen Text. | link=http://kallimachos.de/kallimachos/images/3/35/AnagnosisEditor.png]]
+
Das Modul bietet ein Framework für Online-Editoren, in denen Texte und Bilder nebeneinander angezeigt, annotiert und über Bild-Text-Links verknüpft werden können. Die Editoren können dabei auf die Anforderungen der jeweiligen Projekte zugeschnitten werden. So wird ein intuitives Web-Editionswerkzeug geschaffen, das auch ohne tiefgreifende Kenntnisse von Textkodierung und XML-Formaten eine manuelle Nachkorrektur von OCR-Resultaten ermöglicht. Damit wird, in Verbindung mit der Benutzerrechteverwaltung und der Redaktionsinfrastruktur des ''WÜsyphus II''-Workflowsystems, die Einbeziehung von Hilfskräften, Seminarteilnehmern und sogar interessierten "Laien" in Editionsprojekte möglich gemacht.  
Das Modul bietet ein Framework für Online-Editoren, in denen Texte und Bilder nebeneinander angezeigt, annotiert und über Bild-Text-Links verknüpft werden können. Die Editoren können dabei auf die Anforderungen der jeweiligen Projekte zugeschnitten werden. So wird ein intuitives Web-Editionswerkzeug geschaffen, das auch ohne tiefgreifende Kenntnisse im Bezug auf Textkodierung und XML-Formate eine manuelle Nachkorrektur der Resultate des automatischen Bildanalyse- und OCR-Moduls ermöglicht. Damit wird, in Verbindung mit der Benutzerrechteverwaltung des ''WÜsyphus II''-Workflowsystems, die Einbeziehung von Hilfskräften, Seminarteilnehmern und sogar interessierten "Laien" in Editionsprojekte erleichtert bzw. überhaupt erst möglich gemacht.  
+
<!--
 
+
Das Modul basiert auf einer Weiterentwicklung der ''Dreifachlupe'' mit synchronisierten, zoombaren Bildstreifen für Scan, Transkription und Übersetzung dar, die sich als Präsentationswerkzeug bereits im Rahmen von [http://vb.uni-wuerzburg.de/ub/index.html Virtuellen Bibliothek Würzburg] und [http://franconica.uni-wuerzburg.de/ub/index.html Franconica Online] bewähren konnte. Zusätzlich werden Komponenten des auf Open-Source-Basis verfügbaren [http://ckeditor.com/ CK-Editors] ausgebaut. Die entsprechend erweiterte ''WÜsyphus-Dreifachlupe'' wird so angepasst, dass sie zusammen mit dem CK-basierten XML-Editor auch in der [https://textgrid.de/ TextGrid]-Weboberflächeverwendet werden kann.
Das Modul basiert auf einer Weiterentwicklung der ''Dreifachlupe'' mit synchronisierten, zoombaren Bildstreifen für Scan, Transkription und Übersetzung dar, die sich als Präsentationswerkzeug bereits im Rahmen von [http://vb.uni-wuerzburg.de/ub/index.html Virtuellen Bibliothek Würzburg] und [http://franconica.uni-wuerzburg.de/ub/index.html Franconica Online] bewähren konnte. Zusätzlich werden Komponenten des auf Open-Source-Basis verfügbaren [http://ckeditor.com/ CK-Editors] ausgebaut. Die entsprechend erweiterte ''WÜsyphus-Dreifachlupe'' wird so angepasst, dass sie zusammen mit dem CK-basierten XML-Editor auch in der TextGrid-Weboberfläche <!-- TODO: Verlinken -->verwendet werden kann.
+
-->
 
<br clear=all>
 
<br clear=all>
  
 
==Datenexport und Web-Portale==
 
==Datenexport und Web-Portale==
 
Die annotierten Texte, Bilder und weitere Datentypen werden je nach Projektanforderung in eine  
 
Die annotierten Texte, Bilder und weitere Datentypen werden je nach Projektanforderung in eine  
Vielzahl gängiger Export- und Austauschformate überführbar sein. So wird z.B. über TEI-konforme XML-Codierungen
+
Vielzahl gängiger Export- und Austauschformate überführbar sein. So wird z.B. über TEI-konforme XML-Kodierungen
 
auch der Datenaustausch mit dem [https://textgrid.de/ TextGrid]-Repository ermöglicht. Neben den Exportformaten  
 
auch der Datenaustausch mit dem [https://textgrid.de/ TextGrid]-Repository ermöglicht. Neben den Exportformaten  
werden für die Projektportale auch individuelle Anzeigelösungen angeboten: Insbesondere das vorgestellte Framework für synoptischen Editoren kann auch zur Erstellung eines ''synoptischer Viewers'' für die Web-Präsentation des Projekts genutzt werden. So können etwa die zugrundeliegenden Scans eines Texts, die OCR-Transkription, Übersetzungen, Annotationen und Metadaten parallel angezeigt oder ausgeblendet werden.  
+
werden für die Projektportale auch individuelle Anzeigelösungen angeboten: Insbesondere das vorgestellte Framework für synoptische Editoren kann auch zur Erstellung eines ''synoptischen Viewers'' für die Web-Präsentation der Teilprojekte genutzt werden. So können etwa die zugrundeliegenden Scans eines Texts, der OCR-Text oder Transkriptionen, Übersetzungen, Annotationen und Metadaten parallel angezeigt oder ausgeblendet werden.  
 
+
<!--[Franconica Online und Virtuelle Bibliothek?]-->
[Franconica Online und Virtuelle Bibliothek?]
 
  
 
== Semantic MediaWiki==
 
== Semantic MediaWiki==
[[File: SMW.png | right | 150px|link=]]
+
[[File: SMW.png | right | 150px|link= | alt=Logo von Semantic MediaWiki]]
 
Auf der Basis von [https://www.semantic-mediawiki.org/wiki/Semantic_MediaWiki Semantic MediaWiki], einer Open-Source-Erweiterung des von Portalen wie ''Wikipedia'' bekannten Wiki-Systems, wird eine einfach benutzbare und schnell anpassbare Web-3.0-Komponente zur Bearbeitung, Strukturierung und Präsentation der erfassten Daten zur Verfügung gestellt.  
 
Auf der Basis von [https://www.semantic-mediawiki.org/wiki/Semantic_MediaWiki Semantic MediaWiki], einer Open-Source-Erweiterung des von Portalen wie ''Wikipedia'' bekannten Wiki-Systems, wird eine einfach benutzbare und schnell anpassbare Web-3.0-Komponente zur Bearbeitung, Strukturierung und Präsentation der erfassten Daten zur Verfügung gestellt.  
Dank Benutzerrechteverwaltung und der automatischen Versionierung von Änderungen ist SMW insbesondere auch für die Implementierung von ''Crowdsourcing''-Verfahren geeignet – etwa durch Seminarteilnehmer oder interessierte Hobbyisten.  
+
Dank Benutzerrechteverwaltung und der automatischen Versionierung von Änderungen ist SMW insbesondere auch für die Implementierung von ''Crowdsourcing''-Verfahren geeignet. Für die Übernahme der Daten aus der Wiki-Umgebung nach WüySyphus II werden Schnittstellen und Importroutinen entwickelt. 
 
Für weniger komplexe Projekte kann SMW auch direkt als Anzeigeportal weiterverwendet werden. Die bereits mitgelieferten Such- und Abfragemöglichkeiten des Systems eignen sich insbesondere auch für die Umsetzung von Datenbankprojekten.
 
Für weniger komplexe Projekte kann SMW auch direkt als Anzeigeportal weiterverwendet werden. Die bereits mitgelieferten Such- und Abfragemöglichkeiten des Systems eignen sich insbesondere auch für die Umsetzung von Datenbankprojekten.
 
<br clear=all>
 
<br clear=all>
Zeile 92: Zeile 116:
  
  
Diese Teilschritte können, ggf. in angepasster Form, auch allgemeiner von anderen Projekten nachgenutzt werden. So sollen langfristig auch Neulinge und "Laien" im Bereich Datenanalyse von den Vorteilen der automatischen Analyseverfahren profitieren, etwa wenn es um die Erkennung grammatischer Fälle oder von Eigennamen in einem Text geht.
+
Diese Teilschritte können, ggf. in angepasster Form, auch allgemeiner von anderen Projekten nachgenutzt werden. So sollen langfristig auch Neulinge und "Laien" im Bereich Datenanalyse von den Vorteilen der automatischen Analyseverfahren profitieren, etwa wenn es um die Erkennung grammatischer Fälle oder von Eigennamen in einem Text geht. Als Austauschformat zwischen den Textanalyse-Modulen und WüSyphus II ist das CoNLL-Format vorgesehen.
 
<br clear=all>
 
<br clear=all>
  
 
==Versionierung und Archivierung==
 
==Versionierung und Archivierung==
Ein entscheidendes und oft vernachlässigtes Kriterium für den Erfolg digitaler Projekte nicht nur in den Geisteswissenschaften ist die abschließende Sicherstellung einer langfristigen Nachvollziehbarkeit und Nachnutzbarkeit der zugrundeliegenden Datenpakete.  Für "lebendige", dh. für beständig weitergepflegte und erweiterte und Teilkorpora ist vor allem die Sicherstellung einer angemessenen ''Versionierung'' der Daten von entscheidender Wichtigkeit. Zur Versionsverwaltung sind neben den vorgestellten Wiki-Lösungen auch Git-basierte Systeme vorgesehen.
+
Ein entscheidendes und oft vernachlässigtes Kriterium für den Erfolg digitaler Projekte nicht nur in den Geisteswissenschaften ist die abschließende Sicherstellung einer langfristigen Nachvollziehbarkeit und Nachnutzbarkeit der zugrundeliegenden Datenpakete.  Für "lebendige", d.h. für beständig weitergepflegte und erweiterte Datensammlungen und (Teil-)korpora ist vor allem die Gewährleistung der Datensicherheit von entscheidender Wichtigkeit. Zur Versionsverwaltung sind neben den vorgestellten Wiki-Lösungen auch Git-basierte Systeme vorgesehen.
Parallel zur stabilen Verfügbarmachung und Versionierung der Daten werden im Rahmen von KALLIMACHOS auch Methoden zu ihrer ''Langzeitarchivierung'' implentiert.
+
<!--Parallel zur stabilen Verfügbarmachung und Versionierung der Daten werden Methoden zu ihrer ''Langzeitarchivierung'' implementiert.-->
 +
 
 +
==Abschlussbericht==
 +
Den Abschlussbericht der ersten Förderphase finden sie [[media:AbschlussberichtKallimachos1.pdf|'''hier''']].
  
=Kontakt=
+
=Förderphase II=
==Koordination==
+
[[File:Datentunnel.jpg | |link=| alt= Bilder und Texte auf dem Weg ins digitale Zeitalter]]
{{Adresse Kallimachos}}
 
 
<br clear=all>
 
<br clear=all>
*Dr. [https://elmut.uni-wuerzburg.de/person/23791 Hans-Günter Schmidt] (Projektleitung)
 
  
*Dr. [https://elmut.uni-wuerzburg.de/person/916 Herbert Baier] (Entwicklung)
+
''Eine eingehende Beschreibung der Zielsetzungen in der 2. Förderphase folgt in Kürze''.
  
*Dipl.-Inform. [https://elmut.uni-wuerzburg.de/person/13342 Felix Kirchner] (Entwicklung)
+
=Kontakt=
 +
==Koordination==
 +
<!--{{Adresse Kallimachos}}-->
 +
<!--*Dr. [https://elmut.uni-wuerzburg.de/person/23791 Hans-Günter Schmidt] (Leiter der Universitätsbibliothek)-->
 +
* Prof. Dr. [http://www.is.informatik.uni-wuerzburg.de/en/staff/puppe_frank/ Frank Puppe] (Projektleitung, [http://www.is.informatik.uni-wuerzburg.de/startseite/ Lehrstuhl für Informatik VI])
 +
*Dr. [https://elmut.uni-wuerzburg.de/person/916 Herbert Baier-Saip] ([https://wueaddress.uni-wuerzburg.de/oeh/43140000 Forschungsstelle für philologische Digitalisierung])
 +
*[https://elmut.uni-wuerzburg.de/person/7302 Jonathan Gaede] ([https://wueaddress.uni-wuerzburg.de/oeh/43140000 Forschungsstelle für philologische Digitalisierung]), M.A.
  
*[https://elmut.uni-wuerzburg.de/person/79876 Martin Gruner] (Entwicklung)
+
----
  
*[https://elmut.uni-wuerzburg.de/person/4518 Marco Dittrich] (Bildbearbeitung und Scantechnik)
+
==Partner an der JMU Würzburg==
 +
===OCR und Textmining===
 +
<!--<br clear=all>
 +
{{Lehrstuhl Comphil}}-->
 +
*Prof. Dr. [http://www.jannidis.de/ Fotis Jannidis] ([http://www.germanistik.uni-wuerzburg.de/lehrstuehle/computerphilologie/startseite/ Lehrstuhl für Computerphilologie und Neuere Deutsche Literaturgeschichte])
 +
*[https://wueaddress.uni-wuerzburg.de/person/34561 Leonard Konle] ([http://www.germanistik.uni-wuerzburg.de/lehrstuehle/computerphilologie/startseite/ Lehrstuhl für Computerphilologie und Neuere Deutsche Literaturgeschichte])
 +
<!--<br clear=all>
  
*[https://elmut.uni-wuerzburg.de/person/7302 Jonathan Gaede] (Öffentlichkeitsarbeit)
+
{{LSKI}}-->
<br clear=all>
+
*Prof. Dr. [http://www.is.informatik.uni-wuerzburg.de/en/staff/puppe_frank/ Frank Puppe] ([http://www.is.informatik.uni-wuerzburg.de/startseite/ Lehrstuhl für Informatik VI])
 +
* Prof. Dr. [http://www.is.informatik.uni-wuerzburg.de/staff/hotho Andreas Hotho] ([http://www.dmir.uni-wuerzburg.de/home/ DMIR]-Gruppe des [http://www.is.informatik.uni-wuerzburg.de/startseite/ Lehrstuhl für Informatik VI])
 +
* [http://www.dmir.uni-wuerzburg.de/staff/zehe/ Albin Zehe], M.Sc. ([http://www.dmir.uni-wuerzburg.de/home/ DMIR]-Gruppe des [http://www.is.informatik.uni-wuerzburg.de/startseite/ Lehrstuhl für Informatik VI])
 +
*[http://www.is.informatik.uni-wuerzburg.de/staff/reul_christian/ Christian Reul], M.Sc.([http://www.is.informatik.uni-wuerzburg.de/startseite/ Lehrstuhl für Informatik VI])
 +
*[http://www.is.informatik.uni-wuerzburg.de/staff/mkrug/ Markus Krug], M.Sc. ([http://www.is.informatik.uni-wuerzburg.de/startseite/ Lehrstuhl für Informatik VI])
 +
<!--<br clear=all>
 +
----
  
==Partner an der JMU Würzburg==
+
===Segmentierung und OCR===
===Textmining-Kompetenzen===
 
{{LSKI}}
 
 
<br clear=all>
 
<br clear=all>
*Prof. Dr. [http://www.is.informatik.uni-wuerzburg.de/mitarbeiter/puppe_frank/ Frank Puppe]
+
{{AKS}}-->
 +
*[http://www1.informatik.uni-wuerzburg.de/mitarbeiterinnen/budig_benedikt/ Benedikt Budig], M.Sc. ([http://www.is.informatik.uni-wuerzburg.de/ Lehrstuhl für Informatik I])
 +
*Dr. [http://www1.informatik.uni-wuerzburg.de/mitarbeiterinnen/dijk_thomas_van/ Thomas van Dijk] ([http://www.is.informatik.uni-wuerzburg.de/ Lehrstuhl für Informatik I])
 +
<!--*[http://www.is.informatik.uni-wuerzburg.de/staff/reul_christian/ Christian Reul], M.Sc.([http://www.is.informatik.uni-wuerzburg.de/startseite/ Lehrstuhl für Informatik VI])-->
 +
<!--<br clear=all>
  
<br clear=all>
+
{{LSKI NoDMIR}}-->
 
 
{{Lehrstuhl Comphil}}
 
<br clear=all>
 
*Prof. Dr. [http://www.jannidis.de/ Fotis Jannidis]
 
<br clear=all>
 
  
 
===Projektgruppe ''Narragonien digital''===
 
===Projektgruppe ''Narragonien digital''===
 
+
<!--{{Romanistik}}-->
*Prof. Dr. [http://www.romanistik.uni-wuerzburg.de/mitarbeiter/burrichter/ Brigitte Burrichter]
+
*Prof. Dr. [http://www.romanistik.uni-wuerzburg.de/mitarbeiter/burrichter/ Brigitte Burrichter] ([http://www.romanistik.uni-wuerzburg.de/startseite/ Neuphilologisches Institut / Romanistik])
 
+
<!--<br clear=all>
*Prof. Dr. [http://www.mediaevistik.germanistik.uni-wuerzburg.de/mitarbeiter/hamm_joachim/ Joachim Hamm]
+
{{ÄDL}}-->
 
+
*Prof. Dr. [http://www.mediaevistik.germanistik.uni-wuerzburg.de/mitarbeiter/hamm_joachim/ Joachim Hamm] ([http://www.mediaevistik.germanistik.uni-wuerzburg.de/startseite/ Lehrstuhl für deutsche Philologie, Ältere Abteilung])
*[http://www.romanistik.uni-wuerzburg.de/mitarbeiter/gold/ Martina Gold], Neuphilologisches Institut - Romanistik
 
 
 
*[http://www.mediaevistik.germanistik.uni-wuerzburg.de/mitarbeiter/grundig_christine/ Christine Grundig] M.A., Institut für deutsche Philologie
 
<br clear=all>
 
  
 
===Projektgruppe ''Anagnosis''===
 
===Projektgruppe ''Anagnosis''===
{{Adresse Anagnosis}}
+
<!--<br clear=all>
<br clear=all>
+
{{Adresse Anagnosis}}-->
*Prof. Dr. Dr. h.c. [http://www.klassphil.uni-wuerzburg.de/lehrstuhl_i_graezistik/alt/personal/prof_dr_dr_hc_michael_erler/ Michael Erler]
+
*Prof. Dr. Dr. h.c. [http://www.klassphil.uni-wuerzburg.de/lehrstuhl_i_graezistik/alt/personal/prof_dr_dr_hc_michael_erler/ Michael Erler] ([http://www.klassphil.uni-wuerzburg.de/startseite/ Institut für Klassische Philologie])
 +
*AR Dr. [http://www.klassphil.uni-wuerzburg.de/mitarbeiter_des_instituts/lehrstuhl_i_graezistik/ar_dr_holger_essler/ Holger Essler] ([http://www.klassphil.uni-wuerzburg.de/startseite/ Institut für Klassische Philologie])
 +
*[https://scuola.academia.edu/VincenzoDamiani Vincenzo Damiani], M.A. ([http://www.klassphil.uni-wuerzburg.de/startseite/ Institut für Klassische Philologie])
 +
<!--<br clear=all>
  
*AR Dr. [http://www.klassphil.uni-wuerzburg.de/mitarbeiter_des_instituts/lehrstuhl_i_graezistik/ar_dr_holger_essler/ Holger Essler]
+
----
  
*[https://scuola.academia.edu/VincenzoDamiani Vincenzo Damiani], M.A.
+
===Projektgruppe ''Schulwandbilder digital''===
 
<br clear=all>
 
<br clear=all>
 
===Projektgruppe ''Schulwandbilder digital''===
 
 
{{Adresse Schulwandbilder}}
 
{{Adresse Schulwandbilder}}
<br clear=all>
 
 
*Univ.-Prof. Dr. phil. habil. [http://www.bildungswissenschaft.uni-wuerzburg.de/team/lehrstuhlinhaber/ Andreas Dörpinghaus] (Lehrstuhlinhaber)
 
*Univ.-Prof. Dr. phil. habil. [http://www.bildungswissenschaft.uni-wuerzburg.de/team/lehrstuhlinhaber/ Andreas Dörpinghaus] (Lehrstuhlinhaber)
 
 
*Dr. phil. [http://www.bildungswissenschaft.uni-wuerzburg.de/forschungsstelle_historische_bildmedien/team/leitung/ Ina Uphoff] (Projektleiterin)
 
*Dr. phil. [http://www.bildungswissenschaft.uni-wuerzburg.de/forschungsstelle_historische_bildmedien/team/leitung/ Ina Uphoff] (Projektleiterin)
 +
*Dipl. Päd. [http://www.bildungswissenschaft.uni-wuerzburg.de/forschungsstelle_historische_bildmedien/team/stellv_leitung/  Eva Zimmer], M.A. (stellv. Projektleiterin)
 
<br clear=all>
 
<br clear=all>
 
+
----
 +
-->
 
===Projektgruppe ''Identifikation von Übersetzern''===
 
===Projektgruppe ''Identifikation von Übersetzern''===
{{Adresse Uebersetzer}}
+
<!--<br clear=all>
<br clear=all>
+
{{Adresse Uebersetzer}}-->
*Prof. Dr. [http://www.philosophie.uni-wuerzburg.de/institut/allelehrsthlefrphilosophie/profdrdagnikolaushasse/ Dag Nikolaus Hasse]
+
*Prof. Dr. [http://www.philosophie.uni-wuerzburg.de/institut/allelehrsthlefrphilosophie/profdrdagnikolaushasse/ Dag Nikolaus Hasse] ([http://www.philosophie.uni-wuerzburg.de/startseite/ Institut für Philosophie])
 
+
*[https://www.philosophie.uni-wuerzburg.de/institut/allelehrsthlefrphilosophie/profdrdagnikolaushasse/andreas-buettner-ma/ Andreas Büttner], M.A. ([http://www.philosophie.uni-wuerzburg.de/startseite/ Institut für Philosophie])
*[https://elmut.uni-wuerzburg.de/person/3515 Andreas Büttner], B.A.
+
*Jonathan Maier, B.A. ([http://www.philosophie.uni-wuerzburg.de/startseite/ Institut für Philosophie])<!--<br clear=all>
 
+
----
*Jonathan Maier
+
===Projektgruppe ''Romangattungen''===
 
<br clear=all>
 
<br clear=all>
 
===Projektgruppe ''Narrative Techniken''===
 
 
{{Lehrstuhl Comphil}}
 
{{Lehrstuhl Comphil}}
<br clear=all>
 
 
*Prof. Dr. [http://www.jannidis.de/ Fotis Jannidis]
 
*Prof. Dr. [http://www.jannidis.de/ Fotis Jannidis]
 
+
*[http://www.germanistik.uni-wuerzburg.de/lehrstuehle/computerphilologie/mitarbeiter/reger/ Isabella Reger], M.A.
*[http://www.germanistik.uni-wuerzburg.de/lehrstuehle/computerphilologie/mitarbeiter/reger/ Isabella Reger]
 
 
<br clear=all>
 
<br clear=all>
 
===Projektgruppe ''Leserlenkung''===
 
 
{{LSKI}}
 
{{LSKI}}
 +
*Dipl.-Math. [http://www.dmir.uni-wuerzburg.de/staff/hettinger/ Lena Hettinger]
 
<br clear=all>
 
<br clear=all>
 
+
----
*Prof. Dr. [http://www.is.informatik.uni-wuerzburg.de/mitarbeiter/puppe_frank/ Frank Puppe]
+
===Projektgruppe ''Romanfiguren''===
 
 
*[http://www.is.informatik.uni-wuerzburg.de/mitarbeiter/mak0/ Markus Krug], M.Sc.
 
 
<br clear=all>
 
<br clear=all>
 
 
{{Lehrstuhl Comphil}}
 
{{Lehrstuhl Comphil}}
<br clear=all>
 
 
 
*Prof. Dr. [http://www.jannidis.de/ Fotis Jannidis]
 
*Prof. Dr. [http://www.jannidis.de/ Fotis Jannidis]
  
[http://www.germanistik.uni-wuerzburg.de/lehrstuehle/computerphilologie/mitarbeiter/reger/ Isabella Reger]
+
*[https://wueaddress.uni-wuerzburg.de/person/34561 Leonard Konle]
  
 
*Lukas Weimer
 
*Lukas Weimer
  
 
*Luisa Macharowsky
 
*Luisa Macharowsky
<br clear=all>
 
  
==Externe Partner==
 
{{PKL}}
 
 
<br clear=all>
 
<br clear=all>
*Prof. Dr. [http://www.stefan-evert.de/ Stefan Evert]
+
{{LSKI}}
 +
*Prof. Dr. [http://www.is.informatik.uni-wuerzburg.de/en/staff/puppe_frank/ Frank Puppe]
  
*[http://www.linguistik.fau.de/~tsproisl Thomas Proisl], M.A.
 
<br clear=all>
 
{{Adresse DFKI}}
 
<br clear=all>
 
*Prof. Dr. [http://www.dfki.de/~dengel/content/index_ger.html Andreas Dengel]
 
  
*Dr. [http://www.dfki.de/~bukhari/ Syed Saqib Bukhari]
 
 
<br clear=all>
 
<br clear=all>
 
+
----
= FAQ =
 
==Zusammenarbeit==
 
'''Ich habe ein geisteswissenschaftliches Projekt, für das ich gerne mit KALLIMACHOS zusammenarbeiten würde. Wen soll ich kontaktieren und wann können wir anfangen?'''
 
* Zur Zeit befindet sich KALLIMACHOS noch in der Aufbauphase, d.h. dass wir in Zusammenarbeit mit den derzeitigen Teilprojekten ein Workflowsysten aufbauen, das für eine große Bandbreite geisteswissenschaftlicher Projekte nachgenutzt werden kann. 2017 wird diese Phase abeschlossen sein und das System für weitere Projekte zur Verfügung stehen. Gerne können Sie aber auch schon vorher mit uns Kontakt aufnehmen und ihre Pläne mit uns besprechen. Anfragen richten Sie am besten direkt an den Projektleiter Dr. [https://elmut.uni-wuerzburg.de/person/23791 Hans-Günter Schmidt] oder an [mailto:kallimachos@bibliothek.uni-wuerzburg.de kallimachos@bibliothek.uni-wuerzburg.de]
 
 
 
 
 
'''Brauchen wir eigene DH-Kompetenzen, um ein digitales Projekt bei KALLIMACHOS zu starten?'''
 
* Natürlich schadet zusätzliche Expertise hier nicht, der Grundgedanke von KALLIMACHOS ist aber, eine digitale Infrastruktur auch für weniger computeraffine Lehrstühle und Forschungsgruppen zur Verfügung zu stellen. Die benutzerangepassten Tools des Workflowsystems sollen den Geisteswissenschaftlern ermöglichen, sich ganz auf den Forschungsprozess zu konzentrieren – auch ohne sich vertieft in die Spezifika von XML-Kodierung, Datenbankarchitektur, OCR-Verfahren usw. einzuarbeiten.
 
 
 
 
 
'''Eigentlich müssen wir für unser Projekt gar nichts mehr digitalisieren, sondern können direkt mit vorliegenden Daten weiterarbeiten. Ist das noch ein Fall für KALLIMACHOS?'''
 
* Ihr Projekt muss nicht die gesamte Workflowkette von Anfang an durchlaufen, sondern kann an einem beliebigen "Kettenglied" einsetzen. Wenn bereits Bilder, digitale Texte oder sogar ganze Editionen vorliegen, werden die Folgeschritte der Workflowkette auch auf diese Daten anwendbar sein.
 
 
 
 
 
'''Eigentlich brauchen wir nur Digitalisate und e-Texte, die weiteren Schritte der Workflowkette sind für unser Projekt nicht relevant. Ist das noch ein Fall für KALLIMACHOS?'''
 
* Umgekehrt muss ihr Projekt die Workflowkette nicht bis zum Ende durchlaufen. Auch reine Digitalisierungs- und OCR-Projekte ohne die weitere Analyse und Präsentation der Daten sind vorgesehen.
 
 
 
 
 
'''Eigentlich ist unser Projekt schon abgeschlossen, aber wir suchen eine dauerhafte Lösung für die Web-Anzeige und die Archivierung. Ist das noch ein Fall für KALLIMACHOS?'''
 
* Auch solche Fälle sind in der KALLIMACHOS-Workflowkette explizit vorgesehen: Unsere Portallösungen (''Semantic MediaWiki'' und der ''Synoptische Viewer'') und der Baustein ''Archivierung'' werden auch für bereits abgeschlossene oder nur noch unregelmäßig weitergepflegte Projekte nutzbar sein. So kann dem Problem der oft begrenzten "Halbwertszeit" kleinerer Digitalisierungs- und Datenbankprojekte entgegengewirkt werden.
 
 
 
 
 
'''Was ist mit den weiteren Dienstleistungen des Digitalisierungszentrums?'''
 
* Weitere Dienstleistungen des DZ wie z.B. die Erstellung der elektronischen Semesterapparate (ESA) oder Repro-Dienste sind ''nicht'' Teil des Koordinationsprojekts KALLIMACHOS. Diese Angebote und die dazugehörigen Möglichkeiten zur Kontaktaufnahme finden sie [http://www.bibliothek.uni-wuerzburg.de/service0/digitalisierungszentrum/ hier].
 
 
 
==Räumlichkeiten==
 
'''Wo finde ich das Digitalisierungszentrum?'''
 
* Seit dem Sommersemester 2015 befindet sich das Digitalisierungszentrum im 3. Stock der Zentralbibliothek auf der von Treppe bzw. Aufzug aus gesehen rechten Seite (ehem. Räumlichkeiten des Instituts für Hochschulkunde). Gegenüber liegt der Lesesaal der ''Sondersammlung Handschriften'', dort befindet sich das Büro des Projektleiters (Raum 305) und der für größere Runden genutzte Besprechungsraum 303. Bitte beachten Sie, dass i.d.R. keine Taschen und Mäntel in die Lesesäle der ZB mitgenommen werden dürfen. Schließfächer finden sie rechts vom Haupteingang.
 
<!--
 
'''Was sind die Öffnungszeiten des Digitalisierungszentrums?'''
 
* Grundsätzlich decken sich die Öffnungs- und Gesprächszeiten des Digitalisierungszentrums m
 
[http://www.bibliothek.uni-wuerzburg.de/service0/digitalisierungszentrum/]
 
 
-->
 
-->
  
==Begriffliches==
 
'''Was bedeutet die Abkürzung ''OCR''?'''
 
* ''OCR'' steht für ''Optical Character Recognition'', d.h. die automatische Erkennung von Buchstaben und Texten in digitalen Bildern und darauf aufbauend die Erstellung eines maschinenlesbaren Texts. OCR-Verfahren werden z.B. im Teilprojekt [[Narragonien]] zum Einsatz gebracht.
 
  
 +
----
  
'''Was bedeutet ''Text Mining?'''''
+
==Partner an der FAU Erlangen-Nürnberg==
* Beim ''Text Mining'' werden schwach strukturierte Texte mithilfe statistischer und linguistischer Computeralgorithmen automatisch erschlossen, um auch ohne vorheriges Lesen des Textes Informationen über deren Inhalt zu erhalten und auszuzeichnen, etwa das Genre, die Themen und die Figuren eines literarischen Texts. Für die Erschließung großer Textkorpora sind Text-Mining-Verfahren von wachsender Bedeutung. Im Teilprojekt [[Leserlenkung | Leserlenkung in Bezug auf Figuren]] werden z.B. Verfahren erprobt, die das Personal literarischer Texte automatisch erkennen sollen (sog. ''Named Entity Recognition'').
+
<!--{{PKL}}-->
 +
*Prof. Dr. [http://www.stefan-evert.de/ Stefan Evert] ([http://www.linguistik.uni-erlangen.de/index.shtml Professur für Korpuslinguistik])
  
 +
*[http://www.linguistik.uni-erlangen.de/wir-ueber-uns/personal.shtml/thomas-proisl.shtml Thomas Proisl], M.A. ([http://www.linguistik.uni-erlangen.de/index.shtml Professur für Korpuslinguistik])
  
'''Was ist der Zweck von ''Stilometrie''?'''
+
----
*Genres, Autoren, Übersetzer, Epochen, literarische Vorbilder und andere Spezifika von Texten hinterlassen in Form von bestimmten Wort- und Phrasenhäufungen statistische Signale im Text. Diese lassen sich mithilfe ''stilometrischer'' Verfahren erkennen und zur Hypothesenbildung verwenden. Stilometrische Verfahren werden z.B. im Teilprojekt [[Identifikation von Übersetzern]] verwendet, um die Identität anonymer Übersetzer lateinischer Texte aus dem Arabischen aufzudecken.
 
<!--
 
  
'''Was bedeutet ''Topic Modeling''?'''
+
==Ehemalige Mitarbeiter und Partner ==
 
+
*Dr. [https://wueaddress.uni-wuerzburg.de/person/84041 Uwe Springmann] (Projektleitung)
'''Wofür steht die Abkürzung ''TEI''?'''
+
<!-- HGS will auch die anderen UBler nicht in dieser Liste, aber ich sehe nicht ein, weshalb das ein Problem ist -->
 
+
*[https://elmut.uni-wuerzburg.de/person/4730 Kerstin Kornhoff] (Organisation)
Crowdsourcing, ...
+
*[https://elmut.uni-wuerzburg.de/person/45062 Marion Friedlein] (Organisation)
-->
+
*[https://elmut.uni-wuerzburg.de/person/48719 Regina Beitzinger] (Organisation)
 +
*[https://elmut.uni-wuerzburg.de/person/29458 Almut Wenk] (Organisation)
 +
*[https://elmut.uni-wuerzburg.de/person/351 Tanja Altenhöfer] (Organisation)
 +
*Dipl.-Inform. [https://elmut.uni-wuerzburg.de/person/13342 Felix Kirchner] (Systementwicklung und OCR)
 +
*[https://elmut.uni-wuerzburg.de/person/79876 Martin Gruner] (Entwicklung, Wiki-Systeme und OCR)
 +
*[https://elmut.uni-wuerzburg.de/person/55636 Markus Kinner] (OCR und Pflege der Arbeitsstationen)
 +
*Dipl.-Ing. [https://elmut.uni-wuerzburg.de/person/4518 Marco Dittrich] (Scantechnik, OCR und Digitalisierung)
 +
*[https://elmut.uni-wuerzburg.de/person/29223 Ulf Weinmann] (Bildbearbeitung und Digitalisierung)
 +
*[https://elmut.uni-wuerzburg.de/person/8294 Irmgard Götz-Kenner] (Bildbearbeitung und Fotografie)
 +
===OCR und Textmining===
 +
*[http://www.germanistik.uni-wuerzburg.de/lehrstuehle/computerphilologie/mitarbeiter/reger/ Isabella Reger], M.A.
 +
*Dipl.-Math. [http://www.dmir.uni-wuerzburg.de/staff/hettinger/ Lena Hettinger]
 +
===Projektgruppe ''Schulwandbilder digital''===
 +
<!--{{Adresse Schulwandbilder}}-->
 +
*[http://www.bildungswissenschaft.uni-wuerzburg.de/forschungsstelle/ Forschungsstelle Historische Bildmedien]
 +
*Univ.-Prof. Dr. phil. habil. [http://www.bildungswissenschaft.uni-wuerzburg.de/team/lehrstuhlinhaber/ Andreas Dörpinghaus] ([http://www.bildungswissenschaft.uni-wuerzburg.de/startseite/ Lehrstuhl für Systematische Bildungswissenschaft])
 +
*Dr. phil. [http://www.bildungswissenschaft.uni-wuerzburg.de/forschungsstelle_historische_bildmedien/team/leitung/ Ina Uphoff] (Projektleiterin)
 +
*Dipl. Päd. [http://www.bildungswissenschaft.uni-wuerzburg.de/forschungsstelle_historische_bildmedien/team/stellv_leitung/  Eva Zimmer], M.A. (stellv. Projektleiterin)
 +
===Projektgruppe ''Narragonien Digital''===
 +
*[http://www.romanistik.uni-wuerzburg.de/mitarbeiter/walter/ Viktoria Walter]
 +
*[http://www.mediaevistik.germanistik.uni-wuerzburg.de/mitarbeiter/grundig_christine/ Christine Grundig], M.A.
  
 +
===Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI)===
 +
*Prof. Dr. [http://www.dfki.de/~dengel/content/index_ger.html Andreas Dengel]
  
 +
*Dr. [http://www.dfki.de/~bukhari/ Syed Saqib Bukhari]
 
<headertabs />
 
<headertabs />
 +
{{Sprachauswahl|project description|Projektbeschreibung}}

Aktuelle Version vom 1. Juni 2018, 11:07 Uhr

[bearbeiten]

 Bilder und Texte auf dem Weg ins digitale Zeitalter

Projektbeschreibung

KALLIMACHOS führt Geisteswissenschaftler und Informatiker in einem regionalen Digital-Humanities-Zentrum zusammen. Der Aufbau des Zentrums wird nach dem Ende der ersten Förderphase 2017 noch bis zum 3. Quartal 2019 durch das Bundesministerium für Bildung und Forschung im Rahmen der Fördermaßnahme e-Humanities bezuschusst. Die an der Universität Würzburg vorhandenen Kompetenzen werden durch Partner am DFKI Kaiserslautern (Förderphase I) und an der Universität Erlangen-Nürnberg (Förderphase I und II) ergänzt.

Unser Aufgabenschwerpunkt liegt auf der Erarbeitung digitaler Editionen und quantitativer Analyseverfahren aus dem Bereich des Text Mining, z.B. Stilometrie, Topic Modeling und Named Entity Recognition. Wir bieten unseren Projektpartnern die nötige technische und soziale Infrastruktur, die Geisteswissenschaftler bei der Beantwortung von Forschungsfragen auf der Basis digitaler Methoden unterstützt.

Auf der technischen Seite gehören dazu die Entwicklung und Bereitstellung der benötigten Software-Komponenten und das Erarbeiten prototypischer Arbeitsabläufe, die in bereits vorhandene Infrastrukturen integriert werden. Dabei ist uns gerade auch die langfristige Verfügbarkeit, Pflege und Archivierung der Projekte, Portale und Forschungsdaten ein wichtiges Anliegen. Insofern baut KALLIMACHOS eine intergrierte Struktur für Forschungsdatenmanagement in den Geisteswissenschaften auf.

Außerdem fördern wir durch regelmäßige Workshops und Tagungen den Austausch zwischen den regionalen und überregionalen Digital-Humanities-Projekten. Durch Beratungen und Schulungen führen wir Fachleuten, aber auch weniger technikaffinen Wissenschaftlern und dem akademischen Nachwuchs die Möglichkeiten digitaler Methoden zur Bearbeitung von Forschungsfragen vor Augen und bieten methodische, technische und organisatorische Unterstützung.

Prototypische Arbeitsabläufe zu Edition und Datenanalyse

Ausgehend von unseren Teilprojekten als Use Cases werden prototypische Abläufe zur Datenerfassung und -analyse für die Geisteswissenschaften etabliert und für das Zielpublikum verständlich dokumentiert. Im Rahmen der Entwicklung des Workflowmanagementsystems Wüsyphus II können etablierte Tools zu Arbeitsketten zusammengefügt werden. Diese sollen durch interne und öffentliche Schulungen auch einer größeren Öffentlichkeit im Bereich der Digital Humanities bekannt gemacht werden. Die ermittelten Best-Practice-Implementierungen werden in die Workflows integriert, am Beispiel der Use Cases empirisch validiert und der Forschungsgemeinschaft zur Verfügung gestellt. So wird das „Nachbauen“ mit eigenen Daten im Rahmen weiterer Projekte vereinfacht.

Nicht jedes Teilprojekt durchläuft alle Punkte der Wüsyphus-II-Workflowkette. So kann es etwa vorkommen, dass für ein Projekt bereits die nötigen Digitalisate vorliegen, womit das Einscannen der physischen Originale nicht nötig ist. Die Planung eines individuellen Projektworkflows ist aber für alle Teilprojekte obligatorisch. Die folgende Grafik zeigt, welche Arbeitsschritte der Workflowkette für unsere Use Cases von Bedeutung sind:

alt=Darstellung der Teilhabe der Use Cases Narragonien digital, Anagnosis, Schulwandbilder digital,  Narrative Techniken und Untergattungen, Leserlenkung in Bezug auf Figuren und Identifizierung Anonymer Übersetzer an der Workflowkette.

Einscannen der Originale

Das in der Zentralbibliothek der Universität eingerichtete Digitalisierungszentrum stellt die nötige Technik und das Fachpersonal für die Neu- und Ersterstellung von hochwertigen Digitalisaten zur Verfügung. Auch für schwierige Fälle stehen innovative Lösungen parat: So sind mit einer eigens angefertigten Buchwippe auch konservatorisch sichere Scanarbeiten an Büchern mit einem Öffnungswinkel nur 60° möglich und für die Digitalisierung großformatiger Poster steht eine spezielle Unterdruck-Saugwand zur Verfügung.

Metadateneditor

 Benutzeroberfläche des Metadateneditors
Die Benutzeroberfläche des Metadateneditors

Der bereits existierende Metadateneneditor des Digitalisierungszentrums ermöglicht die zentrale Pflege umfassender vordefinierter Metadatensätze für Handschriften, Inkunabeln, Drucke und Grafiken. Verbesserungen der Web-Performance und der Benutzerführung sind für kommende Erweiterungen des Metadateneditors in WüSyphusII geplant. Auch die Aufnahme weiterer Datentypen, z.B. für Artefakte und andere Realia, ist vorgesehen.

OCR-Modul

Darstellung des OCR-Prozesses: Links die Originalscans als Graustufenbild, rechts der e-Text
OCR von Scanseiten einer lateinischen Ausgabe des Narrenschiffs.

Das OCR-Modul stellt eine automatisierte Vorverarbeitung für die Volltexterstellung zur Verfügung. Hierzu entwickeln zwei Arbeitsgruppen am Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI) und an der Universität Würzburg bestehende Tools und Software-Bausteine weiter, um auch solche Texte erschließen zu können, für die bislang keine qualitativ hochwertigen OCR-Lösungen vorliegen. Im Zentrum dieser Arbeiten steht der Use-Case Narragonien.

anyOCR: ein lernendes Zeichenerkennungssystem

Das DFKI prägte den Begriff anyOCR für eine adaptierbare optische Texterkennungs-Methode, die sich – im Gegensatz zu etablierten (auf Zeichensegmenten basierenden und segmentierungsfreien) OCR-Systemen – automatisch an unterschiedliche Anforderungen und die spezifischen Probleme der Schrifterkennung auf historischen Dokumenten anpassen kann. Traditionelle segmentierungsfreie, auf Sequenzlernen basierende OCR-Ansätze konnten bereits erfolgreich auf handschriftliche, in unterschiedlicher Weise gedruckte, sowie historische Dokumente angewendet werden, um komplette Textzeilen auf einmal und mit höherer Erkennungsrate erkennen, als traditionelle segmentierungsbasierte Zeichenerkennungsverfahren. Um bei diesen Verfahren jedoch zufriedenstellende Leistungen zu erhalten, wird sehr viel manuell transkribiertes Trainingsmaterial – sogenannte Ground Truth – benötigt, dessen Erzeugung zeitaufwändig und somit teuer ist. Die Option der synthetischen Generierung von Trainingsdaten entzieht sich der Domäne historischer Dokumente überdies, da keine repräsentativen Texte verfügbar sind.

Modellhafte Darstellung des Trainingsprozesses im anyOCR-Ansatz


Um dem Problem fehlender Ground Truth-Daten zum Training des Sequenzlernens zu begegnen, hat das DFKI das auf der anyOCR-Methode basierende Framework OCRoRACT entwickelt. Hierbei wird zunächst ein konventionelles, auf Zeichensegmenten basierendes OCR-Verfahren bzw. dessen Erkennungsergebnis eingesetzt, um ein initiales OCR-Modell unter Verwendung einzelner erkannter Symbole zu trainieren. Diese (im Gegensatz zur Ground Truth) möglicherweise fehlerbehafteten Textzeilen werden dann, wie die sonst manuell erzeugte Ground Truth, zum Trainieren des Sequenzlernens verwendet. Durch die systemimmanente Einbeziehung von Kontextinformationen erlernt das System die weitgehende Korrektur etwaiger Fehler in dieser Pseudo-Ground Truth. Ein auf diese Weise auf historischen Dokumenten trainiertes OCRoRACT-System lieferte bereits gute Erkennungsergebnisse trotz des zwangsweisen Verzichts auf die üblicherweise notwendigen Wörterbücher.


Synoptischer Editor

Ansicht des Transkriptionseditors. Links ist der Originalscan, rechts der bearbeitete Transkriptionstext. In einem aufgerufenen Fenster können verschiedene historische Glyphen ausgewählt werden, die auf einer heutigen Computertastatur nicht zu finden sind
Der für das Teilprojekt Narragonien entwickelte synoptische Editor zur vereinfachten Korrektur von OCR-Transkriptionen.

Das Modul bietet ein Framework für Online-Editoren, in denen Texte und Bilder nebeneinander angezeigt, annotiert und über Bild-Text-Links verknüpft werden können. Die Editoren können dabei auf die Anforderungen der jeweiligen Projekte zugeschnitten werden. So wird ein intuitives Web-Editionswerkzeug geschaffen, das auch ohne tiefgreifende Kenntnisse von Textkodierung und XML-Formaten eine manuelle Nachkorrektur von OCR-Resultaten ermöglicht. Damit wird, in Verbindung mit der Benutzerrechteverwaltung und der Redaktionsinfrastruktur des WÜsyphus II-Workflowsystems, die Einbeziehung von Hilfskräften, Seminarteilnehmern und sogar interessierten "Laien" in Editionsprojekte möglich gemacht.

Datenexport und Web-Portale

Die annotierten Texte, Bilder und weitere Datentypen werden je nach Projektanforderung in eine Vielzahl gängiger Export- und Austauschformate überführbar sein. So wird z.B. über TEI-konforme XML-Kodierungen auch der Datenaustausch mit dem TextGrid-Repository ermöglicht. Neben den Exportformaten werden für die Projektportale auch individuelle Anzeigelösungen angeboten: Insbesondere das vorgestellte Framework für synoptische Editoren kann auch zur Erstellung eines synoptischen Viewers für die Web-Präsentation der Teilprojekte genutzt werden. So können etwa die zugrundeliegenden Scans eines Texts, der OCR-Text oder Transkriptionen, Übersetzungen, Annotationen und Metadaten parallel angezeigt oder ausgeblendet werden.

Semantic MediaWiki

Logo von Semantic MediaWiki

Auf der Basis von Semantic MediaWiki, einer Open-Source-Erweiterung des von Portalen wie Wikipedia bekannten Wiki-Systems, wird eine einfach benutzbare und schnell anpassbare Web-3.0-Komponente zur Bearbeitung, Strukturierung und Präsentation der erfassten Daten zur Verfügung gestellt. Dank Benutzerrechteverwaltung und der automatischen Versionierung von Änderungen ist SMW insbesondere auch für die Implementierung von Crowdsourcing-Verfahren geeignet. Für die Übernahme der Daten aus der Wiki-Umgebung nach WüySyphus II werden Schnittstellen und Importroutinen entwickelt. Für weniger komplexe Projekte kann SMW auch direkt als Anzeigeportal weiterverwendet werden. Die bereits mitgelieferten Such- und Abfragemöglichkeiten des Systems eignen sich insbesondere auch für die Umsetzung von Datenbankprojekten.

Textanalyse-Schnittstelle

Dieses Modul unterstützt, aufbauend auf den Textanalyse-Use-Cases:

  • die Zusammenstellung eines Korpus zu analysierender Texte aus dem TextGrid-Repository bzw. WÜsyphus u.a. anhand ihrer Metadaten,
  • die Aufbereitung der gewählten Texte mit ihren Metadaten für ihre Analyse mit UIMA,
  • die Durchführung der Analyse und schließlich
  • eine Einbindung der Analyseergebnisse in TextGrid, etwa durch die Rückübertragung von Annotationen durch UIMA nach TEI.


Diese Teilschritte können, ggf. in angepasster Form, auch allgemeiner von anderen Projekten nachgenutzt werden. So sollen langfristig auch Neulinge und "Laien" im Bereich Datenanalyse von den Vorteilen der automatischen Analyseverfahren profitieren, etwa wenn es um die Erkennung grammatischer Fälle oder von Eigennamen in einem Text geht. Als Austauschformat zwischen den Textanalyse-Modulen und WüSyphus II ist das CoNLL-Format vorgesehen.

Versionierung und Archivierung

Ein entscheidendes und oft vernachlässigtes Kriterium für den Erfolg digitaler Projekte nicht nur in den Geisteswissenschaften ist die abschließende Sicherstellung einer langfristigen Nachvollziehbarkeit und Nachnutzbarkeit der zugrundeliegenden Datenpakete. Für "lebendige", d.h. für beständig weitergepflegte und erweiterte Datensammlungen und (Teil-)korpora ist vor allem die Gewährleistung der Datensicherheit von entscheidender Wichtigkeit. Zur Versionsverwaltung sind neben den vorgestellten Wiki-Lösungen auch Git-basierte Systeme vorgesehen.

Abschlussbericht

Den Abschlussbericht der ersten Förderphase finden sie hier.

 Bilder und Texte auf dem Weg ins digitale Zeitalter

Eine eingehende Beschreibung der Zielsetzungen in der 2. Förderphase folgt in Kürze.

Koordination


Partner an der JMU Würzburg

OCR und Textmining

Projektgruppe Narragonien digital

Projektgruppe Anagnosis

Projektgruppe Identifikation von Übersetzern



Partner an der FAU Erlangen-Nürnberg


Ehemalige Mitarbeiter und Partner

OCR und Textmining

Projektgruppe Schulwandbilder digital

Projektgruppe Narragonien Digital

Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI)