Projektbeschreibung: Unterschied zwischen den Versionen
Aus Kallimachos
Gaede (Diskussion | Beiträge) |
|||
| (195 dazwischenliegende Versionen von 2 Benutzern werden nicht angezeigt) | |||
| Zeile 4: | Zeile 4: | ||
==Projektbeschreibung== | ==Projektbeschreibung== | ||
KALLIMACHOS führt Geisteswissenschaftler | KALLIMACHOS führt Geisteswissenschaftler und Informatiker in einem regionalen Digital-Humanities-Zentrum zusammen. Der Aufbau des Zentrums wurde in zwei Förderphasen von 2014-2017 und 2017 bis 2019 durch das Bundesministerium für Bildung und Forschung im Rahmen der Fördermaßnahme [http://www.pt-dlr-gsk.de/de/992.php ''e-Humanities''] bezuschusst. Die an der Universität Würzburg vorhandenen Kompetenzen werden durch Partner am [http://www.dfki.de/web/kontakt/dfki-kaiserslautern DFKI Kaiserslautern] (Förderphase I) und an der [http://www.linguistik.uni-erlangen.de/index.shtml Universität Erlangen-Nürnberg] (Förderphase I und II) ergänzt. Nach dem Projektende fließen die Projektergebnisse und erarbeiteten Werkzeuge und Workflows in das 2019 gegründete Zentrum für Philologie und Digitalität ''Kallimachos'' [https://www.uni-wuerzburg.de/zpd/startseite/ (ZPD)] der Universität Würzburg ein. | ||
Unser Aufgabenschwerpunkt liegt auf der Erarbeitung digitaler Editionen und quantitativer Analyseverfahren aus dem Bereich des ''Text Mining'', z.B. ''Stilometrie'', ''Topic Modeling'' und ''Named Entity Recognition''. Wir bieten unseren Projektpartnern die nötige technische und soziale Infrastruktur, die Geisteswissenschaftler bei der Beantwortung von Forschungsfragen auf der Basis digitaler Methoden unterstützt. | Unser Aufgabenschwerpunkt liegt auf der Erarbeitung digitaler Editionen und quantitativer Analyseverfahren aus dem Bereich des ''Text Mining'', z.B. ''Stilometrie'', ''Topic Modeling'' und ''Named Entity Recognition''. Wir bieten unseren Projektpartnern die nötige technische und soziale Infrastruktur, die Geisteswissenschaftler bei der Beantwortung von Forschungsfragen auf der Basis digitaler Methoden unterstützt. | ||
| Zeile 12: | Zeile 12: | ||
Außerdem fördern wir durch regelmäßige Workshops und Tagungen den Austausch zwischen den regionalen und überregionalen Digital-Humanities-Projekten. Durch Beratungen und Schulungen führen wir Fachleuten, aber auch weniger technikaffinen Wissenschaftlern und dem akademischen Nachwuchs die Möglichkeiten digitaler Methoden zur Bearbeitung von Forschungsfragen vor Augen und bieten methodische, technische und organisatorische Unterstützung. | Außerdem fördern wir durch regelmäßige Workshops und Tagungen den Austausch zwischen den regionalen und überregionalen Digital-Humanities-Projekten. Durch Beratungen und Schulungen führen wir Fachleuten, aber auch weniger technikaffinen Wissenschaftlern und dem akademischen Nachwuchs die Möglichkeiten digitaler Methoden zur Bearbeitung von Forschungsfragen vor Augen und bieten methodische, technische und organisatorische Unterstützung. | ||
= | =Förderphase I= | ||
==Prototypische Arbeitsabläufe zu Edition und Datenanalyse== | ==Prototypische Arbeitsabläufe zu Edition und Datenanalyse== | ||
Ausgehend von unseren Teilprojekten als ''Use Cases'' werden prototypische Abläufe zur Datenerfassung und -analyse für die Geisteswissenschaften etabliert und für das Zielpublikum verständlich dokumentiert. Im Rahmen der Entwicklung des Workflowmanagementsystems ''Wüsyphus II'' können etablierte Tools zu Arbeitsketten zusammengefügt werden. Diese sollen durch interne und öffentliche Schulungen auch einer größeren Öffentlichkeit im Bereich der Digital Humanities bekannt gemacht werden. <!-- Im Bereich der statistischen Analyse quantitativer Ergebnisse sind dabei grundlegende methodologische Probleme zu lösen.-->Die ermittelten Best-Practice-Implementierungen werden in die Workflows integriert, am Beispiel der ''Use Cases'' empirisch validiert und der Forschungsgemeinschaft zur Verfügung gestellt. So wird das „Nachbauen“ mit eigenen Daten im Rahmen weiterer Projekte vereinfacht. | Ausgehend von unseren Teilprojekten als ''Use Cases'' werden prototypische Abläufe zur Datenerfassung und -analyse für die Geisteswissenschaften etabliert und für das Zielpublikum verständlich dokumentiert. Im Rahmen der Entwicklung des Workflowmanagementsystems ''Wüsyphus II'' können etablierte Tools zu Arbeitsketten zusammengefügt werden. Diese sollen durch interne und öffentliche Schulungen auch einer größeren Öffentlichkeit im Bereich der Digital Humanities bekannt gemacht werden. <!-- Im Bereich der statistischen Analyse quantitativer Ergebnisse sind dabei grundlegende methodologische Probleme zu lösen.-->Die ermittelten Best-Practice-Implementierungen werden in die Workflows integriert, am Beispiel der ''Use Cases'' empirisch validiert und der Forschungsgemeinschaft zur Verfügung gestellt. So wird das „Nachbauen“ mit eigenen Daten im Rahmen weiterer Projekte vereinfacht. | ||
| Zeile 18: | Zeile 18: | ||
Nicht jedes Teilprojekt durchläuft alle Punkte der Wüsyphus-II-Workflowkette. So kann es etwa vorkommen, dass für ein Projekt bereits die nötigen Digitalisate vorliegen, womit das Einscannen der physischen Originale nicht nötig ist. Die Planung eines individuellen Projektworkflows ist aber für alle Teilprojekte obligatorisch. Die folgende Grafik zeigt, welche Arbeitsschritte der Workflowkette für unsere ''Use Cases'' von Bedeutung sind: | Nicht jedes Teilprojekt durchläuft alle Punkte der Wüsyphus-II-Workflowkette. So kann es etwa vorkommen, dass für ein Projekt bereits die nötigen Digitalisate vorliegen, womit das Einscannen der physischen Originale nicht nötig ist. Die Planung eines individuellen Projektworkflows ist aber für alle Teilprojekte obligatorisch. Die folgende Grafik zeigt, welche Arbeitsschritte der Workflowkette für unsere ''Use Cases'' von Bedeutung sind: | ||
[[File:WFUC.png | link= | alt=Darstellung der Teilhabe der | [[File:WFUC.png | link= |alt=Darstellung der Teilhabe der Use Cases Narragonien digital, Anagnosis, Schulwandbilder digital, | ||
Narrative Techniken und Untergattungen, Leserlenkung in Bezug auf Figuren und Identifizierung Anonymer Übersetzer | Narrative Techniken und Untergattungen, Leserlenkung in Bezug auf Figuren und Identifizierung Anonymer Übersetzer an der Workflowkette.]] | ||
Ein ''Projektworkflow'' wird für alle Teilprojekte konzipiert. Beim Schulwandbilder-Projekt müssen die nötigen ''Scans'' zunächst angefertigt und über den ''Metadateneditor'' erfasst und verwaltet werden. Für die Projekte Narragonien digital, Anagnosis und für die Schulwandbilder sind ''OCR-Komponenten'' vorgesehen, für Anagnosis und Narragonien werden außerdem ''synoptische Editoren'' zur Verfügung gestellt. An den folgenden Modulen ''Export und Portaldarstellung'', ''Semantic Media Wiki''/''Textanalyse'' sowie der abschließenden Versionierung partizipieren alle Use-Cases in unterschiedlichem Maße. | <!-- | ||
Ein ''Projektworkflow'' wird für alle Teilprojekte konzipiert. Beim Schulwandbilder-Projekt müssen die nötigen ''Scans'' zunächst angefertigt und über den ''Metadateneditor'' erfasst und verwaltet werden. Für die Projekte Narragonien digital, Anagnosis und für die Schulwandbilder sind ''OCR-Komponenten'' vorgesehen, für Anagnosis und Narragonien werden außerdem ''synoptische Editoren'' zur Verfügung gestellt. An den folgenden Modulen ''Export und Portaldarstellung'', ''Semantic Media Wiki''/''Textanalyse'' sowie der abschließenden Versionierung partizipieren alle Use-Cases in unterschiedlichem Maße. | |||
--> | |||
<!--[[File:3QV.png]]--> | <!--[[File:3QV.png]]--> | ||
<!--[[File:WUEsyphus.png]]--> | <!--[[File:WUEsyphus.png]]--> | ||
| Zeile 42: | Zeile 44: | ||
==Metadateneditor== | ==Metadateneditor== | ||
[[File:MetaEditor.png | thumbnail | Benutzeroberfläche des Metadateneditors | link= | alt= Benutzeroberfläche des Metadateneditors]] | [[File:MetaEditor.png | thumbnail | Die Benutzeroberfläche des Metadateneditors | link=http://kallimachos.de/kallimachos/images/kallimachos/1/11/MetaEditor.png | alt= Benutzeroberfläche des Metadateneditors]] | ||
Der bereits existierende Metadateneneditor des Digitalisierungszentrums ermöglicht die zentrale Pflege umfassender vordefinierter Metadatensätze für Handschriften, Inkunabeln, Drucke und Grafiken. Verbesserungen der Web-Performance und der Benutzerführung sind für kommende Erweiterungen des Metadateneditors in WüSyphusII geplant. Auch die Aufnahme weiterer Datentypen, z.B. für Artefakte und andere Realia, ist vorgesehen. | Der bereits existierende Metadateneneditor des Digitalisierungszentrums ermöglicht die zentrale Pflege umfassender vordefinierter Metadatensätze für Handschriften, Inkunabeln, Drucke und Grafiken. Verbesserungen der Web-Performance und der Benutzerführung sind für kommende Erweiterungen des Metadateneditors in WüSyphusII geplant. Auch die Aufnahme weiterer Datentypen, z.B. für Artefakte und andere Realia, ist vorgesehen. | ||
<br clear=all> | <br clear=all> | ||
==OCR-Modul== | ==OCR-Modul== | ||
[[File: | [[File:NarragonienOCR.png|thumbnail|OCR von Scanseiten einer lateinischen Ausgabe des [[Narragonien|Narrenschiffs]].|link=http://kallimachos.de/kallimachos/images/kallimachos/d/d0/NarragonienOCR.png|alt=Darstellung des OCR-Prozesses: Links die Originalscans als Graustufenbild, rechts der e-Text]] | ||
Das OCR-Modul stellt eine automatisierte Vorverarbeitung für die Volltexterstellung zur Verfügung. | Das OCR-Modul stellt eine automatisierte Vorverarbeitung für die Volltexterstellung zur Verfügung. Hierzu entwickeln zwei Arbeitsgruppen am [https://www.dfki.de/web Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI)] und an der Universität Würzburg bestehende Tools und Software-Bausteine weiter, um auch solche Texte erschließen zu können, für die bislang keine qualitativ hochwertigen OCR-Lösungen vorliegen. Im Zentrum dieser Arbeiten steht der Use-Case [[Narragonien:Main | Narragonien]]. | ||
<br clear=all> | |||
===''anyOCR'': ein lernendes Zeichenerkennungssystem=== | |||
Das DFKI prägte den Begriff ''anyOCR'' für eine adaptierbare optische Texterkennungs-Methode, die sich – im Gegensatz zu etablierten (auf Zeichensegmenten basierenden und segmentierungsfreien) OCR-Systemen – automatisch an unterschiedliche Anforderungen und die spezifischen Probleme der Schrifterkennung auf historischen Dokumenten anpassen kann. Traditionelle segmentierungsfreie, auf Sequenzlernen basierende OCR-Ansätze konnten bereits erfolgreich auf handschriftliche, in unterschiedlicher Weise gedruckte, sowie historische Dokumente angewendet werden, um komplette Textzeilen auf einmal und mit höherer Erkennungsrate erkennen, als traditionelle segmentierungsbasierte Zeichenerkennungsverfahren. Um bei diesen Verfahren jedoch zufriedenstellende Leistungen zu erhalten, wird sehr viel manuell transkribiertes Trainingsmaterial – sogenannte Ground Truth – benötigt, dessen Erzeugung zeitaufwändig und somit teuer ist. Die Option der synthetischen Generierung von Trainingsdaten entzieht sich der Domäne historischer Dokumente überdies, da keine repräsentativen Texte verfügbar sind. | |||
<br clear=all> | |||
[[File:anyOCRtPipeline.png|600px|center|OCRoRACT-anyOCR Training Pipeline|link=|alt=Modellhafte Darstellung des Trainingsprozesses im anyOCR-Ansatz]] | |||
<br clear=all> | |||
Um dem Problem fehlender Ground Truth-Daten zum Training des Sequenzlernens zu begegnen, hat das DFKI das auf der ''anyOCR''-Methode basierende Framework ''OCRoRACT'' entwickelt. Hierbei wird zunächst ein konventionelles, auf Zeichensegmenten basierendes OCR-Verfahren bzw. dessen Erkennungsergebnis eingesetzt, um ein initiales OCR-Modell unter Verwendung einzelner erkannter Symbole zu trainieren. Diese (im Gegensatz zur Ground Truth) möglicherweise fehlerbehafteten Textzeilen werden dann, wie die sonst manuell erzeugte Ground Truth, zum Trainieren des Sequenzlernens verwendet. Durch die systemimmanente Einbeziehung von Kontextinformationen erlernt das System die weitgehende Korrektur etwaiger Fehler in dieser Pseudo-Ground Truth. Ein auf diese Weise auf historischen Dokumenten trainiertes ''OCRoRACT''-System lieferte bereits gute Erkennungsergebnisse trotz des zwangsweisen Verzichts auf die üblicherweise notwendigen Wörterbücher. | |||
<br clear=all> | |||
<br clear=all> | |||
<!--===Offizinspezifische Typeninventare=== | |||
[[File:CollageOCR.png|thumbnail|Erstellung von Typentabellen am Beispiel des Teilprojekts [[Narragonien]].| link=http://kallimachos.de/kallimachos/images/kallimachos/0/03/CollageOCR.png | alt=Collage verschiedener Typentabellen]] | |||
Die OCR-Arbeitsgruppe an der UB Würzburg begleitet und evaluiert auf den Spuren etablierter Tools, etwa aus dem EMOP-Projekt (''Franken+, Gamera, Tesseract'') den Entwicklungsprozess am DFKI. Dazu werden verlags- bzw. offizinspezifischen Typeninventare in einem MUFI-Zeichensatz erstellt, wobei das eigens entwickelte Tool Glyph Miner wertvolle Dienste leistet. Mithilfe dieser Typeninventare können offizinspezifische OCR-Trainingsdaten erzeugt werden, die zur Erfassung weitere Texte der Offizin mit demselben Typeninventar genutzt werden können. Dieser Ansatz erbrachte mit der Tesseract-Enginge bereits Erkennungsgenauigkeiten von über 93%, die zuvor auf vergleichbarem Material noch nie erreicht wurden. | |||
<br clear=all> | |||
--> | |||
<!-- | |||
Alt | |||
==OCR-Modul== | |||
[[File:CollageOCR.png|thumbnail|Erstellung von Typentabellen, hier am Beispiel des Teilprojekts [[Narragonien]].| link=http://kallimachos.de/kallimachos/images/kallimachos/0/03/CollageOCR.png | alt=Collage verschiedener Typentabellen]] | |||
Das OCR-Modul stellt eine automatisierte Vorverarbeitung für die Volltexterstellung zur Verfügung. Hierzu entwickeln zwei Arbeitsgruppen am [https://www.dfki.de/web DFKI Kaiserslautern] und an der Universität Würzburg bestehende Tools und Software-Bausteine weiter, um auch solche Texte erschließen zu können, für die bislang keine qualitativ hochwertigen OCR-Lösungen vorliegen. Im Zentrum dieser Arbeiten steht dabei der Use-Case [[Narragonien:Main | Narragonien]]. Auf der Grundlage der Arbeiten und Softwarebausteine des DFKI wird der im Projekt verfolgte Ansatz aus folgenden Schritten bestehen: | |||
*Integration der bisherigen OCR-Komponenten auf Softwarebene, | *Integration der bisherigen OCR-Komponenten auf Softwarebene, | ||
*Training von neuen Zeichensätzen für historische Druck- und Handschriften, | *Training von neuen Zeichensätzen für historische Druck- und Handschriften, | ||
*Entwicklung von „Wörterbüchern“ für historische Orthographien, | *Entwicklung von „Wörterbüchern“ für historische Orthographien, | ||
*Weiterentwicklung der nichtparametrischen Methoden für die Bildvorverarbeitung, Layoutanalyse und Sprachmodellierung. | *Weiterentwicklung der nichtparametrischen Methoden für die Bildvorverarbeitung, Layoutanalyse und Sprachmodellierung. | ||
Die OCR-Arbeitsgruppe an der UB Würzburg begleitet und evaluiert auf den Spuren etablierter Tools, etwa aus dem EMOP-Projekt (''Franken+, Gamera, Tesseract'') den Entwicklungsprozess am DFKI. Dazu werden verlags- bzw. offizinspezifischen Typeninventare in einem MUFI-Zeichensatz erstellt, wobei das eigens entwickelte Tool Glyph Miner wertvolle Dienste leistet. Mithilfe dieser Typeninventare können offizinspezifische OCR-Trainingsdaten erzeugt werden, die zur Erfassung weitere Texte der Offizin mit demselben Typeninventar genutzt werden können. Dieser Ansatz erbrachte mit der Tesseract-Enginge bereits Erkennungsgenauigkeiten von über 93%, die zuvor auf vergleichbarem Material noch nie erreicht wurden. | |||
<br clear=all> | <br clear=all> | ||
--> | |||
==Synoptischer Editor== | ==Synoptischer Editor== | ||
[[File:NarragonienTransEditor.png | thumbnail | | [[File:NarragonienTransEditor.png | thumbnail | Der für das Teilprojekt [[Narragonien]] entwickelte synoptische Editor zur vereinfachten Korrektur von OCR-Transkriptionen. | link=http://kallimachos.de/kallimachos/images/kallimachos/e/ed/NarragonienTransEditor.png | alt=Ansicht des Transkriptionseditors. Links ist der Originalscan, rechts der bearbeitete Transkriptionstext. In einem aufgerufenen Fenster können verschiedene historische Glyphen ausgewählt werden, die auf einer heutigen Computertastatur nicht zu finden sind]] | ||
Das Modul bietet ein Framework für Online-Editoren, in denen Texte und Bilder nebeneinander angezeigt, annotiert und über Bild-Text-Links verknüpft werden können. Die Editoren können dabei auf die Anforderungen der jeweiligen Projekte zugeschnitten werden. So wird ein intuitives Web-Editionswerkzeug geschaffen, das auch ohne tiefgreifende Kenntnisse von Textkodierung und XML-Formaten eine manuelle Nachkorrektur von OCR-Resultaten ermöglicht. Damit wird, in Verbindung mit der Benutzerrechteverwaltung und der Redaktionsinfrastruktur des ''WÜsyphus II''-Workflowsystems, die Einbeziehung von Hilfskräften, Seminarteilnehmern und sogar interessierten "Laien" in Editionsprojekte möglich gemacht. | Das Modul bietet ein Framework für Online-Editoren, in denen Texte und Bilder nebeneinander angezeigt, annotiert und über Bild-Text-Links verknüpft werden können. Die Editoren können dabei auf die Anforderungen der jeweiligen Projekte zugeschnitten werden. So wird ein intuitives Web-Editionswerkzeug geschaffen, das auch ohne tiefgreifende Kenntnisse von Textkodierung und XML-Formaten eine manuelle Nachkorrektur von OCR-Resultaten ermöglicht. Damit wird, in Verbindung mit der Benutzerrechteverwaltung und der Redaktionsinfrastruktur des ''WÜsyphus II''-Workflowsystems, die Einbeziehung von Hilfskräften, Seminarteilnehmern und sogar interessierten "Laien" in Editionsprojekte möglich gemacht. | ||
<!-- | <!-- | ||
Das Modul basiert auf einer Weiterentwicklung der ''Dreifachlupe'' mit synchronisierten, zoombaren Bildstreifen für Scan, Transkription und Übersetzung dar, die sich als Präsentationswerkzeug bereits im Rahmen von [http://vb.uni-wuerzburg.de/ub/index.html Virtuellen Bibliothek Würzburg] und [http://franconica.uni-wuerzburg.de/ub/index.html Franconica Online] bewähren konnte. Zusätzlich werden Komponenten des auf Open-Source-Basis verfügbaren [http://ckeditor.com/ CK-Editors] ausgebaut. Die entsprechend erweiterte ''WÜsyphus-Dreifachlupe'' wird so angepasst, dass sie zusammen mit dem CK-basierten XML-Editor auch in der [https://textgrid.de/ TextGrid]-Weboberflächeverwendet werden kann. | Das Modul basiert auf einer Weiterentwicklung der ''Dreifachlupe'' mit synchronisierten, zoombaren Bildstreifen für Scan, Transkription und Übersetzung dar, die sich als Präsentationswerkzeug bereits im Rahmen von [http://vb.uni-wuerzburg.de/ub/index.html Virtuellen Bibliothek Würzburg] und [http://franconica.uni-wuerzburg.de/ub/index.html Franconica Online] bewähren konnte. Zusätzlich werden Komponenten des auf Open-Source-Basis verfügbaren [http://ckeditor.com/ CK-Editors] ausgebaut. Die entsprechend erweiterte ''WÜsyphus-Dreifachlupe'' wird so angepasst, dass sie zusammen mit dem CK-basierten XML-Editor auch in der [https://textgrid.de/ TextGrid]-Weboberflächeverwendet werden kann. | ||
--> | --> | ||
| Zeile 90: | Zeile 114: | ||
* eine Einbindung der Analyseergebnisse in TextGrid, etwa durch die Rückübertragung von Annotationen durch ''UIMA'' nach ''TEI''. | * eine Einbindung der Analyseergebnisse in TextGrid, etwa durch die Rückübertragung von Annotationen durch ''UIMA'' nach ''TEI''. | ||
Diese Teilschritte können, ggf. in angepasster Form, auch allgemeiner von anderen Projekten nachgenutzt werden. So sollen langfristig auch Neulinge und "Laien" im Bereich Datenanalyse von den Vorteilen der automatischen Analyseverfahren profitieren, etwa wenn es um die Erkennung grammatischer Fälle oder von Eigennamen in einem Text geht. Als Austauschformat zwischen den Textanalyse-Modulen und WüSyphus II ist das CoNLL-Format vorgesehen. | Diese Teilschritte können, ggf. in angepasster Form, auch allgemeiner von anderen Projekten nachgenutzt werden. So sollen langfristig auch Neulinge und "Laien" im Bereich Datenanalyse von den Vorteilen der automatischen Analyseverfahren profitieren, etwa wenn es um die Erkennung grammatischer Fälle oder von Eigennamen in einem Text geht. Als Austauschformat zwischen den Textanalyse-Modulen und WüSyphus II ist das CoNLL-Format vorgesehen. | ||
| Zeile 95: | Zeile 120: | ||
==Versionierung und Archivierung== | ==Versionierung und Archivierung== | ||
Ein entscheidendes und oft vernachlässigtes Kriterium für den Erfolg digitaler Projekte nicht nur in den Geisteswissenschaften ist die abschließende Sicherstellung einer langfristigen Nachvollziehbarkeit und Nachnutzbarkeit der zugrundeliegenden Datenpakete. Für "lebendige", d.h. für beständig weitergepflegte und erweiterte Datensammlungen und | Ein entscheidendes und oft vernachlässigtes Kriterium für den Erfolg digitaler Projekte nicht nur in den Geisteswissenschaften ist die abschließende Sicherstellung einer langfristigen Nachvollziehbarkeit und Nachnutzbarkeit der zugrundeliegenden Datenpakete. Für "lebendige", d.h. für beständig weitergepflegte und erweiterte Datensammlungen und (Teil-)korpora ist vor allem die Gewährleistung der Datensicherheit von entscheidender Wichtigkeit. Zur Versionsverwaltung sind neben den vorgestellten Wiki-Lösungen auch Git-basierte Systeme vorgesehen. | ||
Parallel zur stabilen Verfügbarmachung und Versionierung der Daten werden Methoden zu ihrer ''Langzeitarchivierung'' implementiert. | <!--Parallel zur stabilen Verfügbarmachung und Versionierung der Daten werden Methoden zu ihrer ''Langzeitarchivierung'' implementiert.--> | ||
==Abschlussbericht== | |||
Den Abschlussbericht der ersten Förderphase finden sie [[media:AbschlussberichtKallimachos1.pdf|'''hier''']]. | |||
= | =Förderphase II= | ||
== | [[File:Datentunnel.jpg | |link=| alt= Bilder und Texte auf dem Weg ins digitale Zeitalter]] | ||
<br clear=all> | |||
==Ziele== | |||
Die Förderung des Projekts KALLIMACHOS II als Fortsetzung des Aufbaus eines Zentrums für digitale Edition und quantitative Analyse an der Universität Würzburg von Kallimachos I erfolgte im Rahmen der [http://www.pt-dlr-gsk.de/de/992.php BMBF eHumanities Förderlinie 2], um Forschungsinfrastrukturen für die Geistes-und qualitativen Sozialwissenschaften unter maßgeblicher Einbeziehung der Informatik oder informatiknaher Fächer aufzubauen. Anhand mehrerer beispielhaft gewählter Untersuchungsthemen sollte die Fruchtbarkeit dieses interdisziplinären Ansatzes sichtbar gemacht und damit ein ''Digital Humanities''-Zentrum an der Universität Würzburg dauerhaft konstituiert werden. | |||
* | Die methodischen Ziele umfassen: | ||
*OCR-Optimierung (''Optical Character Recognition'') für alte Drucke | |||
*''Information Extraction'' aus Freitexten | |||
*''Stilometrie'' zur Erfassung der Komplexität verschiedener Romantypen | |||
*''Quantitativen Analyse'' arabisch-lateinischer Übersetzungen mit OCR-Optimierung für arabische Texte, Dokumentation von bekannten Autoren und Übersetzern sowie Methoden zu deren Identifikation. | |||
==Inhalte== | |||
Die gewählten Untersuchungsthemen vereinen lokale Forschungsinteressen (Aufbau eines ''Narrenschiff''-Korpus, Provenienz-und Gattungsbestimmung, narrative Techniken und Untergattungen, Leserlenkung in Bezug auf Figuren, Identifizierung von Übersetzern, digitale Erschließung von altgriechischen Papyri) in einer für die Digital Humanities typischen Weise mit infrastrukturell-informatorischen Werkzeugen und Abläufen (OCR-Workflow, Semantic MediaWiki, Präsentationssoftware für Editionen, Werkzeugkasten zur semantischen Korpusanalyse). | |||
==Ergebnisse== | |||
Dem interdisziplinären Ansatz entsprechend wurde ein Methodenmix aus philologischen (Transkription, Annotation, Textkritik, Edition), (computer-) linguistischen (Erkennung und Bearbeitung historischer Sprache) und technisch-informatorischen Methoden (Bilddigitalisierung, Mustererkennung mit neuronalen Netzen, Informationsextraktion) eingesetzt und weiterentwickelt. | |||
In allen genannten Bereichen konnten wesentliche Fortschritte und Ergebnisse erreicht werden: Die OCR historischer Texte erzielt selbst bei den frühesten Drucken mit moderatem werkspezifischen Training Zeichenerkennungsraten von durchschnittlich 99,5%, was bisher als unerreichbar schien. Der OCR-Gesamtworkflow mit Vorverarbeitung und Seiten-Segmentierung wird durch das komfortable, bereits breit im Einsatz befindliche Tool OCR4all unterstützt. | |||
Weiterhin wurden Methoden zur differenzierten Analyse von Varianzen zwischen zwei Texten mit konfigurierbarer Auszeichnung verschiedener Varianztypen und zum fehlertoleranten Alignment zwischen einer OCR-Transkription und externen Vorlagen entwickelt und u.a. erfolgreich im Teilprojekt ''Anagnosis'' zur Transkription griechischer Papyri eingesetzt. Diese Methoden erlaubten im Teilprojekt ''Narragonien'' eine umfassende Aufbereitung alter Drucke, in dem zehn Ausgaben des „Narrenschiffs“ in verschiedenen Sprachen digital erschlossen wurden, wozu außer den Metadaten und der Transkription auch ein Lesetext, ein Register mit Namen und Orten und ein TEI-Export gehören. | |||
Auf der Ebene der semantischen Analyse wurden erfolgreich Tools zur automatischen Szenenerkennung und zur verfeinerten Figurenanalyse in Romanen (Erkennung von Entitäten, deren Zusammengehörigkeiten, deren Relations-und Sentimenterkennung) entwickelt und evaluiert. Bezüglich des Stils von Romanen wurden neue Komplexitätsmaße entwickelt und zur Analyse der stilometrischen Unterschiede zwischen Hochliteratur und Schemaliteratur verwendet, wobei letztere wegenihrer größeren Binnenvarianz noch weiter in Subgenres wie Science-Fiction, Horror-, Kriminal-und Liebesromane unterteilt wird. So konnte quantitativ gezeigt werden, dass Hochliteratur nicht pauschal eine höhere Komplexität als Schemaliteratur hat, sondern diese bezüglich der Subgenres und der Komplexitätsmaße erheblich variiert. Die stilometrischen Analyse-Methoden stehen in einer quelloffenen Python Toolbox der Öffentlichkeit zur Verfügung. | |||
Auch bei der quantitativen Analyse arabisch-lateinischer Übersetzungen wurden sowohl methodische Fortschritte durch Anpassung der OCR zur Transkription sowie der stilometrischen Analysen als auch inhaltlichen Ergebnisse bezüglich der Identifikation von Übersetzern erzielt. | |||
==Nachnutzung und Verstetigung== | |||
Die fruchtbare Zusammenarbeit zwischen Geisteswissenschaftlern und Informatikern wurde in dem neuen interdisziplinären [https://www.uni-wuerzburg.de/zpd/startseite/ „Zentrum für Philologie und Digitalität Kallimachos“ (ZPD)] der Universität Würzburg verstetigt, für die auch ein Neubau bewilligt ist (geplante Fertigstellung 2023). | |||
Das OCR-Workflow-Tool [https://github.com/OCR4all OCR4all] schließt eine Lücke bei der Transkription alter Drucke, indem es die besten OCR-Methoden mit einem komfortablen Workflow mit Geisteswissenschaftlern als Zielgruppe kombiniert und hat auch außerhalb des Projektes bereits eine breite Akzeptanz für die Transkription alter Drucke gefunden. Es steht einschließlich Dokumentation und einführenden Tutorials auf der [https://www.uni-wuerzburg.de/zpd/ ZPD-Homepage] der Allgemeinheit zur Verfügung. | |||
Die neuartige stilometrische Toolbox zur Romananalyse wird ist ebenfalls [https://github.com/tsproisl/Linguistic_and_Stylistic_Complexity frei auf Github zugänglich]. | |||
Das umfangreiche Narragonien-Textkorpus mit zehn digital erschlossenen europäischen Narrenschiff-Ausgaben vor 1500 wird in seiner finalen Version Ende 2020 veröffentlicht. | |||
==Abschlussbericht== | |||
Eine eingehende Darstellung der zweiten Förderphase, basierend auf dem eingereichten Abschlussbericht, finden Sie [[Kallimachos_II_(Eingehende_Darstellung)|'''hier''']]. | |||
*[https://elmut.uni-wuerzburg.de/person/ | =Kontakt= | ||
==Koordination== | |||
<!--{{Adresse Kallimachos}}--> | |||
<!--*Dr. [https://elmut.uni-wuerzburg.de/person/23791 Hans-Günter Schmidt] (Leiter der Universitätsbibliothek)--> | |||
* Prof. Dr. [http://www.is.informatik.uni-wuerzburg.de/en/staff/puppe_frank/ Frank Puppe] (Projektleitung, [http://www.is.informatik.uni-wuerzburg.de/startseite/ Lehrstuhl für Informatik VI]) | |||
*Dr. [https://elmut.uni-wuerzburg.de/person/916 Herbert Baier-Saip] ([https://wueaddress.uni-wuerzburg.de/oeh/43140000 Zentrum für Philologie und Digitalität]) | |||
*[https://elmut.uni-wuerzburg.de/person/7302 Jonathan Gaede] M.A. ([https://wueaddress.uni-wuerzburg.de/oeh/43140000 Zentrum für Philologie und Digitalität]) | |||
---- | |||
==Partner an der JMU Würzburg== | ==Partner an der JMU Würzburg== | ||
===OCR und Textmining=== | |||
===Textmining | <!--<br clear=all> | ||
-- | {{Lehrstuhl Comphil}}--> | ||
{{Lehrstuhl Comphil}} | *Prof. Dr. [http://www.jannidis.de/ Fotis Jannidis] ([http://www.germanistik.uni-wuerzburg.de/lehrstuehle/computerphilologie/startseite/ Lehrstuhl für Computerphilologie und Neuere Deutsche Literaturgeschichte]) | ||
*Prof. Dr. [http://www.jannidis.de/ Fotis Jannidis] | *[https://wueaddress.uni-wuerzburg.de/person/34561 Leonard Konle] ([http://www.germanistik.uni-wuerzburg.de/lehrstuehle/computerphilologie/startseite/ Lehrstuhl für Computerphilologie und Neuere Deutsche Literaturgeschichte]) | ||
<!--<br clear=all> | |||
* | |||
<br clear=all> | |||
= | {{LSKI}}--> | ||
*Prof. Dr. [http://www.is.informatik.uni-wuerzburg.de/en/staff/puppe_frank/ Frank Puppe] ([http://www.is.informatik.uni-wuerzburg.de/startseite/ Lehrstuhl für Informatik VI]) | |||
* Prof. Dr. [http://www.is.informatik.uni-wuerzburg.de/staff/hotho Andreas Hotho] ([http://www.dmir.uni-wuerzburg.de/home/ DMIR]-Gruppe des [http://www.is.informatik.uni-wuerzburg.de/startseite/ Lehrstuhl für Informatik VI]) | |||
* [http://www.dmir.uni-wuerzburg.de/staff/zehe/ Albin Zehe], M.Sc. ([http://www.dmir.uni-wuerzburg.de/home/ DMIR]-Gruppe des [http://www.is.informatik.uni-wuerzburg.de/startseite/ Lehrstuhl für Informatik VI]) | |||
*[http://www.is.informatik.uni-wuerzburg.de/staff/reul_christian/ Christian Reul], M.Sc.([http://www.is.informatik.uni-wuerzburg.de/startseite/ Lehrstuhl für Informatik VI], [https://wueaddress.uni-wuerzburg.de/oeh/43140000 Zentrum für Philologie und Digitalität]) | |||
*[http://www.is.informatik.uni-wuerzburg.de/staff/mkrug/ Markus Krug], M.Sc. ([http://www.is.informatik.uni-wuerzburg.de/startseite/ Lehrstuhl für Informatik VI]) | |||
<!--<br clear=all> | |||
---- | ---- | ||
===Segmentierung und OCR=== | |||
<br clear=all> | <br clear=all> | ||
{{AKS}}--> | |||
{{ | *[http://www1.informatik.uni-wuerzburg.de/mitarbeiterinnen/budig_benedikt/ Benedikt Budig], M.Sc. ([http://www.is.informatik.uni-wuerzburg.de/ Lehrstuhl für Informatik I]) | ||
* | *Dr. [http://www1.informatik.uni-wuerzburg.de/mitarbeiterinnen/dijk_thomas_van/ Thomas van Dijk] ([http://www.is.informatik.uni-wuerzburg.de/ Lehrstuhl für Informatik I]) | ||
<!--*[http://www.is.informatik.uni-wuerzburg.de/staff/reul_christian/ Christian Reul], M.Sc.([http://www.is.informatik.uni-wuerzburg.de/startseite/ Lehrstuhl für Informatik VI])--> | |||
<!--<br clear=all> | |||
{{LSKI NoDMIR}}--> | |||
*[http://www. | ===Projektgruppe ''Narragonien digital''=== | ||
<br clear=all> | <!--{{Romanistik}}--> | ||
*Prof. Dr. [http://www.romanistik.uni-wuerzburg.de/mitarbeiter/burrichter/ Brigitte Burrichter] ([http://www.romanistik.uni-wuerzburg.de/startseite/ Neuphilologisches Institut / Romanistik]) | |||
<!--<br clear=all> | |||
{{ÄDL}}--> | |||
*Prof. Dr. [http://www.mediaevistik.germanistik.uni-wuerzburg.de/mitarbeiter/hamm_joachim/ Joachim Hamm] ([http://www.mediaevistik.germanistik.uni-wuerzburg.de/startseite/ Lehrstuhl für deutsche Philologie, Ältere Abteilung]) | |||
===Projektgruppe ''Anagnosis''=== | ===Projektgruppe ''Anagnosis''=== | ||
<!--<br clear=all> | |||
{{Adresse Anagnosis}}--> | |||
*Prof. Dr. Dr. h.c. [http://www.klassphil.uni-wuerzburg.de/lehrstuhl_i_graezistik/alt/personal/prof_dr_dr_hc_michael_erler/ Michael Erler] ([http://www.klassphil.uni-wuerzburg.de/startseite/ Institut für Klassische Philologie]) | |||
*AR Dr. [http://www.klassphil.uni-wuerzburg.de/mitarbeiter_des_instituts/lehrstuhl_i_graezistik/ar_dr_holger_essler/ Holger Essler] ([http://www.klassphil.uni-wuerzburg.de/startseite/ Institut für Klassische Philologie]) | |||
*[https://scuola.academia.edu/VincenzoDamiani Vincenzo Damiani], M.A. ([http://www.klassphil.uni-wuerzburg.de/startseite/ Institut für Klassische Philologie]) | |||
<!--<br clear=all> | |||
---- | ---- | ||
===Projektgruppe ''Schulwandbilder digital''=== | |||
<br clear=all> | <br clear=all> | ||
{{Adresse Schulwandbilder}} | {{Adresse Schulwandbilder}} | ||
*Univ.-Prof. Dr. phil. habil. [http://www.bildungswissenschaft.uni-wuerzburg.de/team/lehrstuhlinhaber/ Andreas Dörpinghaus] (Lehrstuhlinhaber) | *Univ.-Prof. Dr. phil. habil. [http://www.bildungswissenschaft.uni-wuerzburg.de/team/lehrstuhlinhaber/ Andreas Dörpinghaus] (Lehrstuhlinhaber) | ||
| Zeile 180: | Zeile 226: | ||
*Dipl. Päd. [http://www.bildungswissenschaft.uni-wuerzburg.de/forschungsstelle_historische_bildmedien/team/stellv_leitung/ Eva Zimmer], M.A. (stellv. Projektleiterin) | *Dipl. Päd. [http://www.bildungswissenschaft.uni-wuerzburg.de/forschungsstelle_historische_bildmedien/team/stellv_leitung/ Eva Zimmer], M.A. (stellv. Projektleiterin) | ||
<br clear=all> | <br clear=all> | ||
---- | |||
--> | |||
===Projektgruppe ''Identifikation von Übersetzern''=== | ===Projektgruppe ''Identifikation von Übersetzern''=== | ||
<!--<br clear=all> | |||
{{Adresse Uebersetzer}}--> | |||
*Prof. Dr. [http://www.philosophie.uni-wuerzburg.de/institut/allelehrsthlefrphilosophie/profdrdagnikolaushasse/ Dag Nikolaus Hasse] ([http://www.philosophie.uni-wuerzburg.de/startseite/ Institut für Philosophie]) | |||
*[https://www.philosophie.uni-wuerzburg.de/institut/allelehrsthlefrphilosophie/profdrdagnikolaushasse/andreas-buettner-ma/ Andreas Büttner], M.A. ([http://www.philosophie.uni-wuerzburg.de/startseite/ Institut für Philosophie]) | |||
*Jonathan Maier, B.A. ([http://www.philosophie.uni-wuerzburg.de/startseite/ Institut für Philosophie])<!--<br clear=all> | |||
---- | ---- | ||
===Projektgruppe ''Romangattungen''=== | |||
<br clear=all> | <br clear=all> | ||
{{Lehrstuhl Comphil}} | {{Lehrstuhl Comphil}} | ||
*Prof. Dr. [http://www.jannidis.de/ Fotis Jannidis] | *Prof. Dr. [http://www.jannidis.de/ Fotis Jannidis] | ||
*[http://www.germanistik.uni-wuerzburg.de/lehrstuehle/computerphilologie/mitarbeiter/reger/ Isabella Reger], M.A. | |||
*[http://www.germanistik.uni-wuerzburg.de/lehrstuehle/computerphilologie/mitarbeiter/reger/ Isabella Reger] | |||
<br clear=all> | <br clear=all> | ||
{{LSKI}} | {{LSKI}} | ||
* Dipl.-Math. [http://www. | *Dipl.-Math. [http://www.dmir.uni-wuerzburg.de/staff/hettinger/ Lena Hettinger] | ||
<br clear=all> | <br clear=all> | ||
---- | |||
===Projektgruppe ''Romanfiguren''=== | ===Projektgruppe ''Romanfiguren''=== | ||
<br clear=all> | <br clear=all> | ||
{{Lehrstuhl Comphil}} | {{Lehrstuhl Comphil}} | ||
*Prof. Dr. [http://www.jannidis.de/ Fotis Jannidis] | *Prof. Dr. [http://www.jannidis.de/ Fotis Jannidis] | ||
*[ | *[https://wueaddress.uni-wuerzburg.de/person/34561 Leonard Konle] | ||
*Lukas Weimer | *Lukas Weimer | ||
*Luisa Macharowsky | *Luisa Macharowsky | ||
<br clear=all> | |||
{{LSKI}} | |||
*Prof. Dr. [http://www.is.informatik.uni-wuerzburg.de/en/staff/puppe_frank/ Frank Puppe] | |||
<br clear=all> | |||
---- | |||
--> | --> | ||
---- | ---- | ||
*[http://www.linguistik.uni-erlangen.de/wir-ueber-uns/personal.shtml/thomas-proisl.shtml Thomas Proisl], M.A. | ==Partner an der FAU Erlangen-Nürnberg== | ||
<!--{{PKL}}--> | |||
*Prof. Dr. [http://www.stefan-evert.de/ Stefan Evert] ([http://www.linguistik.uni-erlangen.de/index.shtml Professur für Korpuslinguistik]) | |||
*[http://www.linguistik.uni-erlangen.de/wir-ueber-uns/personal.shtml/thomas-proisl.shtml Thomas Proisl], M.A. ([http://www.linguistik.uni-erlangen.de/index.shtml Professur für Korpuslinguistik]) | |||
---- | ---- | ||
{{Adresse | |||
==Ehemalige Mitarbeiter und Partner == | |||
*Dr. [https://wueaddress.uni-wuerzburg.de/person/84041 Uwe Springmann] (Projektleitung) | |||
<!-- HGS will auch die anderen UBler nicht in dieser Liste, aber ich sehe nicht ein, weshalb das ein Problem ist --> | |||
*[https://elmut.uni-wuerzburg.de/person/4730 Kerstin Kornhoff] (Organisation) | |||
*[https://elmut.uni-wuerzburg.de/person/45062 Marion Friedlein] (Organisation) | |||
*[https://elmut.uni-wuerzburg.de/person/48719 Regina Beitzinger] (Organisation) | |||
*[https://elmut.uni-wuerzburg.de/person/29458 Almut Wenk] (Organisation) | |||
*[https://elmut.uni-wuerzburg.de/person/351 Tanja Altenhöfer] (Organisation) | |||
*Dipl.-Inform. [https://elmut.uni-wuerzburg.de/person/13342 Felix Kirchner] (Systementwicklung und OCR) | |||
*[https://elmut.uni-wuerzburg.de/person/79876 Martin Gruner] (Entwicklung, Wiki-Systeme und OCR) | |||
*[https://elmut.uni-wuerzburg.de/person/55636 Markus Kinner] (OCR und Pflege der Arbeitsstationen) | |||
*Dipl.-Ing. [https://elmut.uni-wuerzburg.de/person/4518 Marco Dittrich] (Scantechnik, OCR und Digitalisierung) | |||
*[https://elmut.uni-wuerzburg.de/person/29223 Ulf Weinmann] (Bildbearbeitung und Digitalisierung) | |||
*[https://elmut.uni-wuerzburg.de/person/8294 Irmgard Götz-Kenner] (Bildbearbeitung und Fotografie) | |||
===OCR und Textmining=== | |||
*[http://www.germanistik.uni-wuerzburg.de/lehrstuehle/computerphilologie/mitarbeiter/reger/ Isabella Reger], M.A. | |||
*Dipl.-Math. [http://www.dmir.uni-wuerzburg.de/staff/hettinger/ Lena Hettinger] | |||
===Projektgruppe ''Schulwandbilder digital''=== | |||
<!--{{Adresse Schulwandbilder}}--> | |||
*[http://www.bildungswissenschaft.uni-wuerzburg.de/forschungsstelle/ Forschungsstelle Historische Bildmedien] | |||
*Univ.-Prof. Dr. phil. habil. [http://www.bildungswissenschaft.uni-wuerzburg.de/team/lehrstuhlinhaber/ Andreas Dörpinghaus] ([http://www.bildungswissenschaft.uni-wuerzburg.de/startseite/ Lehrstuhl für Systematische Bildungswissenschaft]) | |||
*Dr. phil. [http://www.bildungswissenschaft.uni-wuerzburg.de/forschungsstelle_historische_bildmedien/team/leitung/ Ina Uphoff] (Projektleiterin) | |||
*Dipl. Päd. [http://www.bildungswissenschaft.uni-wuerzburg.de/forschungsstelle_historische_bildmedien/team/stellv_leitung/ Eva Zimmer], M.A. (stellv. Projektleiterin) | |||
===Projektgruppe ''Narragonien Digital''=== | |||
*[http://www.romanistik.uni-wuerzburg.de/mitarbeiter/walter/ Viktoria Walter] | |||
*[http://www.mediaevistik.germanistik.uni-wuerzburg.de/mitarbeiter/grundig_christine/ Christine Grundig], M.A. | |||
===Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI)=== | |||
*Prof. Dr. [http://www.dfki.de/~dengel/content/index_ger.html Andreas Dengel] | *Prof. Dr. [http://www.dfki.de/~dengel/content/index_ger.html Andreas Dengel] | ||
*Dr. [http://www.dfki.de/~bukhari/ Syed Saqib Bukhari] | *Dr. [http://www.dfki.de/~bukhari/ Syed Saqib Bukhari] | ||
<headertabs /> | <headertabs /> | ||
{{Sprachauswahl|project description|Projektbeschreibung}} | |||
__NOTOC__ | |||
Aktuelle Version vom 15. Mai 2020, 14:04 Uhr