Projektbeschreibung: Unterschied zwischen den Versionen
Aus Kallimachos
Gaede (Diskussion | Beiträge) |
|||
| (26 dazwischenliegende Versionen von 2 Benutzern werden nicht angezeigt) | |||
| Zeile 4: | Zeile 4: | ||
==Projektbeschreibung== | ==Projektbeschreibung== | ||
KALLIMACHOS führt Geisteswissenschaftler und Informatiker in einem regionalen Digital-Humanities-Zentrum zusammen. Der Aufbau des Zentrums | KALLIMACHOS führt Geisteswissenschaftler und Informatiker in einem regionalen Digital-Humanities-Zentrum zusammen. Der Aufbau des Zentrums wurde in zwei Förderphasen von 2014-2017 und 2017 bis 2019 durch das Bundesministerium für Bildung und Forschung im Rahmen der Fördermaßnahme [http://www.pt-dlr-gsk.de/de/992.php ''e-Humanities''] bezuschusst. Die an der Universität Würzburg vorhandenen Kompetenzen werden durch Partner am [http://www.dfki.de/web/kontakt/dfki-kaiserslautern DFKI Kaiserslautern] (Förderphase I) und an der [http://www.linguistik.uni-erlangen.de/index.shtml Universität Erlangen-Nürnberg] (Förderphase I und II) ergänzt. Nach dem Projektende fließen die Projektergebnisse und erarbeiteten Werkzeuge und Workflows in das 2019 gegründete Zentrum für Philologie und Digitalität ''Kallimachos'' [https://www.uni-wuerzburg.de/zpd/startseite/ (ZPD)] der Universität Würzburg ein. | ||
Unser Aufgabenschwerpunkt liegt auf der Erarbeitung digitaler Editionen und quantitativer Analyseverfahren aus dem Bereich des ''Text Mining'', z.B. ''Stilometrie'', ''Topic Modeling'' und ''Named Entity Recognition''. Wir bieten unseren Projektpartnern die nötige technische und soziale Infrastruktur, die Geisteswissenschaftler bei der Beantwortung von Forschungsfragen auf der Basis digitaler Methoden unterstützt. | Unser Aufgabenschwerpunkt liegt auf der Erarbeitung digitaler Editionen und quantitativer Analyseverfahren aus dem Bereich des ''Text Mining'', z.B. ''Stilometrie'', ''Topic Modeling'' und ''Named Entity Recognition''. Wir bieten unseren Projektpartnern die nötige technische und soziale Infrastruktur, die Geisteswissenschaftler bei der Beantwortung von Forschungsfragen auf der Basis digitaler Methoden unterstützt. | ||
| Zeile 124: | Zeile 124: | ||
==Abschlussbericht== | ==Abschlussbericht== | ||
Den Abschlussbericht der ersten Förderphase finden sie [[media:AbschlussberichtKallimachos1|'''hier''']]. | Den Abschlussbericht der ersten Förderphase finden sie [[media:AbschlussberichtKallimachos1.pdf|'''hier''']]. | ||
=Förderphase II= | =Förderphase II= | ||
| Zeile 130: | Zeile 130: | ||
<br clear=all> | <br clear=all> | ||
'' | ==Ziele== | ||
Die Förderung des Projekts KALLIMACHOS II als Fortsetzung des Aufbaus eines Zentrums für digitale Edition und quantitative Analyse an der Universität Würzburg von Kallimachos I erfolgte im Rahmen der [http://www.pt-dlr-gsk.de/de/992.php BMBF eHumanities Förderlinie 2], um Forschungsinfrastrukturen für die Geistes-und qualitativen Sozialwissenschaften unter maßgeblicher Einbeziehung der Informatik oder informatiknaher Fächer aufzubauen. Anhand mehrerer beispielhaft gewählter Untersuchungsthemen sollte die Fruchtbarkeit dieses interdisziplinären Ansatzes sichtbar gemacht und damit ein ''Digital Humanities''-Zentrum an der Universität Würzburg dauerhaft konstituiert werden. | |||
Die methodischen Ziele umfassen: | |||
*OCR-Optimierung (''Optical Character Recognition'') für alte Drucke | |||
*''Information Extraction'' aus Freitexten | |||
*''Stilometrie'' zur Erfassung der Komplexität verschiedener Romantypen | |||
*''Quantitativen Analyse'' arabisch-lateinischer Übersetzungen mit OCR-Optimierung für arabische Texte, Dokumentation von bekannten Autoren und Übersetzern sowie Methoden zu deren Identifikation. | |||
==Inhalte== | |||
Die gewählten Untersuchungsthemen vereinen lokale Forschungsinteressen (Aufbau eines ''Narrenschiff''-Korpus, Provenienz-und Gattungsbestimmung, narrative Techniken und Untergattungen, Leserlenkung in Bezug auf Figuren, Identifizierung von Übersetzern, digitale Erschließung von altgriechischen Papyri) in einer für die Digital Humanities typischen Weise mit infrastrukturell-informatorischen Werkzeugen und Abläufen (OCR-Workflow, Semantic MediaWiki, Präsentationssoftware für Editionen, Werkzeugkasten zur semantischen Korpusanalyse). | |||
==Ergebnisse== | |||
Dem interdisziplinären Ansatz entsprechend wurde ein Methodenmix aus philologischen (Transkription, Annotation, Textkritik, Edition), (computer-) linguistischen (Erkennung und Bearbeitung historischer Sprache) und technisch-informatorischen Methoden (Bilddigitalisierung, Mustererkennung mit neuronalen Netzen, Informationsextraktion) eingesetzt und weiterentwickelt. | |||
In allen genannten Bereichen konnten wesentliche Fortschritte und Ergebnisse erreicht werden: Die OCR historischer Texte erzielt selbst bei den frühesten Drucken mit moderatem werkspezifischen Training Zeichenerkennungsraten von durchschnittlich 99,5%, was bisher als unerreichbar schien. Der OCR-Gesamtworkflow mit Vorverarbeitung und Seiten-Segmentierung wird durch das komfortable, bereits breit im Einsatz befindliche Tool OCR4all unterstützt. | |||
Weiterhin wurden Methoden zur differenzierten Analyse von Varianzen zwischen zwei Texten mit konfigurierbarer Auszeichnung verschiedener Varianztypen und zum fehlertoleranten Alignment zwischen einer OCR-Transkription und externen Vorlagen entwickelt und u.a. erfolgreich im Teilprojekt ''Anagnosis'' zur Transkription griechischer Papyri eingesetzt. Diese Methoden erlaubten im Teilprojekt ''Narragonien'' eine umfassende Aufbereitung alter Drucke, in dem zehn Ausgaben des „Narrenschiffs“ in verschiedenen Sprachen digital erschlossen wurden, wozu außer den Metadaten und der Transkription auch ein Lesetext, ein Register mit Namen und Orten und ein TEI-Export gehören. | |||
Auf der Ebene der semantischen Analyse wurden erfolgreich Tools zur automatischen Szenenerkennung und zur verfeinerten Figurenanalyse in Romanen (Erkennung von Entitäten, deren Zusammengehörigkeiten, deren Relations-und Sentimenterkennung) entwickelt und evaluiert. Bezüglich des Stils von Romanen wurden neue Komplexitätsmaße entwickelt und zur Analyse der stilometrischen Unterschiede zwischen Hochliteratur und Schemaliteratur verwendet, wobei letztere wegenihrer größeren Binnenvarianz noch weiter in Subgenres wie Science-Fiction, Horror-, Kriminal-und Liebesromane unterteilt wird. So konnte quantitativ gezeigt werden, dass Hochliteratur nicht pauschal eine höhere Komplexität als Schemaliteratur hat, sondern diese bezüglich der Subgenres und der Komplexitätsmaße erheblich variiert. Die stilometrischen Analyse-Methoden stehen in einer quelloffenen Python Toolbox der Öffentlichkeit zur Verfügung. | |||
Auch bei der quantitativen Analyse arabisch-lateinischer Übersetzungen wurden sowohl methodische Fortschritte durch Anpassung der OCR zur Transkription sowie der stilometrischen Analysen als auch inhaltlichen Ergebnisse bezüglich der Identifikation von Übersetzern erzielt. | |||
==Nachnutzung und Verstetigung== | |||
Die fruchtbare Zusammenarbeit zwischen Geisteswissenschaftlern und Informatikern wurde in dem neuen interdisziplinären [https://www.uni-wuerzburg.de/zpd/startseite/ „Zentrum für Philologie und Digitalität Kallimachos“ (ZPD)] der Universität Würzburg verstetigt, für die auch ein Neubau bewilligt ist (geplante Fertigstellung 2023). | |||
Das OCR-Workflow-Tool [https://github.com/OCR4all OCR4all] schließt eine Lücke bei der Transkription alter Drucke, indem es die besten OCR-Methoden mit einem komfortablen Workflow mit Geisteswissenschaftlern als Zielgruppe kombiniert und hat auch außerhalb des Projektes bereits eine breite Akzeptanz für die Transkription alter Drucke gefunden. Es steht einschließlich Dokumentation und einführenden Tutorials auf der [https://www.uni-wuerzburg.de/zpd/ ZPD-Homepage] der Allgemeinheit zur Verfügung. | |||
Die neuartige stilometrische Toolbox zur Romananalyse wird ist ebenfalls [https://github.com/tsproisl/Linguistic_and_Stylistic_Complexity frei auf Github zugänglich]. | |||
Das umfangreiche Narragonien-Textkorpus mit zehn digital erschlossenen europäischen Narrenschiff-Ausgaben vor 1500 wird in seiner finalen Version Ende 2020 veröffentlicht. | |||
==Abschlussbericht== | |||
Eine eingehende Darstellung der zweiten Förderphase, basierend auf dem eingereichten Abschlussbericht, finden Sie [[Kallimachos_II_(Eingehende_Darstellung)|'''hier''']]. | |||
=Kontakt= | =Kontakt= | ||
| Zeile 137: | Zeile 170: | ||
<!--*Dr. [https://elmut.uni-wuerzburg.de/person/23791 Hans-Günter Schmidt] (Leiter der Universitätsbibliothek)--> | <!--*Dr. [https://elmut.uni-wuerzburg.de/person/23791 Hans-Günter Schmidt] (Leiter der Universitätsbibliothek)--> | ||
* Prof. Dr. [http://www.is.informatik.uni-wuerzburg.de/en/staff/puppe_frank/ Frank Puppe] (Projektleitung, [http://www.is.informatik.uni-wuerzburg.de/startseite/ Lehrstuhl für Informatik VI]) | * Prof. Dr. [http://www.is.informatik.uni-wuerzburg.de/en/staff/puppe_frank/ Frank Puppe] (Projektleitung, [http://www.is.informatik.uni-wuerzburg.de/startseite/ Lehrstuhl für Informatik VI]) | ||
*Dr. [https://elmut.uni-wuerzburg.de/person/916 Herbert Baier-Saip] ([https://wueaddress.uni-wuerzburg.de/oeh/43140000 | *Dr. [https://elmut.uni-wuerzburg.de/person/916 Herbert Baier-Saip] ([https://wueaddress.uni-wuerzburg.de/oeh/43140000 Zentrum für Philologie und Digitalität]) | ||
*[https://elmut.uni-wuerzburg.de/person/7302 Jonathan Gaede] ([https://wueaddress.uni-wuerzburg.de/oeh/43140000 | *[https://elmut.uni-wuerzburg.de/person/7302 Jonathan Gaede] M.A. ([https://wueaddress.uni-wuerzburg.de/oeh/43140000 Zentrum für Philologie und Digitalität]) | ||
---- | ---- | ||
| Zeile 152: | Zeile 185: | ||
{{LSKI}}--> | {{LSKI}}--> | ||
*Prof. Dr. [http://www.is.informatik.uni-wuerzburg.de/en/staff/puppe_frank/ Frank Puppe] ([http://www.is.informatik.uni-wuerzburg.de/startseite/ Lehrstuhl für Informatik VI]) | *Prof. Dr. [http://www.is.informatik.uni-wuerzburg.de/en/staff/puppe_frank/ Frank Puppe] ([http://www.is.informatik.uni-wuerzburg.de/startseite/ Lehrstuhl für Informatik VI]) | ||
* Prof. Dr. [http://www.is.informatik.uni-wuerzburg.de/staff/hotho Andreas Hotho] ([http://www.is.informatik.uni-wuerzburg.de/startseite/ Lehrstuhl für Informatik VI]) | * Prof. Dr. [http://www.is.informatik.uni-wuerzburg.de/staff/hotho Andreas Hotho] ([http://www.dmir.uni-wuerzburg.de/home/ DMIR]-Gruppe des [http://www.is.informatik.uni-wuerzburg.de/startseite/ Lehrstuhl für Informatik VI]) | ||
*[http://www.is.informatik.uni-wuerzburg.de/staff/reul_christian/ Christian Reul], M.Sc.([http://www.is.informatik.uni-wuerzburg.de/startseite/ Lehrstuhl für Informatik VI]) | * [http://www.dmir.uni-wuerzburg.de/staff/zehe/ Albin Zehe], M.Sc. ([http://www.dmir.uni-wuerzburg.de/home/ DMIR]-Gruppe des [http://www.is.informatik.uni-wuerzburg.de/startseite/ Lehrstuhl für Informatik VI]) | ||
*[http://www.is.informatik.uni-wuerzburg.de/staff/reul_christian/ Christian Reul], M.Sc.([http://www.is.informatik.uni-wuerzburg.de/startseite/ Lehrstuhl für Informatik VI], [https://wueaddress.uni-wuerzburg.de/oeh/43140000 Zentrum für Philologie und Digitalität]) | |||
*[http://www.is.informatik.uni-wuerzburg.de/staff/mkrug/ Markus Krug], M.Sc. ([http://www.is.informatik.uni-wuerzburg.de/startseite/ Lehrstuhl für Informatik VI]) | *[http://www.is.informatik.uni-wuerzburg.de/staff/mkrug/ Markus Krug], M.Sc. ([http://www.is.informatik.uni-wuerzburg.de/startseite/ Lehrstuhl für Informatik VI]) | ||
<!--<br clear=all> | <!--<br clear=all> | ||
| Zeile 162: | Zeile 196: | ||
{{AKS}}--> | {{AKS}}--> | ||
*[http://www1.informatik.uni-wuerzburg.de/mitarbeiterinnen/budig_benedikt/ Benedikt Budig], M.Sc. ([http://www.is.informatik.uni-wuerzburg.de/ Lehrstuhl für Informatik I]) | *[http://www1.informatik.uni-wuerzburg.de/mitarbeiterinnen/budig_benedikt/ Benedikt Budig], M.Sc. ([http://www.is.informatik.uni-wuerzburg.de/ Lehrstuhl für Informatik I]) | ||
*Dr. [http://www1.informatik.uni-wuerzburg.de/mitarbeiterinnen/dijk_thomas_van/ Thomas van Dijk]([http://www.is.informatik.uni-wuerzburg.de/ Lehrstuhl für Informatik I]) | *Dr. [http://www1.informatik.uni-wuerzburg.de/mitarbeiterinnen/dijk_thomas_van/ Thomas van Dijk] ([http://www.is.informatik.uni-wuerzburg.de/ Lehrstuhl für Informatik I]) | ||
<!--*[http://www.is.informatik.uni-wuerzburg.de/staff/reul_christian/ Christian Reul], M.Sc.([http://www.is.informatik.uni-wuerzburg.de/startseite/ Lehrstuhl für Informatik VI])--> | <!--*[http://www.is.informatik.uni-wuerzburg.de/staff/reul_christian/ Christian Reul], M.Sc.([http://www.is.informatik.uni-wuerzburg.de/startseite/ Lehrstuhl für Informatik VI])--> | ||
<!--<br clear=all> | <!--<br clear=all> | ||
| Zeile 198: | Zeile 232: | ||
{{Adresse Uebersetzer}}--> | {{Adresse Uebersetzer}}--> | ||
*Prof. Dr. [http://www.philosophie.uni-wuerzburg.de/institut/allelehrsthlefrphilosophie/profdrdagnikolaushasse/ Dag Nikolaus Hasse] ([http://www.philosophie.uni-wuerzburg.de/startseite/ Institut für Philosophie]) | *Prof. Dr. [http://www.philosophie.uni-wuerzburg.de/institut/allelehrsthlefrphilosophie/profdrdagnikolaushasse/ Dag Nikolaus Hasse] ([http://www.philosophie.uni-wuerzburg.de/startseite/ Institut für Philosophie]) | ||
*[https:// | *[https://www.philosophie.uni-wuerzburg.de/institut/allelehrsthlefrphilosophie/profdrdagnikolaushasse/andreas-buettner-ma/ Andreas Büttner], M.A. ([http://www.philosophie.uni-wuerzburg.de/startseite/ Institut für Philosophie]) | ||
*Jonathan Maier ([http://www.philosophie.uni-wuerzburg.de/startseite/ Institut für Philosophie])<!--<br clear=all> | *Jonathan Maier, B.A. ([http://www.philosophie.uni-wuerzburg.de/startseite/ Institut für Philosophie])<!--<br clear=all> | ||
---- | ---- | ||
===Projektgruppe ''Romangattungen''=== | ===Projektgruppe ''Romangattungen''=== | ||
| Zeile 231: | Zeile 265: | ||
--> | --> | ||
---- | ---- | ||
| Zeile 237: | Zeile 270: | ||
==Partner an der FAU Erlangen-Nürnberg== | ==Partner an der FAU Erlangen-Nürnberg== | ||
<!--{{PKL}}--> | <!--{{PKL}}--> | ||
*Prof. Dr. [http://www.stefan-evert.de/ Stefan Evert] (http://www.linguistik.uni-erlangen.de/index.shtml Professur für Korpuslinguistik) | *Prof. Dr. [http://www.stefan-evert.de/ Stefan Evert] ([http://www.linguistik.uni-erlangen.de/index.shtml Professur für Korpuslinguistik]) | ||
*[http://www.linguistik.uni-erlangen.de/wir-ueber-uns/personal.shtml/thomas-proisl.shtml Thomas Proisl], M.A. (http://www.linguistik.uni-erlangen.de/index.shtml Professur für Korpuslinguistik) | *[http://www.linguistik.uni-erlangen.de/wir-ueber-uns/personal.shtml/thomas-proisl.shtml Thomas Proisl], M.A. ([http://www.linguistik.uni-erlangen.de/index.shtml Professur für Korpuslinguistik]) | ||
---- | ---- | ||
| Zeile 269: | Zeile 302: | ||
*[http://www.romanistik.uni-wuerzburg.de/mitarbeiter/walter/ Viktoria Walter] | *[http://www.romanistik.uni-wuerzburg.de/mitarbeiter/walter/ Viktoria Walter] | ||
*[http://www.mediaevistik.germanistik.uni-wuerzburg.de/mitarbeiter/grundig_christine/ Christine Grundig], M.A. | *[http://www.mediaevistik.germanistik.uni-wuerzburg.de/mitarbeiter/grundig_christine/ Christine Grundig], M.A. | ||
===Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI)=== | ===Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI)=== | ||
*Prof. Dr. [http://www.dfki.de/~dengel/content/index_ger.html Andreas Dengel] | *Prof. Dr. [http://www.dfki.de/~dengel/content/index_ger.html Andreas Dengel] | ||
| Zeile 275: | Zeile 309: | ||
<headertabs /> | <headertabs /> | ||
{{Sprachauswahl|project description|Projektbeschreibung}} | {{Sprachauswahl|project description|Projektbeschreibung}} | ||
__NOTOC__ | |||
Aktuelle Version vom 15. Mai 2020, 14:04 Uhr