<philtag n="13"/>
Am 25. und 26. Februar 2016 wurde unter der Leitung von KALLIMACHOS der 13. Workshop der Reihe <philtag/> abgehalten. Die etablierte Würzburger Tagungsreihe zum Einsatz digitaler Methoden in den Geistes- und Kulturwissenschaften bietet den Teilnehmern die Möglichkeit, sich über neue Trends, Projekte und Technologien im Bereich der Digital Humanities zu informieren und auszutauschen.
Tagungsbericht
Tag 1: Schwerpunkt OCR
Einen Themenschwerpunkt in diesem Jahr bildeten OCR-Verfahren, die am 1. Seminartag vorgestellt, diskutiert und praktisch erprobt wurden. Nach der Begrüßung und der Vorstellung des KALLIMACHOS-Projekts durch Dr. Hans-Günter Schmidt (UB Würzburg) folgte mit Dr. Uwe Springmann (CIS München) der erste Kurzvortrag zum Thema OCR von Inkunabeln. Galten diese lange als ungeeignet für die automatische Texterkennung, konnten inzwischen mithilfe neuer OCR-Ansätze auf der Basis neuronaler Netze erste Erfolge verzeichnet werden. Im anschließenden Vortrag stellte Dirk Wintergrün (MPIWG Berlin) die Bedeutung von OCR-Verfahren für die Erforschung wissenschaftlicher Überlieferungstraditionen und die Erfassung wissenschaftshistorischer Aktenbestände heraus. Elisa Herrmann (OCR-D Wolfenbüttel) stellte das Koordinationsprojekt OCR-D vor, dessen Ziel es ist, die Erfassung der Drucke des 16.-19. Jahrhunderts im deutschsprachigen Raum zu optimieren und künftige Förderlinien der DFG vorzubereiten. Dr. Syed Saqib Bukhari (DFKI Kaiserslautern) gewährte einen Einblick in das am DFKI entwickelte OCR-System OCRopus++, das Erkennungsgenauigkeiten auf historischen Drucken von über 98% verspricht, bevor Dr. Josep Lladós (CVC Barcelona) den ersten Vortragsblock mit einem Bericht über die automatisierte Informationsextraktion aus historischen Urkunden, Ehestandsverzeichnissen und weiteren genealogischen Quellen und die Nutzung der so erfassten Daten für die Rekonstruktion historischer sozialer Netzwerke abschloss.
Im Nachmittagsprogramm folgte der interaktive OCR-Workshop, bei dem die im Rahmen von KALLIMACHOS etablierten Arbeitsabläufe und Tools vorgestellt wurden und durch die Teilnehmerinnen und Teilnehmer auch ausprobiert werden konnten. Zunächst stellten Felix Kirchner und Marco Dittrich die Anforderungen an die Bilderfassung und -Vorverarbeitung sowie die zu beachtenden Spezifika der Glyphen und Typeninventare historischer Drucktexte vor. Prof. Dr. Frank Puppe und Christian Reul (Lehrstuhl Informatik VI Würzburg) präsentierten jüngste Erfolge bei der automatischen Segmentierung von Textblöcken. Benedikt Budig (Lehrstuhl Informatik I Würzburg) stellte das eigens entwickelte Tool Glyph Miner für die vereinfachte Extraktion von Glyphen vor, das von den Anwesenden begeistert aufgenommen wurde. Unter der Anleitung durch die studentischen Hilfskräfte Phillip Beckenbauer und Maximilian Nöth konnten die Teilnehmerinnen und Teilnehmer die Funktionsweise der Tools Aletheia und Franken++ kennenlernen, die der Vorbereitung von Glypheninventaren für das Training von Tesseract dienen. Der Workshop endete mit der Produktion und der anschließenden Validierung der OCR-Ergebnisse.
Der Ausklang erfolgte im Rahmen eines gemeinsamen Abendessens im Würzburger Bürgerspital, bei dem zu Speis und Trank die Eindrücke des ersten Seminartags (und mehr) lebhaft diskutiert und zahlreiche Kontakte geknüpft werden konnten.
Tag 2: Schwerpunkt Textmining
Der 2. Seminartag behandelte aktuelle Digital Humanities-Projekte in Würzburg mit besonderem Schwerpunkt auf Textmining-Verfahren. Zunächst erläuterte Stefan Evert (FAU Erlangen-Nürnberg) die statistischen Grundlagen des stilometrischen Abstandsmaßes Burrow´s Delta, das sich v.a. für automatische Autorschaftsattribution bewährt hat. Darauf aufbauend stellte Andreas Büttner das KALLIMACHOS-Teilprojekt Identifikation von Übersetzern vor, in dem Delta eingesetzt wird, um bislang anonyme lateinische Übersetzer von arabischen philosophischen Texten des 12. Jahrhunderts zu ermitteln. Daniel Schlör, Stefanie Popp und Christof Schöch (Nachwuchsgruppe CLiGS) befassten sich mit der Problematik der Erkennung wörtlicher Rede in französischsprachigen Romanen. Da hier für gewöhnlich keine Anführungszeichen verwendet werden, muss die wörtliche Rede anhand anderer Merkmale erkannt werden; die Projektgruppe setzt hierzu auf Verfahren des maschinellen Lernens. Markus Krug stellte die Methoden und erste Ergebnisse des KALLIMACHOS-Teilprojekts Leserlenkung in Bezug auf Romanfiguren vor. Hier werden Romanfiguren automatisch annotiert und die gewonnenen Informationen zur Erstellung von Figurennetzwerken verwendet. Dabei sollen neben Eigennamen auch Koreferenzen, z.B. durch Pronomina, korrekt erkannt werden. Abschließend erläuterte Isabella Reger (KALLIMACHOS-AG Narrative Techniken), wie im Rahmen einer Sentimentanalyse der Stimmungsverlauf in einem Romantext erkannt werden kann und wie diese Information zur Klassifizierung literarischer Gattungen genutzt werden kann.
Fazit
Angesichts der Publikumsstärke von zeitweise knapp 80 Personen, der intensiven, konzentrierten Arbeitsatmosphäre und des großen Zuspruchs aller Teilnehmerinnen und Teilnehmer darf der 13. <philtag> als voller Erfolg gelten. Wir bedanken uns sehr herzlich sowohl bei den engagierten Rednerinnen und Rednern als auch beim Publikum für die zahlreiche Anregungen und die aktive Teilnahme am Tagungsprogramm. Wir freuen uns darauf, Sie bald wieder bei uns begrüßen zu dürfen.
Tag 1: Schwerpunkt OCR
ca. 10:00 | Registrierung und Begrüßung |
10:15-12:30 | Kurzvorträge: |
10:15-10:30 | Hans-Günter Schmidt: KALLIMACHOS und PhilTag, Organisatorisches |
10:30-10:50 | Uwe Springmann (CIS München): OCR von Inkunabeln: Herausforderungen und Herangehensweisen |
10:50-11:10 | Dirk Wintergrün (MPIWG Berlin): Von Handarbeit zur Massenware - OCR als Grundlage für die Forschung in der Wissenschaftsgeschichte |
11:10-11:30 | Elisa Herrmann (OCR-D Wolfenbüttel): OCR-D: Koordinierungsprojekt zur Weiterentwicklung von OCR-Verfahren |
11:30-11:50 | Kaffeepause |
11:50-12:10 | Syed Saqib Bukhari (DFKI Kaiserslautern): OCRopus++: A High performance OCR System For Medieval Documents |
12:10-12:30 | Josep Lladós (CVC Barcelona): Social networks of the past: information extraction from historical demographic documents |
12:30-13:30 | Mittagspause |
13:30-16:30 | OCR-Workshop: Praktische Vorstellung der am Würzburger Digitalisierungszentrum etablierten Tools und Arbeitsschritte zur OCR in frühneuzeitlichen Drucken |
13:30-13:40 | Begrüßung, Vorstellung der Grundproblematik |
13:40-14:45 | Segmentierung, Glyphen, Typeninventare |
14:45-15:00 | Kaffeepause |
15:00-16:00 | OCR-Training mit Aletheia und Franken+ |
16:00-16:30 | Validierung von OCR-Ergebnissen |
16:30-17:00 | Zusammenfassung Tag 1, Abschlussdiskussion |
ab 19:30 | Abendessen im Restaurant Bürgerspital |
Tag 2: Schwerpunkt Textmining
9:00-9:30 | Stefan Evert, Thomas Proisl (FAU Nürnberg): Burrows’s Delta verstehen |
9:30-10:00 | Andreas Büttner, Thomas Proisl (AG Identifikation von Übersetzern): Delta und Merkmalsselektion: Welche Wörter unterscheiden arabisch-lateinische Übersetzer? |
10:00-10:30 | Kaffeepause |
10:30-11:00 | Daniel Schlör, Stefanie Popp, Christof Schöch (Nachwuchsgruppe CLiGS): Direkte Rede im französischen Roman: Automatische Erkennung und gattungsabhängige Verteilungen |
11:00-11:30 | Markus Krug ( AG Romanfiguren): Figuren und ihre Beziehungen in Romanen |
11:30-12:00 | Kaffeepause |
12:00-12:30 | Lena Hettinger, Isabella Reger ( AG Narrative Techniken): Mit Sentimentanalyse zum Happy End? Experimente zur Klassifikation literarischer Gattungen |
Tagungsplan
Abstracts und Präsentationen
Tag 1: Schwerpunkt OCR
- Uwe Springmann: OCR von Inkunabeln: Herausforderungen und Herangehensweisen.
- Elisa Herrmann:OCR-D: Koordinierungsprojekt zur Weiterentwicklung von OCR-Verfahren.
- Josep Lladós: Social networks of the past: information extraction from historical demographic documents.
- Dirk Wintergrün (MPIWG Berlin): Von Handarbeit zur Massenware - OCR als Grundlage für die Forschung in der Wissenschaftsgeschichte.
- Syed Saqib Bukhari (DFKI Kaiserslautern): OCRopus++: A High performance OCR System For Medieval Documents.
- Marco Dittrich, Felix Kirchner (JMU Würzburg): Begleitende Präsentation zum OCR-Workshop.
- Christian Reul (JMU Würzburg): Segmentierung von historischen Drucken.
- Benedikt Budig (JMU Würzburg): Erstellung von Typeninventaren mit Glyph Miner.
- Phillip Beckenbauer (JMU Würzburg): Extraktion von Glyphen mit Aletheia.
- Maximilian Nöth (JMU Würzburg): Erstellen von Trainingsdaten mit Franken+.
Tag 2: Schwerpunkt Textmining
- Stefan Evert,Thomas Proisl (FAU Nürnberg): Burrows’s Delta verstehen.
- Andreas Büttner, Thomas Proisl (AG Identifikation von Übersetzern): Delta und Merkmalsselektion: Welche Wörter unterscheiden arabisch-lateinische Übersetzer?
- Daniel Schlör, Stefanie Popp, Christof Schöch (Nachwuchsgruppe CLiGS): Direkte Rede im französischen Roman: Automatische Erkennung und gattungsabhängige Verteilungen.
- Lena Hettinger, Isabella Reger (AG Romangattungen): Mit Sentimentanalyse zum Happy End? Experimente zur Klassifikation literarischer Gattungen.
Software und Daten für den OCR-Workshop
- PRImA Aletheia Lite
- EMOP Franken+
- VietOCR
- Andron Scriptor Web (MUFI TrueType Font)
- Installationshinweise (PDF)
- Aletheia und Franken+ Beispiele (ZIP)
(Sämtliche Software erfordert Windows 7 oder höher)