Philtag 13 (english)

<philtag n="13"/>

From 25. - 26. February 2016, the 13th <philtag/>-workshop was hosted by KALLIMACHOS. Würzburg University´s well-established conference series concerning the use of digital methods in the humanties offers the opportunity for exchange and orientation about current trends, projects and technologies in the growing field of Digital Humanities.

[bearbeiten]

Conference report

Day 1: OCR

A key subject at the 13th philtag were OCR methods, which were presented, discussed and tried out at the first day of the 2016 conventention. After the greeting by Dr. Hans-Günter Schmidt and a short introduction into the KALLIMACHOS project, the first lecture by Dr. Uwe Springmann (CIS München) covered the topic OCR of incunabula. Although these texts were viewed as not suitable for automated text recognition thus far, recently, new methods and approaches based on artificial neural networks have emerged. Subsequently, Dirk Wintergrün (MPIWG Berlin) highlighted the importance of OCR methods for the research of academic heritage transmission and capturing of scientific records. Elisa Herrmann (OCR-D Wolfenbüttel) presented the new coordinative project OCR-D, which intends to optimize the recognition of german printings from 16th to 19th century and to prepare new DFG funding lines. Dr. Syed Saqib Bukhari (DFKI Kaiserslautern) granted a glance at the new OCR-System OCRopus++ developed at the DFKI, which anticipates recognition rates of 98% and higher for historical printings. Afterwards, Dr. Josep Lladós (CVC Barcelona) concluded the first block of lectures with a report about the automated extraction of written information from historical documents, marriage records and other genealogical sources and the utilization of the captured data for the reconstruction of historical social networks.

Dr. Uwe Springmann and Dr. Hans-Günther Schmidt Presentation by Elisa Herrmanns Presentation by Josep Llados

The afternoon program consisted of an OCR-themed interactive workshop: The workflows and tools used and/or developed by KALLIMACHOS were not only presented, but the attendees also got the opportunity to try them out by themselves. First, Felix Kirchner and Marco Dittrich discussed the requirements and challenges of image capturing and preprocessing and the specifics of the fonts, types and glyphs used in historical documents. Prof. Dr. Frank Puppe and Christian Reul (Lehrstuhl Informatik VI Würzburg) [...]

Im Nachmittagsprogramm folgte der interaktive OCR-Workshop, bei dem die im Rahmen von KALLIMACHOS etablierten Arbeitsabläufe und Tools vorgestellt wurden und durch die Teilnehmerinnen und Teilnehmer auch ausprobiert werden konnten. Zunächst stellten Felix Kirchner und Marco Dittrich die Anforderungen an die Bilderfassung und -Vorverarbeitung sowie die zu beachtenden Spezifika der Glyphen und Typeninventare historischer Drucktexte vor. Prof. Dr. Frank Puppe und Christian Reul (Lehrstuhl Informatik VI Würzburg) präsentierten jüngste Erfolge bei der automatischen Segmentierung von Textblöcken. Benedikt Budig (Lehrstuhl Informatik I Würzburg) stellte das eigens entwickelte Tool Glyph Miner für die vereinfachte Extraktion von Glyphen vor, das von den Anwesenden begeistert aufgenommen wurde. Unter der Anleitung durch die studentischen Hilfskräfte Phillip Beckenbauer und Maximilian Nöth konnten die Teilnehmerinnen und Teilnehmer die Funktionsweise der Tools Aletheia und Franken++ kennenlernen, die der Vorbereitung von Glypheninventaren für das Training von Tesseract dienen. Der Workshop endete mit der Produktion und der anschließenden Validierung der OCR-Ergebnisse.

Der Ausklang erfolgte im Rahmen eines gemeinsamen Abendessens im Würzburger Bürgerspital, bei dem zu Speis und Trank die Eindrücke des ersten Seminartags (und mehr) lebhaft diskutiert und zahlreiche Kontakte geknüpft werden konnten.

Publikum Vortrag Benedikt Budig

Day 2: Textmining

Der 2. Seminartag behandelte aktuelle Digital Humanities-Projekte in Würzburg mit besonderem Schwerpunkt auf Textmining-Verfahren. Zunächst erläuterte Stefan Evert (FAU Erlangen-Nürnberg) die statistischen Grundlagen des stilometrischen Abstandsmaßes Burrow´s Delta, das sich v.a. für automatische Autorschaftsattribution bewährt hat. Darauf aufbauend stellte Andreas Büttner das KALLIMACHOS-Teilprojekt Identifikation von Übersetzern vor, in dem Delta eingesetzt wird, um bislang anonyme lateinische Übersetzer von arabischen philosophischen Texten des 12. Jahrhunderts zu ermitteln. Daniel Schlör, Stefanie Popp und Christof Schöch (Nachwuchsgruppe CLiGS) befassten sich mit der Problematik der Erkennung wörtlicher Rede in französischsprachigen Romanen. Da hier für gewöhnlich keine Anführungszeichen verwendet werden, muss die wörtliche Rede anhand anderer Merkmale erkannt werden; die Projektgruppe setzt hierzu auf Verfahren des maschinellen Lernens. Markus Krug stellte die Methoden und erste Ergebnisse des KALLIMACHOS-Teilprojekts Leserlenkung in Bezug auf Romanfiguren vor. Hier werden Romanfiguren automatisch annotiert und die gewonnenen Informationen zur Erstellung von Figurennetzwerken verwendet. Dabei sollen neben Eigennamen auch Koreferenzen, z.B. durch Pronomina, korrekt erkannt werden. Abschließend erläuterte Isabella Reger (KALLIMACHOS-AG Narrative Techniken), wie im Rahmen einer Sentimentanalyse der Stimmungsverlauf in einem Romantext erkannt werden kann und wie diese Information zur Klassifizierung literarischer Gattungen genutzt werden kann.

Conclusion

Angesichts der Publikumsstärke von zeitweise knapp 80 Personen, der intensiven, konzentrierten Arbeitsatmosphäre und des großen Zuspruchs aller Teilnehmerinnen und Teilnehmer darf der 13. <philtag> als voller Erfolg gelten. Wir bedanken uns sehr herzlich sowohl bei den engagierten Rednerinnen und Rednern als auch beim Publikum für die zahlreiche Anregungen und die aktive Teilnahme am Tagungsprogramm. Wir freuen uns darauf, Sie bald wieder bei uns begrüßen zu dürfen.

[bearbeiten]

Day 1: OCR

ca. 10:00	Registrierung und Begrüßung
10:15-12:30	Kurzvorträge:
10:15-10:30	Hans-Günter Schmidt: KALLIMACHOS und PhilTag, Organisatorisches
10:30-10:50	Uwe Springmann (CIS München): OCR von Inkunabeln: Herausforderungen und Herangehensweisen
10:50-11:10	Dirk Wintergrün (MPIWG Berlin): Von Handarbeit zur Massenware - OCR als Grundlage für die Forschung in der Wissenschaftsgeschichte
11:10-11:30	Elisa Herrmann (OCR-D Wolfenbüttel): OCR-D: Koordinierungsprojekt zur Weiterentwicklung von OCR-Verfahren
11:30-11:50	Kaffeepause
11:50-12:10	Syed Saqib Bukhari (DFKI Kaiserslautern): OCRopus++: A High performance OCR System For Medieval Documents
12:10-12:30	Josep Lladós (CVC Barcelona): Social networks of the past: information extraction from historical demographic documents
12:30-13:30	Mittagspause
13:30-16:30	OCR-Workshop: Praktische Vorstellung der am Würzburger Digitalisierungszentrum etablierten Tools und Arbeitsschritte zur OCR in frühneuzeitlichen Drucken
13:30-13:40	Begrüßung, Vorstellung der Grundproblematik
13:40-14:45	Segmentierung, Glyphen, Typeninventare
14:45-15:00	Kaffeepause
15:00-16:00	OCR-Training mit Aletheia und Franken+
16:00-16:30	Validierung von OCR-Ergebnissen
16:30-17:00	Zusammenfassung Tag 1, Abschlussdiskussion
ab 19:30	Abendessen im Restaurant Bürgerspital

Day 2: Textmining

9:00-9:30	Stefan Evert,Thomas Proisl (FAU Nürnberg): Burrows’s Delta verstehen
9:30-10:00	Andreas Büttner, Thomas Proisl (AG Identifikation von Übersetzern): Delta und Merkmalsselektion: Welche Wörter unterscheiden arabisch-lateinische Übersetzer?
10:00-10:30	Kaffeepause
10:30-11:00	Daniel Schlör, Stefanie Popp, Christof Schöch (Nachwuchsgruppe CLiGS): Direkte Rede im französischen Roman: Automatische Erkennung und gattungsabhängige Verteilungen
11:00-11:30	Markus Krug ( AG Romanfiguren): Figuren und ihre Beziehungen in Romanen
11:30-12:00	Kaffeepause
12:00-12:30	Lena Hettinger, Isabella Reger ( AG Narrative Techniken): Mit Sentimentanalyse zum Happy End? Experimente zur Klassifikation literarischer Gattungen

Der Tagungsplan als Download

[bearbeiten]

Schedule

Der Tagungsplan als Download

Abstracts and Presentations

Day 1: OCR

Uwe Springmann: OCR von Inkunabeln: Herausforderungen und Herangehensweisen
- Abstract
- Präsentation
Elisa Herrmann:OCR-D: Koordinierungsprojekt zur Weiterentwicklung von OCR-Verfahren
- Abstract
- Präsentation
Josep Lladós: Social networks of the past: information extraction from historical demographic documents
- Abstract
Dirk Wintergrün (MPIWG Berlin): Von Handarbeit zur Massenware - OCR als Grundlage für die Forschung in der Wissenschaftsgeschichte
- Abstract
Syed Saqib Bukhari (DFKI Kaiserslautern): OCRopus++: A High performance OCR System For Medieval Documents
- Abstract
- Präsentation
Marco Dittrich, Felix Kirchner (JMU Würzburg): Begleitende Präsentation zum OCR-Workshop
- Präsentation
Christian Reul (JMU Würzburg): Segmentierung von historischen Drucken
- Abstract
Benedikt Budig (JMU Würzburg): Erstellung von Typeninventaren mit Glyph Miner
- Abstract
Phillip Beckenbauer (JMU Würzburg): Extraktion von Glyphen mit Aletheia
- Vortrag und Übung
Maximilian Nöth (JMU Würzburg): Erstellen von Trainingsdaten mit Franken+
- Vortrag und Übung

Day 2: Textmining

Stefan Evert,Thomas Proisl (FAU Nürnberg): Burrows’s Delta verstehen
- Abstract
- Präsentation
Andreas Büttner, Thomas Proisl (AG Identifikation von Übersetzern): Delta und Merkmalsselektion: Welche Wörter unterscheiden arabisch-lateinische Übersetzer?
- Abstract
- Präsentation
Daniel Schlör, Stefanie Popp, Christof Schöch (Nachwuchsgruppe CLiGS): Direkte Rede im französischen Roman: Automatische Erkennung und gattungsabhängige Verteilungen
- Abstract
- Präsentation
Lena Hettinger, Isabella Reger (AG Romangattungen): Mit Sentimentanalyse zum Happy End? Experimente zur Klassifikation literarischer Gattungen
- Abstract
- Präsentation

Software and Data for the OCR workshop

(Sämtliche Software erfordert Windows 7 oder höher)