Philtag 13

Aus Kallimachos
(Weitergeleitet von Philtag)
Wechseln zu:Navigation, Suche
[bearbeiten]

 Ein Blick ins Publikum

<philtag n="13"/>

Am 25. und 26. Februar 2016 wurde unter der Leitung von KALLIMACHOS der 13. Workshop der Reihe <philtag/> abgehalten. Die etablierte Würzburger Tagungsreihe zum Einsatz digitaler Methoden in den Geistes- und Kulturwissenschaften bietet den Teilnehmern die Möglichkeit, sich über neue Trends, Projekte und Technologien im Bereich der Digital Humanities zu informieren und auszutauschen.

Tagungsbericht

Tag 1: Schwerpunkt OCR

Einen Themenschwerpunkt in diesem Jahr bildeten OCR-Verfahren, die am 1. Seminartag vorgestellt, diskutiert und praktisch erprobt wurden. Nach der Begrüßung und der Vorstellung des KALLIMACHOS-Projekts durch Dr. Hans-Günter Schmidt (UB Würzburg) folgte mit Dr. Uwe Springmann (CIS München) der erste Kurzvortrag zum Thema OCR von Inkunabeln. Galten diese lange als ungeeignet für die automatische Texterkennung, konnten inzwischen mithilfe neuer OCR-Ansätze auf der Basis neuronaler Netze erste Erfolge verzeichnet werden. Im anschließenden Vortrag stellte Dirk Wintergrün (MPIWG Berlin) die Bedeutung von OCR-Verfahren für die Erforschung wissenschaftlicher Überlieferungstraditionen und die Erfassung wissenschaftshistorischer Aktenbestände heraus. Elisa Herrmann (OCR-D Wolfenbüttel) stellte das Koordinationsprojekt OCR-D vor, dessen Ziel es ist, die Erfassung der Drucke des 16.-19. Jahrhunderts im deutschsprachigen Raum zu optimieren und künftige Förderlinien der DFG vorzubereiten. Dr. Syed Saqib Bukhari (DFKI Kaiserslautern) gewährte einen Einblick in das am DFKI entwickelte OCR-System OCRopus++, das Erkennungsgenauigkeiten auf historischen Drucken von über 98% verspricht, bevor Dr. Josep Lladós (CVC Barcelona) den ersten Vortragsblock mit einem Bericht über die automatisierte Informationsextraktion aus historischen Urkunden, Ehestandsverzeichnissen und weiteren genealogischen Quellen und die Nutzung der so erfassten Daten für die Rekonstruktion historischer sozialer Netzwerke abschloss.

 Dr. Uwe Springmann und Dr. Hans-Günther Schmidt im Gespräch  Vortrag Elisa Herrmann  Vortrag Josep Llados

Im Nachmittagsprogramm folgte der interaktive OCR-Workshop, bei dem die im Rahmen von KALLIMACHOS etablierten Arbeitsabläufe und Tools vorgestellt wurden und durch die Teilnehmerinnen und Teilnehmer auch ausprobiert werden konnten. Zunächst stellten Felix Kirchner und Marco Dittrich die Anforderungen an die Bilderfassung und -Vorverarbeitung sowie die zu beachtenden Spezifika der Glyphen und Typeninventare historischer Drucktexte vor. Prof. Dr. Frank Puppe und Christian Reul (Lehrstuhl Informatik VI Würzburg) präsentierten jüngste Erfolge bei der automatischen Segmentierung von Textblöcken. Benedikt Budig (Lehrstuhl Informatik I Würzburg) stellte das eigens entwickelte Tool Glyph Miner für die vereinfachte Extraktion von Glyphen vor, das von den Anwesenden begeistert aufgenommen wurde. Unter der Anleitung durch die studentischen Hilfskräfte Phillip Beckenbauer und Maximilian Nöth konnten die Teilnehmerinnen und Teilnehmer die Funktionsweise der Tools Aletheia und Franken++ kennenlernen, die der Vorbereitung von Glypheninventaren für das Training von Tesseract dienen. Der Workshop endete mit der Produktion und der anschließenden Validierung der OCR-Ergebnisse.

Der Ausklang erfolgte im Rahmen eines gemeinsamen Abendessens im Würzburger Bürgerspital, bei dem zu Speis und Trank die Eindrücke des ersten Seminartags (und mehr) lebhaft diskutiert und zahlreiche Kontakte geknüpft werden konnten.

Publikum  Vortrag Benedikt Budig  Vortrag Benedikt Budig


Tag 2: Schwerpunkt Textmining

Der 2. Seminartag behandelte aktuelle Digital Humanities-Projekte in Würzburg mit besonderem Schwerpunkt auf Textmining-Verfahren. Zunächst erläuterte Stefan Evert (FAU Erlangen-Nürnberg) die statistischen Grundlagen des stilometrischen Abstandsmaßes Burrow´s Delta, das sich v.a. für automatische Autorschaftsattribution bewährt hat. Darauf aufbauend stellte Andreas Büttner das KALLIMACHOS-Teilprojekt Identifikation von Übersetzern vor, in dem Delta eingesetzt wird, um bislang anonyme lateinische Übersetzer von arabischen philosophischen Texten des 12. Jahrhunderts zu ermitteln. Daniel Schlör, Stefanie Popp und Christof Schöch (Nachwuchsgruppe CLiGS) befassten sich mit der Problematik der Erkennung wörtlicher Rede in französischsprachigen Romanen. Da hier für gewöhnlich keine Anführungszeichen verwendet werden, muss die wörtliche Rede anhand anderer Merkmale erkannt werden; die Projektgruppe setzt hierzu auf Verfahren des maschinellen Lernens. Markus Krug stellte die Methoden und erste Ergebnisse des KALLIMACHOS-Teilprojekts Leserlenkung in Bezug auf Romanfiguren vor. Hier werden Romanfiguren automatisch annotiert und die gewonnenen Informationen zur Erstellung von Figurennetzwerken verwendet. Dabei sollen neben Eigennamen auch Koreferenzen, z.B. durch Pronomina, korrekt erkannt werden. Abschließend erläuterte Isabella Reger (KALLIMACHOS-AG Narrative Techniken), wie im Rahmen einer Sentimentanalyse der Stimmungsverlauf in einem Romantext erkannt werden kann und wie diese Information zur Klassifizierung literarischer Gattungen genutzt werden kann.

Fazit

Angesichts der Publikumsstärke von zeitweise knapp 80 Personen, der intensiven, konzentrierten Arbeitsatmosphäre und des großen Zuspruchs aller Teilnehmerinnen und Teilnehmer darf der 13. <philtag> als voller Erfolg gelten. Wir bedanken uns sehr herzlich sowohl bei den engagierten Rednerinnen und Rednern als auch beim Publikum für die zahlreiche Anregungen und die aktive Teilnahme am Tagungsprogramm. Wir freuen uns darauf, Sie bald wieder bei uns begrüßen zu dürfen.

Tag 1: Schwerpunkt OCR

ca. 10:00 Registrierung und Begrüßung
10:15-12:30 Kurzvorträge:
10:15-10:30 Hans-Günter Schmidt: KALLIMACHOS und PhilTag, Organisatorisches
10:30-10:50 Uwe Springmann (CIS München): OCR von Inkunabeln: Herausforderungen und Herangehensweisen
10:50-11:10 Dirk Wintergrün (MPIWG Berlin): Von Handarbeit zur Massenware - OCR als Grundlage für die Forschung in der Wissenschaftsgeschichte
11:10-11:30 Elisa Herrmann (OCR-D Wolfenbüttel): OCR-D: Koordinierungsprojekt zur Weiterentwicklung von OCR-Verfahren
11:30-11:50 Kaffeepause
11:50-12:10 Syed Saqib Bukhari (DFKI Kaiserslautern): OCRopus++: A High performance OCR System For Medieval Documents
12:10-12:30 Josep Lladós (CVC Barcelona): Social networks of the past: information extraction from historical demographic documents
12:30-13:30 Mittagspause
13:30-16:30 OCR-Workshop: Praktische Vorstellung der am Würzburger Digitalisierungszentrum etablierten Tools und Arbeitsschritte zur OCR in frühneuzeitlichen Drucken
13:30-13:40 Begrüßung, Vorstellung der Grundproblematik
13:40-14:45 Segmentierung, Glyphen, Typeninventare
14:45-15:00 Kaffeepause
15:00-16:00 OCR-Training mit Aletheia und Franken+
16:00-16:30 Validierung von OCR-Ergebnissen
16:30-17:00 Zusammenfassung Tag 1, Abschlussdiskussion
ab 19:30 Abendessen im Restaurant Bürgerspital

Tag 2: Schwerpunkt Textmining

9:00-9:30 Stefan Evert, Thomas Proisl (FAU Nürnberg): Burrows’s Delta verstehen
9:30-10:00 Andreas Büttner, Thomas Proisl (AG Identifikation von Übersetzern): Delta und Merkmalsselektion: Welche Wörter unterscheiden arabisch-lateinische Übersetzer?
10:00-10:30 Kaffeepause
10:30-11:00 Daniel Schlör, Stefanie Popp, Christof Schöch (Nachwuchsgruppe CLiGS): Direkte Rede im französischen Roman: Automatische Erkennung und gattungsabhängige Verteilungen
11:00-11:30 Markus Krug ( AG Romanfiguren): Figuren und ihre Beziehungen in Romanen
11:30-12:00 Kaffeepause
12:00-12:30 Lena Hettinger, Isabella Reger ( AG Narrative Techniken): Mit Sentimentanalyse zum Happy End? Experimente zur Klassifikation literarischer Gattungen

Tagungsplan

Abstracts und Präsentationen

Tag 1: Schwerpunkt OCR

  • Uwe Springmann: OCR von Inkunabeln: Herausforderungen und Herangehensweisen.
  • Elisa Herrmann:OCR-D: Koordinierungsprojekt zur Weiterentwicklung von OCR-Verfahren.
  • Josep Lladós: Social networks of the past: information extraction from historical demographic documents.
  • Dirk Wintergrün (MPIWG Berlin): Von Handarbeit zur Massenware - OCR als Grundlage für die Forschung in der Wissenschaftsgeschichte.
  • Syed Saqib Bukhari (DFKI Kaiserslautern): OCRopus++: A High performance OCR System For Medieval Documents.
  • Marco Dittrich, Felix Kirchner (JMU Würzburg): Begleitende Präsentation zum OCR-Workshop.
  • Christian Reul (JMU Würzburg): Segmentierung von historischen Drucken.
  • Benedikt Budig (JMU Würzburg): Erstellung von Typeninventaren mit Glyph Miner.
  • Phillip Beckenbauer (JMU Würzburg): Extraktion von Glyphen mit Aletheia.
  • Maximilian Nöth (JMU Würzburg): Erstellen von Trainingsdaten mit Franken+.

Tag 2: Schwerpunkt Textmining

  • Stefan Evert,Thomas Proisl (FAU Nürnberg): Burrows’s Delta verstehen.
  • Andreas Büttner, Thomas Proisl (AG Identifikation von Übersetzern): Delta und Merkmalsselektion: Welche Wörter unterscheiden arabisch-lateinische Übersetzer?
  • Daniel Schlör, Stefanie Popp, Christof Schöch (Nachwuchsgruppe CLiGS): Direkte Rede im französischen Roman: Automatische Erkennung und gattungsabhängige Verteilungen.
  • Lena Hettinger, Isabella Reger (AG Romangattungen): Mit Sentimentanalyse zum Happy End? Experimente zur Klassifikation literarischer Gattungen.

Software und Daten für den OCR-Workshop

(Sämtliche Software erfordert Windows 7 oder höher)

Language: Union Jack  Flagge der BRD