Romanfiguren

Aus Kallimachos
Wechseln zu:Navigation, Suche
[bearbeiten]

 Darstellung eines Netzwerks von insgesamt 10 Romanfiguren. Deutlich erkennbar sind die beiden Hauptfiguren Eduard und Charlotte in der Mitte und ihre intensive Beziehung.

Leserlenkung in Bezug auf Romanfiguren

Auf der Grundlage des Roman- und des Dramenkorpus soll die Leserlenkung in Bezug auf die Figuren ermittelt werden. Ausgangspunkt ist die Ermittlung der Figuren durch Techniken der Named Entity Recognition (NER) einschließlich Koreferenz-Auflösung. Auf dieser Grundlage kann eine Sentiment Analysis vorgenommen werden, mit der die expliziten positiven oder negativen Bewertungen der Figuren ermittelt werden können. Die Ergebnisse sind insbesondere in literaturgeschichtlicher Perspektive relevant. Auch für diesen Use Case ist die Signifikanzüberprüfung und menschliche Interpretation der z.T. fehlerbehafteten automatischen Auswertungen unerlässlich.

Informatische Optimierungsansätze betreffen u.a. statistische Modelle für die Verbesserung einzelner Teilschritte, Distributional Clustering für halbüberwachtes Lernen relevanter Begriffsbeziehungen und die Nutzung einer Sentimentressource für das Deutsche. Dabei werden bereits vorhandene Ansätze und Implementierungen der Würzburger Arbeitsgruppen und der Professur für Korpuslinguistik (Erlangen-Nürnberg) miteinander kombiniert.

Arbeitsgrundlage

Ein weiteres Figurennetzwerk

Die Datengrundlage bilden deutschsprachige Romane aus dem 19. Jahrhundert. Diese stammen hauptsächlich aus Quellen wie der Digitalen Bibliothek von TextGrid oder dem Projekt Gutenberg. Die Erhebung von Metadaten sowie die Annotation von Texten zur Entwicklung und Evaluation neuer Methoden stehen ebenfalls im Fokus.

Im Rahmen dieses Teilprojekts wurde ein Korpus zusammengestellt, das aus Abschnitten aus je 130 zusammenhängenden Sätzen aus ca. 90 deutschsprachigen Romanen besteht. Diese Texte enthalten manuelle Annotationen zu Named Entities sowie Koreferenzen. Eine Veröffentlichung dieses Goldstandards ist geplant.

Annotationseditor

Zur Erleichterung und Beschleunigung der manuellen Annotation wurde ein Editor entwickelt, der anhand von Regeln bereits potentielle Named Entities vorschlägt, die durch den Annotator akzeptiert oder korrigiert werden können. Auch der Umstand, dass die Textauszeichnung mittels einer komfortablen graphischen Benutzeroberfläche vergenommen werden kann, erleichtert diese Arbeit deutlich.

Named Entity Recognition

Die Verarbeitung von literarischen Texten erfordert eine erweiterte Definition von Named Entity, die neben tatsächlichen Namen auch Appellativa wie Berufs- oder Verwandtschaftsbezeichnungen mit einbezieht. Aus diesem Grund erreichen bestehende NER-Systeme keine ausreichende Genauigkeit. Daher wurde mit Hilfe eines Machine Learning Classifiers unter Einbeziehung von word2vec-Features auf Basis des Goldstandards ein Modell entwickelt, das inzwischen einen F1-score von 89,98% erreicht. Die hierfür genutzte Software, zur Benutzung in Kombination mit DKPro, ist auf GitHub verfügbar.

Koreferenzauflösung

Wie auch bei der NER führen bestimmte Eigenschaften literarischer Texte, wie der größere Anteil direkter Rede oder die erhöhte Häufigkeit von Pronomen, dazu, dass existierende Systeme zur Koreferenzauflösung keine zufriedenstellenden Ergebnisse liefern: Eigennamen lassen sich zwar mit einiger Zuverlässigkeit erkennen, weitere auf die Figur bezogene Bezeichnungen und Pronomen aber zunehmend schwieriger. Daher wurde in Anlehnung an einen Ansatz aus Stanford ein regelbasiertes System entwickelt, das speziell auf die Besonderheiten literarischer Texte eingeht.

Ausblick

Im weiteren Fokus der Arbeit stehen die Erkennung von wörtlicher Rede und die entsprechende Zuordnung von Sprecher und Angesprochenem, die Beschäftigung mit Figurennetzwerken und der Klassifikation von Beziehungen zwischen Figuren, sowie die automatische Charakterisierung von Figuren anhand der ihnen zugeordneten Attribute.

Verträge und Aufsätze

  • Jannidis, F., Krug, M., Reger, I. Toepfer, M., Weimer, L., Puppe, F. 2015. Automatische Erkennung von Figuren in deutschsprachigen Romanen. DHd-Tagung 2015, Graz.
  • Krug M., Puppe F., Jannidis F., Reger, I., Macharowsky L., Weimer, L. 2015. Rule-based Coreference Resolution in German Historic Novels. In Proceedings of the Fourth Workshop on Computational Linguistics for Literature, Denver, CO. http://www.aclweb.org/anthology/W15-0711

Downloads

  • Eine Named-Entity-Recognition-Komponente für deutschsprachige Romane, zur Benutzung in Kombination mit DKPro, ist auf GitHub verfügbar.

Projektgruppe Romanfiguren




Am Hubland, Bau 8

D-97074 Würzburg

Tel.: 0931-31 88421

E-Mail
  • Lukas Weimer
  • Stephan Feldhaus



Technische Partner


Digitalisierungszentrum

Am Hubland

D-97074 Würzburg

Telefon: 0931/31-80534

E-mail