Romanfiguren: Unterschied zwischen den Versionen

Aus Kallimachos
Wechseln zu:Navigation, Suche
(Projektgruppe Leserlenkung in Bezug auf Romanfiguren)
(Der Seiteninhalt wurde durch einen anderen Text ersetzt: „{{Romanfiguren:Main}}“)
 
Zeile 1: Zeile 1:
=Romanfiguren=
+
{{Romanfiguren:Main}}
[[File:LeselenkungFigurenMainImage.png | 600px | link= | alt= Darstellung eines Netzwerks von insgesamt 10 Romanfiguren. Deutlich erkennbar sind die beiden Hauptfiguren Eduard und Charlotte in der Mitte und ihre intensive Beziehung.]]
+
<br clear=all>
+
==Leserlenkung in Bezug auf Romanfiguren==
+
Auf der Grundlage des Roman- und des Dramenkorpus soll die Leserlenkung in Bezug auf die Figuren ermittelt werden. Ausgangspunkt ist die Ermittlung der Figuren durch Techniken der ''Named Entity Recognition'' (NER) einschließlich Koreferenz-Auflösung. Auf dieser Grundlage kann eine Sentiment Analysis vorgenommen werden, mit der die expliziten positiven oder negativen Bewertungen der Figuren ermittelt werden können. Die Ergebnisse sind insbesondere in literaturgeschichtlicher Perspektive relevant. Auch für diesen ''Use Case'' ist die Signifikanzüberprüfung und menschliche Interpretation der z.T. fehlerbehafteten automatischen Auswertungen unerlässlich.
+
 
+
Informatische Optimierungsansätze betreffen u.a. statistische Modelle für die Verbesserung einzelner Teilschritte, ''Distributional Clustering'' für halbüberwachtes Lernen relevanter Begriffsbeziehungen und die Nutzung einer ''Sentimentressource für das Deutsche''. Dabei werden bereits vorhandene Ansätze und Implementierungen der Würzburger Arbeitsgruppen und der Professur für Korpuslinguistik (Erlangen-Nürnberg) miteinander kombiniert.
+
<!---
+
Englisch:
+
The overall goal of this use case is to examine the ways in which the reader of a novel is influenced by the narrator with regard to his or her attitude towards a character. As a start the novels need to be processed with NLP methods such as Named Entity Recognition and Coreference Resolution. Existing tools often do not work well enough due to the particularities of literary text in comparions with newspaper text. Therefore we first produced our own manually annotated gold corpus which includes Named Entities and Coreference information. We extended the common definition of Named Entity to also include appellatives which are often used as character references in novels. This corpus is scheduled for publication around summer/autumn 2015.
+
 
+
In the annotation process we used our own annotation editor which suggests possible NEs to the user and thereby facilitates and accelerates the process.
+
 
+
Based on this data, we trained a NER model and developed a rule-based coreference resolution system which both take into account the special properties of literary texts and thus yield better results than existing approaches.
+
 
+
The next step will be the detection of attributes related to each character in order to obtain a character description for each character in a novel.
+
-->
+
 
+
=Korpus=
+
==Arbeitsgrundlage==
+
[[File:Konstellation2.png|280px|right|link=| alt=Ein weiteres Figurennetzwerk]]
+
Die Datengrundlage bilden deutschsprachige Romane aus dem 19. Jahrhundert. Diese stammen hauptsächlich aus Quellen wie der Digitalen Bibliothek von [https://textgrid.de/ TextGrid] oder dem [http://gutenberg.spiegel.de/  Projekt Gutenberg]. Die Erhebung von Metadaten sowie die Annotation von Texten zur Entwicklung und Evaluation neuer Methoden stehen ebenfalls im Fokus.
+
 
+
Im Rahmen dieses Teilprojekts wurde ein Korpus zusammengestellt, das aus Abschnitten aus je 130 zusammenhängenden Sätzen aus ca. 90 deutschsprachigen Romanen besteht. Diese Texte enthalten manuelle Annotationen zu Named Entities sowie Koreferenzen. Eine Veröffentlichung dieses ''Goldstandards'' ist geplant.
+
<br clear=all>
+
<!---->
+
 
+
=Arbeitsplan=
+
==Annotationseditor==
+
Zur Erleichterung und Beschleunigung der manuellen Annotation wurde ein Editor entwickelt, der anhand von Regeln bereits potentielle ''Named Entities'' vorschlägt, die durch den Annotator akzeptiert oder korrigiert werden können. Auch der Umstand, dass die Textauszeichnung mittels einer komfortablen graphischen Benutzeroberfläche vergenommen werden kann, erleichtert diese Arbeit deutlich.
+
 
+
==''Named Entity Recognition''==
+
Die Verarbeitung von literarischen Texten erfordert eine erweiterte Definition von ''Named Entity'', die neben tatsächlichen Namen auch Appellativa wie Berufs- oder Verwandtschaftsbezeichnungen mit einbezieht. Aus diesem Grund erreichen bestehende NER-Systeme keine ausreichende Genauigkeit. Daher wurde mit Hilfe eines ''Machine Learning Classifiers'' unter Einbeziehung von ''word2vec-Features'' auf Basis des  ''Goldstandards'' ein Modell entwickelt, das inzwischen einen F1-score von 89,98% erreicht.
+
Die hierfür genutzte Software, zur Benutzung in Kombination mit DKPro, ist auf GitHub (https://github.com/MarkusKrug/NERDetection) verfügbar.
+
 
+
==Koreferenzauflösung ==
+
Wie auch bei der NER führen bestimmte Eigenschaften literarischer Texte, wie der größere Anteil direkter Rede oder die erhöhte Häufigkeit von Pronomen, dazu, dass existierende Systeme zur Koreferenzauflösung keine zufriedenstellenden Ergebnisse liefern: Eigennamen lassen sich zwar mit einiger Zuverlässigkeit erkennen, weitere auf die Figur bezogene Bezeichnungen und Pronomen aber zunehmend schwieriger. Daher wurde in Anlehnung an einen Ansatz aus Stanford ein regelbasiertes System entwickelt, das speziell auf die Besonderheiten literarischer Texte eingeht.
+
 
+
==Ausblick==
+
Im weiteren Fokus der Arbeit stehen die Erkennung von wörtlicher Rede und die entsprechende Zuordnung von Sprecher und Angesprochenem, die Beschäftigung mit Figurennetzwerken und der Klassifikation von Beziehungen zwischen Figuren, sowie die automatische Charakterisierung von Figuren anhand der ihnen zugeordneten Attribute.
+
 
+
=Publikationen=
+
==Verträge und Aufsätze==
+
* Jannidis, F., Krug, M., Reger, I. Toepfer, M., Weimer, L., Puppe, F. 2015. Automatische Erkennung von Figuren in deutschsprachigen Romanen. DHd-Tagung 2015, Graz.
+
 
+
* Krug M., Puppe F., Jannidis F., Reger, I., Macharowsky L., Weimer, L. 2015. Rule-based Coreference Resolution in German Historic Novels. In Proceedings of the Fourth Workshop on Computational Linguistics for Literature, Denver, CO. http://www.aclweb.org/anthology/W15-0711
+
 
+
==Downloads==
+
*Eine ''Named-Entity-Recognition''-Komponente für deutschsprachige Romane, zur Benutzung in Kombination mit DKPro, ist auf [https://github.com/MarkusKrug/NERDetection GitHub] verfügbar.
+
 
+
=Kontakt=
+
==Projektgruppe ''Romanfiguren''==
+
{{LSKI}}
+
<br clear=all>
+
* Prof. Dr. [http://www.is.informatik.uni-wuerzburg.de/mitarbeiter/puppe_frank/ Frank Puppe]
+
 
+
* [http://www.is.informatik.uni-wuerzburg.de/mitarbeiter/mak0/ Markus Krug], M.Sc.
+
<br clear=all>
+
 
+
{{Lehrstuhl Comphil}}
+
<br clear=all>
+
* Prof. Dr. [http://www.jannidis.de/ Fotis Jannidis]
+
 
+
* [http://www.germanistik.uni-wuerzburg.de/lehrstuehle/computerphilologie/mitarbeiter/reger/ Isabella Reger]
+
 
+
*Lukas Weimer
+
 
+
*Stephan Feldhaus
+
<br clear=all>
+
 
+
== Technische Partner ==
+
{{Adresse Kallimachos}}
+
<br clear=all>
+
*Dr. [https://elmut.uni-wuerzburg.de/person/23791 Hans-Günter Schmidt] (Projektleitung)
+
 
+
*Dr. [https://elmut.uni-wuerzburg.de/person/916 Herbert Baier] (Entwicklung)
+
<!--
+
*Dipl.-Inform. [https://elmut.uni-wuerzburg.de/person/13342 Felix Kirchner] (Entwicklung)
+
 
+
*Dipl.-Ing. [https://elmut.uni-wuerzburg.de/person/4518 Marco Dittrich] (Bildbearbeitung und Scantechnik)
+
 
+
*[https://elmut.uni-wuerzburg.de/person/79876 Martin Gruner] (Entwicklung)
+
-->
+
*[https://elmut.uni-wuerzburg.de/person/7302 Jonathan Gaede] (Öffentlichkeitsarbeit)
+
 
+
<br clear=all>
+
<!--== Kooperationen ==
+
-
+
-->
+
<headertabs />
+

Aktuelle Version vom 23. März 2016, 12:03 Uhr

[bearbeiten]

 Darstellung eines Netzwerks von insgesamt 10 Romanfiguren. Deutlich erkennbar sind die beiden Hauptfiguren Eduard und Charlotte in der Mitte und ihre intensive Beziehung.

Leserlenkung in Bezug auf Romanfiguren

Auf der Grundlage des Roman- und des Dramenkorpus soll die Leserlenkung in Bezug auf die Figuren ermittelt werden. Ausgangspunkt ist die Ermittlung der Figuren durch Techniken der Named Entity Recognition (NER) einschließlich Koreferenz-Auflösung. Auf dieser Grundlage kann eine Sentiment Analysis vorgenommen werden, mit der die expliziten positiven oder negativen Bewertungen der Figuren ermittelt werden können. Die Ergebnisse sind insbesondere in literaturgeschichtlicher Perspektive relevant. Auch für diesen Use Case ist die Signifikanzüberprüfung und menschliche Interpretation der z.T. fehlerbehafteten automatischen Auswertungen unerlässlich.

Informatische Optimierungsansätze betreffen u.a. statistische Modelle für die Verbesserung einzelner Teilschritte, Distributional Clustering für halbüberwachtes Lernen relevanter Begriffsbeziehungen und die Nutzung einer Sentimentressource für das Deutsche. Dabei werden bereits vorhandene Ansätze und Implementierungen der Würzburger Arbeitsgruppen und der Professur für Korpuslinguistik (Erlangen-Nürnberg) miteinander kombiniert.

Arbeitsgrundlage

Ein weiteres Figurennetzwerk

Die Datengrundlage bilden deutschsprachige Romane aus dem 19. Jahrhundert. Diese stammen hauptsächlich aus Quellen wie der Digitalen Bibliothek von TextGrid oder dem Projekt Gutenberg. Die Erhebung von Metadaten sowie die Annotation von Texten zur Entwicklung und Evaluation neuer Methoden stehen ebenfalls im Fokus.

Im Rahmen dieses Teilprojekts wurde ein Korpus zusammengestellt, das aus Abschnitten aus je 130 zusammenhängenden Sätzen aus ca. 90 deutschsprachigen Romanen besteht. Diese Texte enthalten manuelle Annotationen zu Named Entities sowie Koreferenzen. Eine Veröffentlichung dieses Goldstandards ist geplant.

Annotationseditor

Zur Erleichterung und Beschleunigung der manuellen Annotation wurde ein Editor entwickelt, der anhand von Regeln bereits potentielle Named Entities vorschlägt, die durch den Annotator akzeptiert oder korrigiert werden können. Auch der Umstand, dass die Textauszeichnung mittels einer komfortablen graphischen Benutzeroberfläche vergenommen werden kann, erleichtert diese Arbeit deutlich.

Named Entity Recognition

Die Verarbeitung von literarischen Texten erfordert eine erweiterte Definition von Named Entity, die neben tatsächlichen Namen auch Appellativa wie Berufs- oder Verwandtschaftsbezeichnungen mit einbezieht. Aus diesem Grund erreichen bestehende NER-Systeme keine ausreichende Genauigkeit. Daher wurde mit Hilfe eines Machine Learning Classifiers unter Einbeziehung von word2vec-Features auf Basis des Goldstandards ein Modell entwickelt, das inzwischen einen F1-score von 89,98% erreicht. Die hierfür genutzte Software, zur Benutzung in Kombination mit DKPro, ist auf GitHub verfügbar.

Koreferenzauflösung

Wie auch bei der NER führen bestimmte Eigenschaften literarischer Texte, wie der größere Anteil direkter Rede oder die erhöhte Häufigkeit von Pronomen, dazu, dass existierende Systeme zur Koreferenzauflösung keine zufriedenstellenden Ergebnisse liefern: Eigennamen lassen sich zwar mit einiger Zuverlässigkeit erkennen, weitere auf die Figur bezogene Bezeichnungen und Pronomen aber zunehmend schwieriger. Daher wurde in Anlehnung an einen Ansatz aus Stanford ein regelbasiertes System entwickelt, das speziell auf die Besonderheiten literarischer Texte eingeht.

Ausblick

Im weiteren Fokus der Arbeit stehen die Erkennung von wörtlicher Rede und die entsprechende Zuordnung von Sprecher und Angesprochenem, die Beschäftigung mit Figurennetzwerken und der Klassifikation von Beziehungen zwischen Figuren, sowie die automatische Charakterisierung von Figuren anhand der ihnen zugeordneten Attribute.

Vorträge und Aufsätze

  • Markus Krug, Christoph Wick, Fotis Jannidis, Isabella Reger, Lukas Weimer, Nathalie Madarász, Frank Puppe: Comparison of Methods for Automatic Relation Extraction in German Novels. DHd-Tagung, Bern 2017.
  • Fotis Jannidis, Markus Krug, Isabella Reger, Lukas Weimer, Luisa Macharowsky, Frank Puppe: Comparison of Methods for the Identification of Main Characters in German Novels. DH conference, Krakow 2016. Download
  • Markus Krug, Fotis Jannidis, Isabella Reger, Lukas Weimer, Luisa Macharowsky, Frank Puppe: Attribuierung direkter Reden in deutschen Romanen des 18.-20. Jahrhunderts - Methoden zur Bestimmung des Sprechers und des Angesprochenen. DHd-Tagung, Leipzig 2016. Download
  • Markus Krug, Frank Puppe, Fotis Jannidis, Isabella Reger, Luisa Macharowsky, Lukas Weimer: Rule-based Coreference Resolution in German Historic Novels. In: Proceedings of the Fourth Workshop on Computational Linguistics for Literature, Denver, CO 2015 Download Poster
  • Fotis Jannidis, Markus Krug, Isabella Reger, Martin Toepfer, Lukas Weimer, Frank Puppe: Automatische Erkennung von Figuren in deutschsprachigen Romanen. Vortrag zur DHd-Tagung in Graz, 2015. Download

Downloads

  • Eine Named-Entity-Recognition-Komponente für deutschsprachige Romane, zur Benutzung in Kombination mit DKPro, ist auf GitHub verfügbar.

Projektgruppe Romanfiguren



Am Hubland, Bau 8

D-97074 Würzburg

Tel.: 0931-31 88421

E-Mail
  • Stephan Feldhaus



Technische Partner


Am Hubland

D-97074 Würzburg

Telefon: 0931/31-80534

E-mail