Narragonien:Main und Narrative Techniken:Main: Unterschied zwischen den Seiten
(→Vorträge) |
(→Vorträge und Aufsätze) |
||
Zeile 1: | Zeile 1: | ||
− | = | + | =Narrative Techniken= |
− | <!-- | + | [[File:wordleMfW66.png | 600x |link= | alt= Wordle der häufigsten Worte des deutschsprachigen Textkorpus]] |
− | + | ==Narrative Techniken== | |
− | + | Auf der Grundlage verschiedener Textkorpora <!-- zweier Textsammlungen (400 deutsche Romane, 600 französische Theaterstücke)--> sollen historische Entwicklungen von narrativen Techniken in deutschsprachigen und französischen Romanen verfolgt und Methoden zur automatischen Klassifikation von literarischen Genres und Subgenres mit Hilfe von Topic Modelling entwickelt werden, etwa durch die automatische Erkennung von Erzählformen. | |
− | + | Dazu werden Subgattungen deutscher Romane, etwa Bildungs-, Gesellschafts- und Abenteuerromane, genauer | |
− | + | untersucht. Subgattungen werden in der Literaturwissenschaft zwar als etablierte Begriffe verwendet, es zeigt sich jedoch, dass Definitionen | |
− | + | inkonsistent sind und über Jahre hinweg verschieben können. Mit Hilfe verschiedener Dimensionen von Romanen wie des Handlungsverlaufs, der Beziehung zwischen Hauptfiguren sowie stilometrischer Analyseergebnisse (z.B. zu den verwendeten Themen und zur Emotionalität) soll überprüft werden, ob und wie sich bestimmte literarische Subgattungen mit computerphilologischen Methoden unterscheiden lassen. | |
− | |||
− | |||
− | |||
− | |||
− | + | In Zusammenarbeit mit Prof. Evert (Professur für Korpuslinguistik, FAU Erlangen-Nürnberg) soll außerdem die literarische Autorschaftsattribution mit stilometrischen Abstandsmaßen verbessert werden. Außerdem ist die Trennung von Autor-, Gattungs- und Epochensignal in stilometrischen Analysen von großem Interesse, da dies wiederum der Zuverlässigkeit automatische Genreklassifikationen nutzen könnte. Darüber hinaus sollen zuverlässige statistische Methoden zur Signifikanzüberprüfung der festgestellten Entwicklungen ausgearbeitet, implementiert und erprobt werden. | |
− | - | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
=Korpus= | =Korpus= | ||
− | == | + | ==Arbeitsgrundlage== |
− | Die | + | Die Datengrundlage bilden französische und deutschsprachige Romane aus dem 19. Jahrhundert. Diese stammen hauptsächlich aus Quellen wie der Digitalen Bibliothek von [https://textgrid.de/ TextGrid] oder dem [http://gutenberg.spiegel.de/ Projekt Gutenberg]. Die Erhebung von Metadaten sowie die Annotation von Texten zur Entwicklung und Evaluation neuer Methoden stehen ebenfalls im Fokus. |
− | + | Im Rahmen dieses Teilprojekts wurde ein Korpus zusammengestellt, das aus Abschnitten aus je 130 zusammenhängenden Sätzen aus ca. 90 deutschsprachigen Romanen besteht. Diese Texte enthalten manuelle Annotationen zu Named Entities sowie Koreferenzen. Eine Veröffentlichung dieses ''Goldstandards'' ist geplant. | |
− | + | Für die stilometrische Untersuchungen werden außerdem vereinzelte digitale Romantexte in anderen Sprachen wie Englisch oder Französisch aus frei zugänglichen Quellen hinzugezogen. | |
− | |||
− | |||
+ | =Gattungen= | ||
− | ''' | + | ==Genreklassifikation== |
− | + | Ziel ist die automatische Einteilung von Romanen in Untergattungen wie Entwicklungsroman, Gesellschaftsroman oder auch Abenteuerroman. Hierzu werden verschiedene Arten von Features, etwa die ''Most Frequent Words'', verschiede ''Topic Models'' oder aus [[Romanfiguren | Figurennetzwerken]] extrahierte Eigenschaften hinsichtlich ihrer Performanz verglichen. | |
− | |||
− | |||
− | + | Problematisch ist, dass derartige Experimente oft auf sehr kleinen Datenmengen erfolgen müssen, da Genrelabels aufwendig zu erheben sind und keine klaren Grenzen aufweisen - auch unter Experten herrscht hier oft Uneinigkeit. Entsprechend sind Methoden zur Signifikanzüberprüfung der Ergebnisse insbesondere bei kleinen Datenmengen wichtig. In weiterführenden Untersuchungen sollen Methoden zur Erkennung und Repräsentation von Plotstrukturen unternommen werden. | |
− | + | <!-- =Sentimentanalyse? = | |
− | + | In den Romanen können narrative Techniken über regelbasierte Verfahren annotiert oder über Verfahren des maschinellen Lernens automatisch in den Text eingetragen werden. Zur Klassifikation der Techniken werden auf Basis vorhandener Metadaten für die Romansammlung und die Dramensammlung in einem iterativen Prozess Feature-Vektoren aufgebaut. Die Optimierung der Verfahren betrifft die verfeinerte linguistische Vorverarbeitung durch transformationsbasierte Fehlerbehebung oder Domänenadaption und die Kombination probabilistischer graphischer Modelle (CRF) und regelbasierter Verfahren. Die Professur für Korpuslinguistik (Prof. Evert, Universität Erlangen-Nürnberg) bringt zusätzliche korpuslinguistische Expertise ein, u.a. aus einem Shared Task zur Tokenisierung und Wortartenannotierung nicht-standardnaher Texte. Darüber hinaus werden zuverlässige statistische Methoden zur Signifikanzüberprüfung der festgestellten Entwicklungen ausgearbeitet, implementiert und erprobt. | |
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
--> | --> | ||
− | + | =Stilometrie= | |
− | + | ==Stilometrische Abstandsmaße mit Delta== | |
+ | Ausgehend von ''Burrows’s Delta'', einem etablierten stilometrischen Abstandsmaß, werden verschiedene Varianten von ''Delta'' weiterentwickelt, um einerseits eine Verbesserung der Ergebnisse beispielsweise der Autorschaftsattribution zu erreichen und andererseits zu einem besseren Verständnis der Funktionsweise dieses im Kern erstaunlich einfachen Abstandsmaßes zu gelangen. In verschiedenen Experimenten wird untersucht, welchen Einfluss Aspekte wie Textlänge oder verschiedene Vektornormalisierungen auf die Ergebnisse von ''Delta'' haben. Zukünftig ist besonders die Unterscheidung zwischen Autor-, Gattungs- und Epochensignal von Interesse, um stilometrische Methoden wie ''Delta'' für automatische Genreklassifikation nutzbar zu machen. | ||
− | + | =Materialien= | |
− | + | ==Vorträge und Aufsätze== | |
− | + | * Lena Hettinger, Fotis Jannidis, Isabella Reger, Andreas Hotho: Significance Testing for the Classification of Literary Subgenres. DH conference, Krakow 2016. | |
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | + | * Stefan Evert, Fotis Jannidis, Thomas Proisl, Isabella Reger, Thorsten Vitt, Christof Schöch, Steffen Pielström: Outliers or Key Profiles? Understanding Distance Measures for Authorship Attribution. DH conference, Krakow 2016. | |
− | |||
− | |||
− | |||
− | |||
− | |||
− | + | *Stefan Evert, Thomas Proisl, Christof Schöch, Fotis Jannidis, Steffen Pielström, Isabella Reger, Thorsten Vitt: Burrows' Delta verstehen. Sektionsbeitrag auf der DHd-Tagung 2016, Leipzig. | |
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | + | *Lena Hettinger, Fotis Jannidis, Isabella Reger, Andreas Hotho: Classification of Literary Subgenres. DHd 2016, Leipzig. | |
− | |||
− | |||
− | + | *Stefan Evert, Thomas Proisl, Christoph Schöch, Fotis Jannidis, Steffen Pielström, Thorsten Vitt: Towards a better understanding of Burrows' Delta in literary authorship attribution. 4th Workshop on Computational Linguistics for Literature, Denver, CO, USA, 2015. [http://www.aclweb.org/anthology/W15-0709 Download] | |
− | + | *Stefan Evert, Thomas Proisl, Christof Schöch, Fotis Jannidis, Steffen Pielström, Thorsten Vitt, : Explaining Delta, or: How do distance measures for authorship attribution work? Presentation at Corpus Linguistics 2015, Lancaster, UK. [http://www.stefan-evert.de/PUB/EvertProislEtc2015_abstract.pdf Abstract] | |
− | |||
− | |||
− | + | *Lena Hettinger, Martin Becker, Isabella Reger, Fotis Jannidis, Andreas Hotho: Genre Classification on German Novels. 12th International Workshop on Text-based Information Retrieval, Valéncia, 2015. [http://www.uni-weimar.de/medien/webis/events/tir-15/tir15-papers-final/Hettinger2015-tir-paper.pdf Download] | |
− | |||
− | -- | ||
− | + | *Fotis Jannidis, Steffen Pielström, Christof Schöch, Thorsten Vitt: Improving Burrows' Delta: An empirical evaluation of text distance measures. DH conference, Sydney 2015. <!--Nicht im Rahmen von Kallimachos--> | |
− | |||
− | |||
− | |||
<!-- | <!-- | ||
− | + | *Evert, Stefan; Proisl, Thomas; Schöch, Christof; Jannidis, Fotis; Pielström, Steffen; Reger, Isabella und Vitt, Thorsten: Burrows Delta verstehen. Sektionsbeitrag auf der DHd-Tagung 2016, Leipzig. | |
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | * | + | *Hettinger, Lene; Jannidis, Fotis; Reger, Isabella und Hotho, Andreas. Classification of Literary Subgenres. DHd 2016, Leipzig. |
− | + | *Evert, Stefan; Proisl, Thomas; Jannidis, Fotis; Pielström, Steffen; Schöch, Christof und Vitt, Thorsten: Towards a better understanding of Burrows's Delta in literary authorship attribution. 4th Workshop on Computational Linguistics for Literature, 2015, Denver, CO, USA. http://www.aclweb.org/anthology/W15-0709 | |
− | * | ||
− | * | + | *Evert, Stefan; Proisl, Thomas; Schöch, Christof; Jannidis, Fotis; Pielström, Steffen; Vitt, Thorsten: Explaining Delta, or: How do distance measures for authorship attribution work? Presentation at Corpus Linguistics 2015, Lancaster, UK. http://www.stefan-evert.de/PUB/EvertProislEtc2015_abstract.pdf |
− | * | + | *Hettinger, Lena; Becker, Martin; Reger, Isabella; Jannidis, Fotis und Hotho, Andreas: Genre Classification on German Novels. 12th International Workshop on Text-based Information Retrieval, 2015, Valéncia. http://www.uni-weimar.de/medien/webis/events/tir-15/tir15-papers-final/Hettinger2015-tir-paper.pdf |
− | * | + | *Jannidis, Fotis; Pielström, Steffen; Schöch, Christof und Vitt, Thorsten: Improving Burrows' Delta: An empirical evaluation of text distance measures. DH conference Sydney 2015. |
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
--> | --> | ||
− | + | =Kontakt= | |
− | + | ==Projektgruppe ''Narrative Techniken''== | |
− | |||
− | |||
− | |||
− | |||
− | |||
− | =Kontakt= | ||
− | ==Projektgruppe '' | ||
<br clear=all> | <br clear=all> | ||
− | {{ | + | {{Lehrstuhl Comphil}} |
− | *Prof. Dr. [http://www. | + | * Prof. Dr. [http://www.jannidis.de/ Fotis Jannidis] |
− | + | * [http://www.germanistik.uni-wuerzburg.de/lehrstuehle/computerphilologie/mitarbeiter/reger/ Isabella Reger] | |
− | *[http://www. | ||
− | |||
<br clear=all> | <br clear=all> | ||
− | + | {{LSKI}} | |
− | {{ | + | * Prof. Dr. [http://www.is.informatik.uni-wuerzburg.de/staff/hotho Andreas Hotho] |
− | *Prof. Dr. [http://www. | + | * Dipl.-Math. [http://www.is.informatik.uni-wuerzburg.de/mitarbeiter/hettinger_lena/ Lena Hettinger] |
− | |||
− | *[http://www. | ||
<br clear=all> | <br clear=all> | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
---- | ---- | ||
Zeile 224: | Zeile 83: | ||
{{Adresse Kallimachos}} | {{Adresse Kallimachos}} | ||
*Dr. [https://elmut.uni-wuerzburg.de/person/23791 Hans-Günter Schmidt] (Projektleitung) | *Dr. [https://elmut.uni-wuerzburg.de/person/23791 Hans-Günter Schmidt] (Projektleitung) | ||
− | |||
− | |||
*Dr. [https://elmut.uni-wuerzburg.de/person/916 Herbert Baier-Saip] (Systementwicklung und Systemadministration) | *Dr. [https://elmut.uni-wuerzburg.de/person/916 Herbert Baier-Saip] (Systementwicklung und Systemadministration) | ||
− | + | *[https://elmut.uni-wuerzburg.de/person/7302 Jonathan Gaede] (Kommunikation mit den Use-Cases) | |
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | *[https://elmut.uni-wuerzburg.de/person/7302 Jonathan Gaede] ( | ||
− | |||
− | |||
− | |||
− | |||
<br clear=all> | <br clear=all> | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
---- | ---- | ||
== Kooperationen == | == Kooperationen == | ||
<br clear=all> | <br clear=all> | ||
− | * | + | {{PKL}} |
+ | *Prof. Dr. [http://www.stefan-evert.de/ Stefan Evert] | ||
+ | |||
+ | *[http://www.linguistik.fau.de/~tsproisl Thomas Proisl], M.A. | ||
<br clear=all> | <br clear=all> | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
<headertabs /> | <headertabs /> |
Version vom 4. Juli 2016, 09:01 Uhr
Inhaltsverzeichnis
Narrative Techniken
Auf der Grundlage verschiedener Textkorpora sollen historische Entwicklungen von narrativen Techniken in deutschsprachigen und französischen Romanen verfolgt und Methoden zur automatischen Klassifikation von literarischen Genres und Subgenres mit Hilfe von Topic Modelling entwickelt werden, etwa durch die automatische Erkennung von Erzählformen.
Dazu werden Subgattungen deutscher Romane, etwa Bildungs-, Gesellschafts- und Abenteuerromane, genauer untersucht. Subgattungen werden in der Literaturwissenschaft zwar als etablierte Begriffe verwendet, es zeigt sich jedoch, dass Definitionen inkonsistent sind und über Jahre hinweg verschieben können. Mit Hilfe verschiedener Dimensionen von Romanen wie des Handlungsverlaufs, der Beziehung zwischen Hauptfiguren sowie stilometrischer Analyseergebnisse (z.B. zu den verwendeten Themen und zur Emotionalität) soll überprüft werden, ob und wie sich bestimmte literarische Subgattungen mit computerphilologischen Methoden unterscheiden lassen.
In Zusammenarbeit mit Prof. Evert (Professur für Korpuslinguistik, FAU Erlangen-Nürnberg) soll außerdem die literarische Autorschaftsattribution mit stilometrischen Abstandsmaßen verbessert werden. Außerdem ist die Trennung von Autor-, Gattungs- und Epochensignal in stilometrischen Analysen von großem Interesse, da dies wiederum der Zuverlässigkeit automatische Genreklassifikationen nutzen könnte. Darüber hinaus sollen zuverlässige statistische Methoden zur Signifikanzüberprüfung der festgestellten Entwicklungen ausgearbeitet, implementiert und erprobt werden.
Arbeitsgrundlage
Die Datengrundlage bilden französische und deutschsprachige Romane aus dem 19. Jahrhundert. Diese stammen hauptsächlich aus Quellen wie der Digitalen Bibliothek von TextGrid oder dem Projekt Gutenberg. Die Erhebung von Metadaten sowie die Annotation von Texten zur Entwicklung und Evaluation neuer Methoden stehen ebenfalls im Fokus.
Im Rahmen dieses Teilprojekts wurde ein Korpus zusammengestellt, das aus Abschnitten aus je 130 zusammenhängenden Sätzen aus ca. 90 deutschsprachigen Romanen besteht. Diese Texte enthalten manuelle Annotationen zu Named Entities sowie Koreferenzen. Eine Veröffentlichung dieses Goldstandards ist geplant.
Für die stilometrische Untersuchungen werden außerdem vereinzelte digitale Romantexte in anderen Sprachen wie Englisch oder Französisch aus frei zugänglichen Quellen hinzugezogen.
Genreklassifikation
Ziel ist die automatische Einteilung von Romanen in Untergattungen wie Entwicklungsroman, Gesellschaftsroman oder auch Abenteuerroman. Hierzu werden verschiedene Arten von Features, etwa die Most Frequent Words, verschiede Topic Models oder aus Figurennetzwerken extrahierte Eigenschaften hinsichtlich ihrer Performanz verglichen.
Problematisch ist, dass derartige Experimente oft auf sehr kleinen Datenmengen erfolgen müssen, da Genrelabels aufwendig zu erheben sind und keine klaren Grenzen aufweisen - auch unter Experten herrscht hier oft Uneinigkeit. Entsprechend sind Methoden zur Signifikanzüberprüfung der Ergebnisse insbesondere bei kleinen Datenmengen wichtig. In weiterführenden Untersuchungen sollen Methoden zur Erkennung und Repräsentation von Plotstrukturen unternommen werden.
Stilometrische Abstandsmaße mit Delta
Ausgehend von Burrows’s Delta, einem etablierten stilometrischen Abstandsmaß, werden verschiedene Varianten von Delta weiterentwickelt, um einerseits eine Verbesserung der Ergebnisse beispielsweise der Autorschaftsattribution zu erreichen und andererseits zu einem besseren Verständnis der Funktionsweise dieses im Kern erstaunlich einfachen Abstandsmaßes zu gelangen. In verschiedenen Experimenten wird untersucht, welchen Einfluss Aspekte wie Textlänge oder verschiedene Vektornormalisierungen auf die Ergebnisse von Delta haben. Zukünftig ist besonders die Unterscheidung zwischen Autor-, Gattungs- und Epochensignal von Interesse, um stilometrische Methoden wie Delta für automatische Genreklassifikation nutzbar zu machen.
Vorträge und Aufsätze
- Lena Hettinger, Fotis Jannidis, Isabella Reger, Andreas Hotho: Significance Testing for the Classification of Literary Subgenres. DH conference, Krakow 2016.
- Stefan Evert, Fotis Jannidis, Thomas Proisl, Isabella Reger, Thorsten Vitt, Christof Schöch, Steffen Pielström: Outliers or Key Profiles? Understanding Distance Measures for Authorship Attribution. DH conference, Krakow 2016.
- Stefan Evert, Thomas Proisl, Christof Schöch, Fotis Jannidis, Steffen Pielström, Isabella Reger, Thorsten Vitt: Burrows' Delta verstehen. Sektionsbeitrag auf der DHd-Tagung 2016, Leipzig.
- Lena Hettinger, Fotis Jannidis, Isabella Reger, Andreas Hotho: Classification of Literary Subgenres. DHd 2016, Leipzig.
- Stefan Evert, Thomas Proisl, Christoph Schöch, Fotis Jannidis, Steffen Pielström, Thorsten Vitt: Towards a better understanding of Burrows' Delta in literary authorship attribution. 4th Workshop on Computational Linguistics for Literature, Denver, CO, USA, 2015. Download
- Stefan Evert, Thomas Proisl, Christof Schöch, Fotis Jannidis, Steffen Pielström, Thorsten Vitt, : Explaining Delta, or: How do distance measures for authorship attribution work? Presentation at Corpus Linguistics 2015, Lancaster, UK. Abstract
- Lena Hettinger, Martin Becker, Isabella Reger, Fotis Jannidis, Andreas Hotho: Genre Classification on German Novels. 12th International Workshop on Text-based Information Retrieval, Valéncia, 2015. Download
- Fotis Jannidis, Steffen Pielström, Christof Schöch, Thorsten Vitt: Improving Burrows' Delta: An empirical evaluation of text distance measures. DH conference, Sydney 2015.
Projektgruppe Narrative Techniken
- Prof. Dr. Fotis Jannidis
- Isabella Reger
- Prof. Dr. Andreas Hotho
- Dipl.-Math. Lena Hettinger
Technische Partner
- Dr. Hans-Günter Schmidt (Projektleitung)
- Dr. Herbert Baier-Saip (Systementwicklung und Systemadministration)
- Jonathan Gaede (Kommunikation mit den Use-Cases)
Kooperationen
- Prof. Dr. Stefan Evert
- Thomas Proisl, M.A.