Auf der Grundlage verschiedener Textkorpora sollen historische Entwicklungen von narrativen Techniken in deutschsprachigen und französischen Romanen verfolgt und Methoden zur automatischen Klassifikation von literarischen Genres und Subgenres mit Hilfe von Topic Modelling entwickelt werden, etwa durch die automatische Erkennung von Erzählformen.
Dazu werden Subgattungen deutscher Romane, etwa Bildungs-, Gesellschafts- und Abenteuerromane, genauer untersucht. Subgattungen werden in der Literaturwissenschaft zwar als etablierte Begriffe verwendet, es zeigt sich jedoch, dass Definitionen inkonsistent sind und über Jahre hinweg verschieben können. Mit Hilfe verschiedener Dimensionen von Romanen wie des Handlungsverlaufs, der Beziehung zwischen Hauptfiguren sowie stilometrischer Analyseergebnisse (z.B. zu den verwendeten Themen und zur Emotionalität) soll überprüft werden, ob und wie sich bestimmte literarische Subgattungen mit computerphilologischen Methoden unterscheiden lassen.
In den Romanen können narrative Techniken über regelbasierte Verfahren annotiert oder über Verfahren des maschinellen Lernens automatisch in den Text eingetragen werden. Zur Klassifikation der Techniken werden auf Basis vorhandener Metadaten für die Romansammlung und die Dramensammlung in einem iterativen Prozess Feature-Vektoren aufgebaut. Die Optimierung der Verfahren betrifft die verfeinerte linguistische Vorverarbeitung durch transformationsbasierte Fehlerbehebung oder Domänenadaption und die Kombination probabilistischer graphischer Modelle (CRF) und regelbasierter Verfahren. Die Professur für Korpuslinguistik (Prof. Evert, Universität Erlangen-Nürnberg) bringt zusätzliche korpuslinguistische Expertise ein, u.a. aus einem Shared Task zur Tokenisierung und Wortartenannotierung nicht-standardnaher Texte. Darüber hinaus werden zuverlässige statistische Methoden zur Signifikanzüberprüfung der festgestellten Entwicklungen ausgearbeitet, implementiert und erprobt.
Die Datengrundlage bilden französische und deutschsprachige Romane aus dem 19. Jahrhundert. Diese stammen hauptsächlich aus Quellen wie der Digitalen Bibliothek von TextGrid oder dem Projekt Gutenberg. Die Erhebung von Metadaten sowie die Annotation von Texten zur Entwicklung und Evaluation neuer Methoden stehen ebenfalls im Fokus.
Im Rahmen dieses Teilprojekts wurde ein Korpus zusammengestellt, das aus Abschnitten aus je 130 zusammenhängenden Sätzen aus ca. 90 deutschsprachigen Romanen besteht. Diese Texte enthalten manuelle Annotationen zu Named Entities sowie Koreferenzen. Eine Veröffentlichung dieses Goldstandards ist geplant.
Für die stilometrische Untersuchungen werden außerdem vereinzelte digitale Romantexte in anderen Sprachen wie Englisch oder Französisch aus frei zugänglichen Quellen hinzugezogen.
Ziel ist die automatische Einteilung von Romanen in Untergattungen wie Entwicklungsroman, Gesellschaftsroman oder auch Abenteuerroman. Hierzu werden verschiedene Arten von Features, etwa die Most Frequent Words, verschiede Topic Models oder aus Figurennetzwerken extrahierte Eigenschaften hinsichtlich ihrer Performanz verglichen.
Problematisch ist, dass derartige Experimente oft auf sehr kleinen Datenmengen erfolgen müssen, da Genrelabels aufwendig zu erheben sind und keine klaren Grenzen aufweisen - auch unter Experten herrscht hier oft Uneinigkeit. Entsprechend sind Methoden zur Signifikanzüberprüfung der Ergebnisse insbesondere bei kleinen Datenmengen wichtig. In weiterführenden Untersuchungen sollen Methoden zur Erkennung und Repräsentation von Plotstrukturen unternommen werden.
=Stilometrische Grundlagen
Am Hubland, Bau 8
D-97074 Würzburg
Tel.: 0931-31 88421
Arbeitsgruppe Data Mining und Information Retrieval
Am Hubland
Telefon: 0931/31-80534
Bismarckstr. 6
91054 Erlangen
Tel.: +49 09131 85-29251