Narrative Techniken: Unterschied zwischen den Versionen
Aus Kallimachos
Keine Bearbeitungszusammenfassung |
|||
| Zeile 15: | Zeile 15: | ||
=Korpus= | =Korpus= | ||
==Arbeitsgrundlage== | ==Arbeitsgrundlage== | ||
Die Datengrundlage bilden französische und deutschsprachige Romane aus dem 19. Jahrhundert. Diese stammen hauptsächlich aus Quellen wie der Digitalen Bibliothek von [https://textgrid.de/ TextGrid] oder dem [http://gutenberg.spiegel.de/ Projekt Gutenberg]. Die Erhebung von Metadaten sowie die Annotation von Texten zur Entwicklung und Evaluation neuer Methoden stehen ebenfalls im Fokus. | Die Datengrundlage bilden französische und deutschsprachige Romane aus dem 19. Jahrhundert. Diese stammen hauptsächlich aus Quellen wie der Digitalen Bibliothek von [https://textgrid.de/ TextGrid] oder dem [http://gutenberg.spiegel.de/ Projekt Gutenberg]. Die Erhebung von Metadaten sowie die Annotation von Texten zur Entwicklung und Evaluation neuer Methoden stehen ebenfalls im Fokus. | ||
| Zeile 22: | Zeile 21: | ||
Für die stilometrische Untersuchungen werden außerdem vereinzelte digitale Romantexte in anderen Sprachen wie Englisch oder Französisch aus frei zugänglichen Quellen hinzugezogen. | Für die stilometrische Untersuchungen werden außerdem vereinzelte digitale Romantexte in anderen Sprachen wie Englisch oder Französisch aus frei zugänglichen Quellen hinzugezogen. | ||
= | =Romangattungen= | ||
==Genreklassifikation== | ==Genreklassifikation== | ||
| Zeile 32: | Zeile 31: | ||
In den Romanen können narrative Techniken über regelbasierte Verfahren annotiert oder über Verfahren des maschinellen Lernens automatisch in den Text eingetragen werden. Zur Klassifikation der Techniken werden auf Basis vorhandener Metadaten für die Romansammlung und die Dramensammlung in einem iterativen Prozess Feature-Vektoren aufgebaut. Die Optimierung der Verfahren betrifft die verfeinerte linguistische Vorverarbeitung durch transformationsbasierte Fehlerbehebung oder Domänenadaption und die Kombination probabilistischer graphischer Modelle (CRF) und regelbasierter Verfahren. Die Professur für Korpuslinguistik (Prof. Evert, Universität Erlangen-Nürnberg) bringt zusätzliche korpuslinguistische Expertise ein, u.a. aus einem Shared Task zur Tokenisierung und Wortartenannotierung nicht-standardnaher Texte. Darüber hinaus werden zuverlässige statistische Methoden zur Signifikanzüberprüfung der festgestellten Entwicklungen ausgearbeitet, implementiert und erprobt. | In den Romanen können narrative Techniken über regelbasierte Verfahren annotiert oder über Verfahren des maschinellen Lernens automatisch in den Text eingetragen werden. Zur Klassifikation der Techniken werden auf Basis vorhandener Metadaten für die Romansammlung und die Dramensammlung in einem iterativen Prozess Feature-Vektoren aufgebaut. Die Optimierung der Verfahren betrifft die verfeinerte linguistische Vorverarbeitung durch transformationsbasierte Fehlerbehebung oder Domänenadaption und die Kombination probabilistischer graphischer Modelle (CRF) und regelbasierter Verfahren. Die Professur für Korpuslinguistik (Prof. Evert, Universität Erlangen-Nürnberg) bringt zusätzliche korpuslinguistische Expertise ein, u.a. aus einem Shared Task zur Tokenisierung und Wortartenannotierung nicht-standardnaher Texte. Darüber hinaus werden zuverlässige statistische Methoden zur Signifikanzüberprüfung der festgestellten Entwicklungen ausgearbeitet, implementiert und erprobt. | ||
<!-- Sentimentanalyse?--> | <!-- =Sentimentanalyse? =--> | ||
=Stilometrische Grundlagen | |||
<!--Dieser Use Case ist somit sowohl für das Infrastruktur-Modul 4 (Datenfluss) als auch für das Workflow-Modul 5 (Datenanalyse) relevant.--> | <!--Dieser Use Case ist somit sowohl für das Infrastruktur-Modul 4 (Datenfluss) als auch für das Workflow-Modul 5 (Datenanalyse) relevant.--> | ||