Narragonien:Main und Narrative Techniken:Main: Unterschied zwischen den Seiten

Aus Kallimachos
(Unterschied zwischen Seiten)
Wechseln zu:Navigation, Suche
(Vorträge)
 
(Vorträge und Aufsätze)
 
Zeile 1: Zeile 1:
=Narragonien=
+
=Narrative Techniken=
<!--
+
[[File:wordleMfW66.png | 600x |link= | alt= Wordle der häufigsten Worte des deutschsprachigen Textkorpus]]
<div class="jumbotron">
+
==Narrative Techniken==
<div class="row">
+
Auf der Grundlage verschiedener Textkorpora <!-- zweier Textsammlungen (400 deutsche Romane, 600 französische Theaterstücke)--> sollen historische Entwicklungen von narrativen Techniken in deutschsprachigen und französischen Romanen verfolgt und Methoden zur automatischen Klassifikation von literarischen Genres und Subgenres mit Hilfe von Topic Modelling entwickelt werden, etwa durch die automatische Erkennung von Erzählformen.
  
[[File:NarrenschiffTitle.png|400px|left]]
+
Dazu werden Subgattungen deutscher Romane, etwa Bildungs-, Gesellschafts- und Abenteuerromane, genauer
<blockquote align="middle">
+
untersucht. Subgattungen werden in der Literaturwissenschaft zwar als etablierte Begriffe verwendet, es zeigt sich jedoch, dass Definitionen
  <p>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Integer posuere erat a ante.</p>
+
inkonsistent sind und über Jahre hinweg verschieben können. Mit Hilfe verschiedener Dimensionen von Romanen wie des Handlungsverlaufs, der Beziehung zwischen Hauptfiguren sowie stilometrischer Analyseergebnisse (z.B. zu den verwendeten Themen und zur Emotionalität) soll überprüft werden, ob und wie sich bestimmte literarische Subgattungen mit computerphilologischen Methoden unterscheiden lassen.
  <small>Someone famous in <cite title="Source Title">Source Title</cite></small>
 
</blockquote>
 
</div>
 
</div>
 
  
[[File:NarrenschiffTitle.png|center]]
+
In Zusammenarbeit mit Prof. Evert (Professur für Korpuslinguistik, FAU Erlangen-Nürnberg) soll außerdem die literarische Autorschaftsattribution mit stilometrischen Abstandsmaßen verbessert werden. Außerdem ist die Trennung von Autor-, Gattungs- und Epochensignal in stilometrischen Analysen von großem Interesse, da dies wiederum der Zuverlässigkeit automatische Genreklassifikationen nutzen könnte. Darüber hinaus sollen zuverlässige statistische Methoden zur Signifikanzüberprüfung der festgestellten Entwicklungen ausgearbeitet, implementiert und erprobt werden.
-->
 
[[File:NarrenschiffTunnel.jpg | link= | alt=Die Narrenschiffe auf dem Weg ins digitale Zeitalter]]
 
<br clear=all>
 
==Narragonien digital==
 
Das am 1.10.2014 im Rahmen von KALLIMACHOS gestartete Projekt ''Narragonien digital'' will die Textualität, Medialität und Überlieferungsgeschichte des ''Narrenschiffs'' in einer digitalen Edition abbilden. Die geplante synoptische Präsentation in der Online-Edition zielt darauf ab, das komplexe Seitenlayout der Narrenbücher in seiner Intermedialität zu veranschaulichen, die historischen Text-, Bild- und Layouttransformationen zu dokumentieren und die geschichtliche Eigenbewegung des ''Narrenschiffs'' im 15. Jahrhundert editorisch abzubilden.
 
 
 
==Ein Bestseller der Frühen Neuzeit==
 
 
 
[[File:Brandt.jpg|150px|left|link= | alt=Konterfei von Sebastian Brant in der Seitenansicht]]
 
 
 
Das ''Narrenschiff'' gilt als ein Schlüsseltext der Frühen Neuzeit. Mit der spitzen Feder des Moralsatirikers beschreibt der Humanist und Jurist Sebastian Brant die kleinen Schwächen, lässlichen Missetaten und gravierenden Sünden seiner Zeitgenossen und veranschaulicht sie in der Figur des Narren, der sich durch Torheit und fehlende moralisch-sittliche Einsicht kennzeichnet. Die Basler Erstausgabe von 1494 präsentiert eine bunte Revue von 109 Narrentypen, die jeweils für eine bestimmte Verfehlung stehen und stets in einem Holzschnitt und einem Spruchgedicht vor Augen gestellt werden. Brants ''Narrenschiff'' darf als das Gründungsdokument der frühneuzeitlichen Narrenliteratur gelten. Seinen enormen Erfolg auf dem europäischen Buchmarkt belegen zahlreiche Neuauflagen, Nachdrucke und Übertragungen in die lateinische und in mehrere Volkssprachen, die bereits im 15. Jahrhundert im Druck erschienen sind.
 
<br clear=all>
 
 
 
==Intermedialität um 1500==
 
[[File:Intermedialitaet.jpg|150px|right|link= | alt=Eine illustrierte Seite des Narrenschiffs]]
 
Das ''Narrenschiff'' ist zudem ein prominentes Beispiel für Intermedialität um 1500. Sebastian Brant und sein Basler Verleger Bergmann von Olpe wussten die gestalterischen Möglichkeiten des Buchdrucks zu nutzen: Die 109 Narrenkapitel, die jeweils zwei bzw. vier Seiten einnehmen, folgen einem Grundlayout, das jeweils Mottoverse, Holzschnitt, Überschrift, Spruchgedicht und ggf. Bordüren einander zuordnet. Das Ergebnis ist, durchaus im Wortsinn, ein „Narrenspiegel“ (Vorrede v. 31): Im aufgeschlagenen Buch kann der Leser in Bild und Text erkennen, welcher Narr er ist. Das ''Narrenschiff'' präsentiert sich insofern als ein „Bildbuch“ (J. Knape), das – als Vorläufer der Emblematik – seine Aussage durch die Kombination verschiedener Medien vermittelt. Diese konstitutive Intermedialität empfiehlt das Werk für eine digitale Edition, die der ambitionierten Buchgestaltung und ihrer überlieferungsgeschichtlichen „Beweglichkeit“ Rechnung trägt.
 
<br clear=all>
 
  
 
=Korpus=
 
=Korpus=
==Die Ausgaben des Narrenschiffs==
+
==Arbeitsgrundlage==
Die Überlieferung von Brants ''Narrenschiff'' ist beeindruckend: Allein zwischen 1494 und 1500 erschienen 28 Druckausgaben. Brant selbst hatte gemeinsam mit dem Verleger Johann Bergmann von Olpe drei deutschsprachige Ausgaben (1494, 1495, 1499) in Basel publiziert. Kurz darauf erschienen die ersten Nachdrucke, Übersetzungen und Bearbeitungen: Noch im Jahr 1494 kamen unautorisierte Ausgaben in Nürnberg, Augsburg und Reutlingen auf den Markt. Wenig später wurde die sog. ''interpolierte Fassung'' in Straßburg gedruckt. Für das europäische Fortwirken des ''Narrenschiffs'' war entscheidend, dass Brant eine lateinische Bearbeitung durch seinen Schüler Jakob Locher anfertigen ließ. Diese ‚Stultifera navis‘, 1497 in Basel erschienen, erfuhr bis 1500 sieben Neuauflagen und war ihrerseits Vorlage für Übertragungen ins Niederländische, Niederdeutsche, Französische und Englische.
+
Die Datengrundlage bilden französische und deutschsprachige Romane aus dem 19. Jahrhundert. Diese stammen hauptsächlich aus Quellen wie der Digitalen Bibliothek von [https://textgrid.de/ TextGrid] oder dem [http://gutenberg.spiegel.de/  Projekt Gutenberg]. Die Erhebung von Metadaten sowie die Annotation von Texten zur Entwicklung und Evaluation neuer Methoden stehen ebenfalls im Fokus.
  
==Übersicht==
+
Im Rahmen dieses Teilprojekts wurde ein Korpus zusammengestellt, das aus Abschnitten aus je 130 zusammenhängenden Sätzen aus ca. 90 deutschsprachigen Romanen besteht. Diese Texte enthalten manuelle Annotationen zu Named Entities sowie Koreferenzen. Eine Veröffentlichung dieses ''Goldstandards'' ist geplant.
  
'''I. Sebastian Brants ‚Narrenschiff‘'''
+
Für die stilometrische Untersuchungen werden außerdem vereinzelte digitale Romantexte in anderen Sprachen wie Englisch oder Französisch aus frei zugänglichen Quellen hinzugezogen.
* Erstausgabe: <span style="color:red;">Basel 1494</span>
 
* autorisierte Neuauflagen: <span style="color:red;">Basel 1495</span> und Basel <span style="color:red;">1499</span>
 
  
 +
=Gattungen=
  
'''II. Nachdrucke'''
+
==Genreklassifikation==
* <span style="color:red;">Nürnberg 1494</span>
+
Ziel ist die automatische Einteilung von Romanen in Untergattungen wie Entwicklungsroman, Gesellschaftsroman oder auch Abenteuerroman. Hierzu werden verschiedene Arten von Features, etwa die ''Most Frequent Words'', verschiede ''Topic Models'' oder aus [[Romanfiguren | Figurennetzwerken]] extrahierte Eigenschaften hinsichtlich ihrer Performanz verglichen.
* Augsburg 1494
 
* Reutlingen 1494
 
  
 
+
Problematisch ist, dass derartige Experimente oft auf sehr kleinen Datenmengen erfolgen müssen, da Genrelabels aufwendig zu erheben sind und keine klaren Grenzen aufweisen - auch unter Experten herrscht hier oft Uneinigkeit. Entsprechend sind Methoden zur Signifikanzüberprüfung der Ergebnisse insbesondere bei kleinen Datenmengen wichtig. In weiterführenden Untersuchungen sollen Methoden zur Erkennung und Repräsentation von Plotstrukturen unternommen werden.
'''III. Bearbeitungen'''
+
<!-- =Sentimentanalyse? =
* Deutsch: <span style="color:red;">Straßburg 1494/5</span>, 1495, 1497; Augsburg 1495, 1498
+
In den Romanen können narrative Techniken über regelbasierte Verfahren annotiert oder über Verfahren des maschinellen Lernens automatisch in den Text eingetragen werden. Zur Klassifikation der Techniken werden auf Basis vorhandener Metadaten für die Romansammlung und die Dramensammlung in einem iterativen Prozess Feature-Vektoren aufgebaut. Die Optimierung der Verfahren betrifft die verfeinerte linguistische Vorverarbeitung durch transformationsbasierte Fehlerbehebung oder Domänenadaption und die Kombination probabilistischer graphischer Modelle (CRF) und regelbasierter Verfahren. Die Professur für Korpuslinguistik (Prof. Evert, Universität Erlangen-Nürnberg) bringt zusätzliche korpuslinguistische Expertise ein, u.a. aus einem Shared Task zur Tokenisierung und Wortartenannotierung nicht-standardnaher Texte. Darüber hinaus werden zuverlässige statistische Methoden zur Signifikanzüberprüfung der festgestellten Entwicklungen ausgearbeitet, implementiert und erprobt.
* Niederdeutsch: <span style="color:red;">Lübeck 1497</span>
 
* Latein: <span style="color:red;">Basel 1.3.14971.8.1497 , 1.3.1498</span>; Nürnberg 1497, Augsburg 1497, Straßburg 1497, Lyon 1498, <span style="color:red;">Paris 1499</span>
 
* Französisch: <span style="color:red;">Paris 1497</span> und <span style="color:red;">1499</span>; Lyon 1498 und <span style="color:red;">1499</span>
 
* Niederländisch: Paris 1500
 
* Englisch: <span style="color:red;">London 1509</span>
 
 
 
 
 
Ziel von „Narragonien digital“ ist es, die in dieser Übersicht <span style="color:red;">rot markierten</span> Ausgaben digital zu erschließen und in Online-Editionen (mit digitalem Faksimile, zeichengetreuer Transkription, ggf. Lesetext und überlieferungsgeschichtlichen Erläuterungen) zu präsentieren.
 
<!--
 
<gallery heights=300px mode="packed-hover">
 
File:NarrenschiffBasel.jpg | ''Narrenschiff'': Baseler Erstausgabe 1494 (GW 5041)
 
File:NarrenschiffLocher.jpg | ''Stultifera navis: lat''. Bearbeitung von Jakob Locher 1497 (GW 5054)
 
File:NarrenschiffMarnef1.jpg | ''La nef des folz du monde'': franz. Bearbeitung von Pierre Rivière 1497 (GW 5058)
 
</gallery>
 
 
-->
 
-->
  
<!---
+
=Stilometrie=
Das Untersuchungskorpus umfasst insgesamt 9 Ausgaben des ''Narrenschiffs'', davon 8 vor 1500 in deutscher, lateinischer und französischer Sprache sowie eine englische Bearbeitung von 1509. Aus diesem Korpus werden wesentliche Textfassungen und Übersetzungen ausgewählt und als digitales Faksimile sowie als computerlesbarer Text bereitgestellt:
+
==Stilometrische Abstandsmaße mit Delta==
 +
Ausgehend von ''Burrows’s Delta'', einem etablierten stilometrischen Abstandsmaß, werden verschiedene Varianten von ''Delta'' weiterentwickelt, um einerseits eine Verbesserung der Ergebnisse beispielsweise der Autorschaftsattribution zu erreichen und andererseits zu einem besseren Verständnis der Funktionsweise dieses im Kern erstaunlich einfachen Abstandsmaßes zu gelangen. In verschiedenen Experimenten wird untersucht, welchen Einfluss Aspekte wie Textlänge oder verschiedene Vektornormalisierungen auf die Ergebnisse von ''Delta'' haben. Zukünftig ist besonders die Unterscheidung zwischen Autor-, Gattungs- und Epochensignal von Interesse, um stilometrische Methoden wie ''Delta'' für automatische Genreklassifikation nutzbar zu machen.
  
[[File: NarrenschiffNuernberg.jpg ]]
+
=Materialien=
[[File: NarrenschiffStrassburg.jpg ]]
+
==Vorträge und Aufsätze==
[[File: NarrenschiffLocher.jpg ]]
+
* Lena Hettinger, Fotis Jannidis, Isabella Reger, Andreas Hotho: Significance Testing for the Classification of Literary Subgenres. DH conference, Krakow 2016.
[[File: NarrenschiffMarnef1.jpg ]]
 
[[File: NarrenschiffLyon.jpg ]]
 
[[File: NarrenschiffMarnef2.jpg ]]
 
[[File: NarrenschiffBarclay.jpg ]]
 
[[File: NarrenschiffNdd.jpg ]]
 
[[File:Collage.png|600px|center]]
 
<br clear=all>
 
<div class="narragonien-gallery" >
 
<gallery heights=300px mode="packed-hover">
 
File:NarrenschiffBasel.jpg | ''Narrenschiff'': Baseler Erstausgabe 1494 (GW 5041)
 
File:NarrenschiffNuernberg.jpg | ''Narrenschiff'': Nürnberger Fassung 1494 (GW 5042)
 
File:NarrenschiffStrassburg.jpg | ''Narrenschiff'': Straßburger Fassung 1494/5 (GW 5048)
 
File:NarrenschiffLocher.jpg | ''Stultifera navis: lat''. Bearbeitung von Jakob Locher 1497 (GW 5054)
 
File:NarrenschiffMarnef1.jpg | ''La nef des folz du monde'': franz. Bearbeitung von Pierre Rivière 1497 (GW 5058)
 
File:NarrenschiffLyon.jpg | ''La grant nef des folz du monde'': franz. Bearbeitung von J. Drouyn 1499 (GW 5060)
 
File:NarrenschiffMarnef2.jpg | ''La grant nef des folz du monde'': franz. Bearbeitung 1499/1500 (GW 5065)
 
File:NarrenschiffBarclay.jpg| ''The shyp of Folys'': engl. Bearbeitung von A. Barclay 1509.
 
File:NarrenschiffNdd.jpg | ''Niederdeutsche Fassung (Abbildung folgt)''
 
</gallery>
 
</div>
 
-->
 
  
=Arbeitsplan=
+
* Stefan Evert, Fotis Jannidis, Thomas Proisl, Isabella Reger, Thorsten Vitt, Christof Schöch, Steffen Pielström: Outliers or Key Profiles? Understanding Distance Measures for Authorship Attribution. DH conference, Krakow 2016.
== Modul OCR ==
 
[[File:CollageOCR.png|thumbnail|Zur Erfassung des frühneuzeitlichen Schriftbilds hat sich die Erstellung offizinspezifischer Typentabellen bewährt. | link=]]
 
Längst nicht alle Narrenschiffe vor 1500 sind in Printeditionen greifbar. Während Brants deutsche Ausgabe u.a. von F. Zarncke, M. Lemmer und J. Knape editorisch erschlossen wurde, existieren von Lochers 'Stultifera navis' nur N. Hartls Teilausgabe und von der französischen Fassung des Rivière nur eine entlegene und fehlerhafte Transkription. Die Nürnberger Bearbeitung von 1494, die Straßburger Ausgabe oder die französische Prosaversion sind bislang nicht ediert. Digitale Reproduktionen der Drucke sowie verstreute e-Texte zu den Basler Narrenschiffen, deren Zuverlässigkeit bisweilen fraglich ist, liegen bereits vor. Der erste Schritt zu einer digitalen Edition, die das Narrenschiff in Bild und Text präsentiert und auf wissenschaftlichem Niveau editorisch erschließt, ist daher die Bereitstellung zuverlässiger Transkriptionen.
 
Da nicht alle Texte händisch erfasst werden können, wird ein Teil durch OCR-Verfahren erstellt – eine Herausforderung angesichts der verwendeten Drucktypen und des anspruchsvollen Layouts. Die Transkriptionen der nicht erschlossenen Narrenschiffe werden von der Projektgruppe ‚Narragonien digital‘ mit Unterstützung ihrer technischen Partner erarbeitet. Hierzu wurden die für die OCR notwendigen hochaufgelösten Digitalisate eingeholt, außerdem wurden von der UB Würzburg Neudigitalisierungen von Ausgaben der Bibliothek Otto Schäfer Schweinfurt und der Staatlichen Bibliothek Regensburg durchgeführt. Die zur Transkription der Texte im Projekt erstellten Typentabellen und Trainingsdateien werden separat gespeichert, da auch die Erfassung weiterer Texte der jeweiligen Offizin durch die Transkriptionstabellen und Trainingsdateien erheblich erleichtert wird. Für GW 5042 konnte die UB Würzburg so bereits eine vollständige OCR mit einer Erkennungsgenauigkeit von 94,9% liefern.
 
<br clear=all>
 
  
== Synoptischer Transkriptionseditor ==
+
*Stefan Evert, Thomas Proisl, Christof Schöch, Fotis Jannidis, Steffen Pielström, Isabella Reger, Thorsten Vitt: Burrows' Delta verstehen. Sektionsbeitrag auf der DHd-Tagung 2016, Leipzig.
[[File:NarragonienTransEditor.png | thumbnail | Synoptischer Transkriptionseditor zur händischen Nachkorrektur des OCR-Outputs| link=]]
 
Die händische Nachkorrektur des OCR-Outputs wird durch den von KALLIMACHOS entwickelten synoptischen Transkriptionseditor erleichtert, der u.a. über eine eigene Benutzerverwaltung zur Planung und Aufgabenverteilung verfügt und die Korrektur und Auswahl der aus heutiger Sicht ungewohnten Drucktypen durch die Einbindung von Typentabellen unterstützt. Die für das frühneuzeitliche Druckbild typischen Sonderzeichen können in den Editor geladen werden und stehen bei der Korrektur schnell parat. Die aufwändige und fehleranfällige Suche nach den korrekten Unicode-Zeichen und die bei der Arbeit in externen Editoren oft auftretenden Probleme bei der Wahl der Textkodierung entfallen.
 
<!--
 
Die Transkription der nicht erschlossenen ''Narrenschiffe'' wird von KALLIMACHOS in Zusammenarbeit mit den OCR-Experten vom Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) in Kaiserslautern erarbeitet. Eine Kooperation besteht außerdem mit der Bibliothek Otto Schäfer und mit der Universitätsbibliothek Basel, die mehrere hochwertige Digitalisate zur Verfügung gestellt haben. Die zur Tranksription der Texte erstellten Typentabellen und Trainingsdateien werden separat gespeichert und stehen für die Erfassung weiterer Texte der jeweiligen Offizin zur Verfügung. Die händische Nachkorrektur des OCR-Outputs wird durch den von KALLIMACHOS entwickelten Transkriptionseditor erleichtert, der u.A. über eine eigene Benutzerverwaltung zur Planung und Aufgabenverteilung verfügt und die Korrektur und Auswahl der aus heutiger Sicht ungewohnten Drucktypen durch die Einbindung von Typentabellen unterstützt.
 
-->
 
<!--Hinzufügen: Screenshots des Tr.-Editors]
 
[Hinzufügen: Screenshots des Budig-Tools]
 
-->
 
<br clear=all>
 
  
==Semantic MediaWiki==
+
*Lena Hettinger, Fotis Jannidis, Isabella Reger, Andreas Hotho: Classification of Literary Subgenres. DHd 2016, Leipzig.
<!--[Sobald vorhanden: Screenshots]-->
 
Um die tranksribierten Texte gemeinsam in einer vollwertigen digitale Edition mit synoptischer Funktionalität zu vereinigen, sind umfangreiche Auszeichnungen von Text und Bild nötig. Layoutelemente wie Textspalten, Überschriften und Marginalien, aber auch semantische Komponenten wie die argumentative Struktur der Spruchgedichte werden verzeichnet und sollen auch über mehrere Ausgaben des ''Narrenschiffs'' hinweg auffindbar und vergleichbar sein. Auf der Basis von Semantic MediaWiki wird hierzu ein spezialisiertes Wiki-System geschaffen, über das die hierfür nötigen Auszeichnungen komfortabel konzeptionalisiert, strukturiert und implementiert sowie die für die spätere Anzeige im Portal benötigten Abfragen getestet werden können.
 
  
== Features der geplanten Edition ==
+
*Stefan Evert, Thomas Proisl, Christoph Schöch, Fotis Jannidis, Steffen Pielström, Thorsten Vitt: Towards a better understanding of Burrows' Delta in literary authorship attribution. 4th Workshop on Computational Linguistics for Literature, Denver, CO, USA, 2015. [http://www.aclweb.org/anthology/W15-0709 Download]
  
===Optimierte Lesefassung===
+
*Stefan Evert, Thomas Proisl, Christof Schöch, Fotis Jannidis, Steffen Pielström, Thorsten Vitt, : Explaining Delta, or: How do distance measures for authorship attribution work? Presentation at Corpus Linguistics 2015, Lancaster, UK. [http://www.stefan-evert.de/PUB/EvertProislEtc2015_abstract.pdf Abstract]
Die Veröffentlichung der annotierten ''Narrenschiffe'' erfolgt über ein eigenes Online-Portal<!--, das auf XXX basiert-->.  
 
Angezeigt wird ein E-Text, der das teils recht komplexe Layout des Originalscans möglichst zeilengetreu wiedergibt. Durch die Auflösung von Abkürzungen wird auch für Leser, die mit dem frühneuzeitlichen Druckbild und der Abkürzungspraxis nicht vertraut sind, ein komfortables Lesen der Edition sichergestellt.
 
  
<!-- ===Verlinkung der Marginalien===
+
*Lena Hettinger, Martin Becker, Isabella Reger, Fotis Jannidis, Andreas Hotho: Genre Classification on German Novels. 12th International Workshop on Text-based Information Retrieval, Valéncia, 2015. [http://www.uni-weimar.de/medien/webis/events/tir-15/tir15-papers-final/Hettinger2015-tir-paper.pdf Download]
Auch für die Marginalien des Narrenschiffs, die oft auf Bibelstellen und andere Bezugstexte verweisen, werden Auflösungen der teils abgekürzten Verweise bereitgestellt. Sofern vorhanden, sollen auch Verlinkungen zu frei verfügbaren Digitalisaten der Bezugstexte erfasst werden. Im Portal können die Bezugstexte über die entsprechenden Marginalien schnell aufgerufen werden.
 
-->
 
  
===Synoptische Gegenüberstellung der Texte ===
+
*Fotis Jannidis, Steffen Pielström, Christof Schöch, Thorsten Vitt: Improving Burrows' Delta: An empirical evaluation of text distance measures. DH conference, Sydney 2015. <!--Nicht im Rahmen von Kallimachos-->
[[File:SynopseBeispiel1.png|400px|right|link=| alt=Synoptische Gegenüberstellung zweier Narrenschiff-Ausgaben. Korresponierende Argumente sind auf beiden Seiten eingefärbt]]
 
In der digitalen Edition soll die Gegenüberstellung zweier Seiten im Faksimile oder im e-Text möglich sein. Diese Funktion soll auch für semantische Einheiten der Texte ermöglicht werden. Es werden sich z.B. die Spruchgedichte der Ausgaben und die darin vorgebrachten Argumente einander gegenüberstellen lassen, wodurch die „Beweglichkeit“ des Textes einsehbar wird. Die finale Darstellung in der Edition ist noch nicht festgelegt und kann daher abweichen.
 
<br clear=all>
 
  
 
<!--
 
<!--
===Holzschnittvergleich===
+
*Evert, Stefan; Proisl, Thomas; Schöch, Christof; Jannidis, Fotis; Pielström, Steffen; Reger, Isabella und Vitt, Thorsten: Burrows Delta verstehen. Sektionsbeitrag auf der DHd-Tagung 2016, Leipzig.
Wie die Spruchgedichte sollen sich auch die Holzschnitte und ihre Wandlungen synoptisch darstellen lassen. Damit sollen nicht nur Nachdrucke und Nachschnitte vergleichbar werden, sondern auch Mehrfachverwendungen innerhalb einer Ausgabe eruierbar werden.
 
-->
 
 
 
=Materialien=
 
== Vorträge und Publikationen ==
 
===''Narrenschiff''-Edition===
 
 
 
 
 
 
 
 
 
==== ''Aufsätze'' ====
 
*Christine Grundig, Joachim Hamm, Viktoria Walter: Narragonien digital. Mit einer Analyse von Kapitel 4 des ‚Narrenschiffs‘ in Ausgaben und Bearbeitungen des 15. Jahrhunderts. In: Wolfenbütteler Notizen zur Buchgeschichte 2017 (bei den Herausgebern)
 
 
 
*Christine Grundig: Theologische Überformung des ‚Narrenschiffs‘ – Geiler von Kaysersberg und die sogenannte ‚Interpolierte Fassung‘. In: Archiv für das Studium der neueren Sprachen und Literaturen 2017 (bei den Herausgebern)
 
 
 
*Joachim Hamm: Zu Paratextualität und Intermedialität in Sebastian Brants Vergilius pictus (Straßburg 1502). In: Diesseits des Laokoon. Intermedialität in der Frühen Neuzeit. Tagung an der Univ. Eichstätt, 28.-31.3.2012. Hg. v. Jörg Robert und Wolf Gerhard Schmidt (bei den Herausgebern).
 
*Joachim Hamm: Intermediale Varianz. Sebastian Brants 'Narrenschiff' in deutschen Ausgaben des 15. Jahrhunderts. In: Überlieferungsgeschichte transdisziplinär. Neue Perspektiven auf ein germanistisches Forschungsparadigma. In Verbindung mit Horst Brunner und Freimut Löser hg. v. Dorothea Klein. Wiesbaden 2016 (Wissensliteratur im Mittelalter 52), S. 223-240.
 
  
*Christine Grundig: „Text und Paratext. Konzepte von Paratextualität in deutschsprachigen Werken Sebastian Brants“. Masch. Magisterarbeit. Würzburg 2012.
+
*Hettinger, Lene; Jannidis, Fotis; Reger, Isabella und Hotho, Andreas. Classification of Literary Subgenres. DHd 2016, Leipzig.
  
====''Vorträge''====
+
*Evert, Stefan; Proisl, Thomas; Jannidis, Fotis; Pielström, Steffen; Schöch, Christof und Vitt, Thorsten: Towards a better understanding of Burrows's Delta in literary authorship attribution. 4th Workshop on Computational Linguistics for Literature, 2015, Denver, CO, USA. http://www.aclweb.org/anthology/W15-0709
* Brigitte Burrichter, Joachim Hamm: Narragonien digital. Vortrag im Workshop "Digitale Paläographie" (Interdisziplinäres Zentrum Editionswissenschaften, IZED), Univ. Erlangen, 12.-13.01. 2017
 
  
*Joachim Hamm: Narragonien digital. Gastvortrag an der Univ. Stuttgart, Digital Humanities (Prof. Dr. Gabriel Viehhauser), 15.12.2016
+
*Evert, Stefan; Proisl, Thomas; Schöch, Christof; Jannidis, Fotis; Pielström, Steffen; Vitt, Thorsten: Explaining Delta, or: How do distance measures for authorship attribution work? Presentation at Corpus Linguistics 2015, Lancaster, UK. http://www.stefan-evert.de/PUB/EvertProislEtc2015_abstract.pdf
  
*Christine Grundig: Theologische Überformung des 'Narrenschiffs' - Geiler von Kaysersberg und die sog. "Interpolierte Fassung". Vortrag beim 13. Altgermanistischen Kolloquium am Hesselberg, 4.-6.10.2016.
+
*Hettinger, Lena; Becker, Martin; Reger, Isabella; Jannidis, Fotis und Hotho, Andreas: Genre Classification on German Novels. 12th International Workshop on Text-based Information Retrieval, 2015, Valéncia. http://www.uni-weimar.de/medien/webis/events/tir-15/tir15-papers-final/Hettinger2015-tir-paper.pdf
  
*Christine Grundig: ''Narren en mouvance''. Adaptationen des ''Narrenschiffs'' im 15. Jahrhundert. Vortrag beim Workshop ''Wissen von Mensch und Natur. Tradierung, Aktualisierung und Vermittlung in frühneuzeitlichen Übersetzungen'' des Graduiertenkollegs 1876 ''Frühe Konzepte von Mensch und Natur '' an der Universität Mainz,19.2.-20.2.2016.
+
*Jannidis, Fotis; Pielström, Steffen; Schöch, Christof und Vitt, Thorsten: Improving Burrows' Delta: An empirical evaluation of text distance measures. DH conference Sydney 2015.
  
*Brigitte Burrichter, Raphaëlle Jung: Les Nefs des fols en ligne. Présentation d’un projet d’édition en ligne des "Nefs des fols" du XVe siècle. Vortrag bei der Jahrestagung der Association Internationale pour l’ étude du Moyen Français  in Turin, 28.9.-1.10. 2016.
 
  
*Brigitte Burrichter, Joachim Hamm: Narragonien digital. Vortrag beim XLIV. Internationalen Mediävistischen Colloquium in Castellabate (IT), 10-17.9.2016.
 
 
*Brigitte Burrichter: „Rahmen und intendiertes Publikum. Die Paratexte in Sebastian Brants 'Narrenschiff' und seinen Übersetzungen“. Vortrag bei dem Theorie-Workshop „Rahmungen. Präsentationsformen kanonischer Werke“ des Forschungsverbundes Marbach Weimar Wolfenbüttel, Projekt „Text und Rahmen“, vom 29.-31.7.2015 an der Herzog August Bibliothek Wolfenbüttel.
 
 
*Brigitte Burrichter, Joachim Hamm: Narragonien digital. Vortrag bei der Tagung ''Inkunabeln und Überlieferungsgeschichte'' des Wolfenbütteler Arbeitskreises für Bibliotheks-, Buch- und Mediengeschichte an der Universität Mainz, 29.6.-1.7.2015.
 
 
*Christine Grundig: „Sebastian Brants 'Narrenschiff': Zur Bild-Text-Relation in deutschsprachigen und europäischen Ausgaben des Werkes.“ Vortrag beim 10. Altgermanistischen Kolloquium am Hesselberg vom 1.-3.10.2013.
 
<!--
 
-->
 
 
===OCR-Verfahren===
 
*Martin Jenckel, Saqib Bukhari, Andreas Dengel: anyOCR: A Sequence Learning Based OCR System for Unlabeled Historical Documents. 23nd International Conference on Pattern Recognition, Mexico 2016.
 
 
*Felix Kirchner, Marco Dittrich, Phillip Beckenbauer, Maximilian Nöth: OCR bei Inkunabeln – Offizinspezifischer Ansatz der Universitätsbibliothek Würzburg. In: [http://www.degruyter.com/view/j/abitech ABI Technik] 36(3) 2016.
 
 
*Brennan Nunamaker, Saqib Bukhari, Damian Borth, Andreas Dengel: A Tesseract-Based OCR Framework For Historical Documents Lacking Ground-Truth Text. International Conference on Image Processing, USA 2016.
 
 
*Saqib Bukhari, Adnan Ul-Hasan, Andreas Dengel: OCRoRACT: A Sequence Learning OCR System Trained on Isolated Characters. 12th International Workshop on Document Analysis Systems, Greece 2016.
 
 
*Martin Jenckel, Saqib Bukhari, Andreas Dengel: Clustering Benchmark for Characters in Historical Documents. 12th International Workshop on Document Analysis Systems, Greece 2016.
 
 
*Saqib Bukhari, Adnan Ul-Hasan, Andreas Dengel: Meaningless Text OCR Model for Medieval Scripts. 2nd International Conference on Natural Sciences and Technology in Manuscript Analysis, Germany 2016.
 
<!--
 
==Downloads==
 
 
-->
 
-->
  
==Pressespiegel==
+
=Kontakt=  
*  Das Narrenschiff steuert ins digitale Zeitalter. In: [http://www.presse.uni-wuerzburg.de/einblick/single/artikel/narrenschi/ einBLICK], 14.04.2015.
+
==Projektgruppe ''Narrative Techniken''==
* „Narrenschiff“ auf digitalem Kurs. In: [http://www.damals.de/de/8/%C3%A2%E2%82%AC%C5%BENarrenschiff%C3%A2%E2%82%AC%C5%93-auf-digitalem-Kurs.html?aid=191576&cp=2&action=showDetails Damals online], 15.04.2015.
 
* Narrenschiff nimmt Kurs auf Neuland. In: [http://www.presse.uni-wuerzburg.de/fileadmin/uniwue/Presse/Campus-Beilagen/Campus-Juni-2015.pdf Campus-Magazin Univ. Würzburg] Juni 2015, S. 18-19.
 
* anyOCR – Intelligente Texterkennung steuert das „Narrenschiff“ ins digitale Zeitalter. In: [http://www.dfki.de/web/presse/pressemitteilungen_intern/2015/anyocr-2013-intelligente-texterkennung-steuert-das-201enarrenschiff201c-ins-digitale-zeitalter Pressestelle DFKI], 14.04.2015.
 
<br clear=all>
 
 
 
=Kontakt=
 
==Projektgruppe ''Narragonien digital''==
 
 
<br clear=all>
 
<br clear=all>
{{Romanistik}}
+
{{Lehrstuhl Comphil}}
*Prof. Dr. [http://www.romanistik.uni-wuerzburg.de/mitarbeiter/burrichter/ Brigitte Burrichter]
+
* Prof. Dr. [http://www.jannidis.de/ Fotis Jannidis]
 
+
* [http://www.germanistik.uni-wuerzburg.de/lehrstuehle/computerphilologie/mitarbeiter/reger/ Isabella Reger]
*[http://www.romanistik.uni-wuerzburg.de/mitarbeiter/walter/ Viktoria Walter]
 
*Martina Gold (bis 10/2015)
 
 
<br clear=all>
 
<br clear=all>
 
+
{{LSKI}}
{{ÄDL}}
+
* Prof. Dr. [http://www.is.informatik.uni-wuerzburg.de/staff/hotho Andreas Hotho]
*Prof. Dr. [http://www.mediaevistik.germanistik.uni-wuerzburg.de/mitarbeiter/hamm_joachim/ Joachim Hamm]
+
* Dipl.-Math. [http://www.is.informatik.uni-wuerzburg.de/mitarbeiter/hettinger_lena/ Lena Hettinger]
 
 
*[http://www.mediaevistik.germanistik.uni-wuerzburg.de/mitarbeiter/grundig_christine/ Christine Grundig] M.A.
 
 
<br clear=all>
 
<br clear=all>
===Studentische Hilfskräfte===
 
* Rena Buß
 
* Raphaelle Jung
 
* Sebastian Leue
 
* Maximilian Wehner
 
----
 
 
----
 
----
  
Zeile 224: Zeile 83:
 
{{Adresse Kallimachos}}
 
{{Adresse Kallimachos}}
 
*Dr. [https://elmut.uni-wuerzburg.de/person/23791 Hans-Günter Schmidt] (Projektleitung)
 
*Dr. [https://elmut.uni-wuerzburg.de/person/23791 Hans-Günter Schmidt] (Projektleitung)
 
*[https://elmut.uni-wuerzburg.de/person/48719 Regina Beitzinger] (Organisation)
 
  
 
*Dr. [https://elmut.uni-wuerzburg.de/person/916 Herbert Baier-Saip] (Systementwicklung und Systemadministration)  
 
*Dr. [https://elmut.uni-wuerzburg.de/person/916 Herbert Baier-Saip] (Systementwicklung und Systemadministration)  
  
*Dipl.-Inform. [https://elmut.uni-wuerzburg.de/person/13342 Felix Kirchner] (Systementwicklung und OCR)
+
*[https://elmut.uni-wuerzburg.de/person/7302 Jonathan Gaede] (Kommunikation mit den Use-Cases)
 
 
*[https://elmut.uni-wuerzburg.de/person/79876 Martin Gruner] (Entwicklung, Wiki-Systeme und OCR)
 
 
 
*Dipl.-Ing. [https://elmut.uni-wuerzburg.de/person/4518 Marco Dittrich] (Scantechnik, OCR, Digitalisierung)
 
 
 
*[https://elmut.uni-wuerzburg.de/person/29223 Ulf Weinmann] (Bildbearbeitung und Digitalisierung)
 
 
 
*[https://elmut.uni-wuerzburg.de/person/8294 Irmgard Götz-Kenner] (Bildbearbeitung und Fotografie)
 
 
 
*[https://elmut.uni-wuerzburg.de/person/7302 Jonathan Gaede] (Wiki-Systeme und Kommunikation mit den Use-Cases)
 
 
 
<br clear=all>
 
{{LSKI}}
 
* Prof. Dr. [http://www.is.informatik.uni-wuerzburg.de/en/staff/puppe_frank/ Frank Puppe]
 
 
<br clear=all>
 
<br clear=all>
{{Adresse DFKI}}
 
*Prof. Dr. [http://www.dfki.de/~dengel/content/index_ger.html Andreas Dengel]
 
  
*Dr. [http://www.dfki.de/~bukhari/ Syed Saqib Bukhari]
 
<br clear=all>
 
===Studentische Hilfskräfte===
 
*Sefika Sila Karakaya (OCR)
 
*Phillip Beckenbauer (OCR)
 
*Maximilian Nöth (OCR)
 
<br clear=all>
 
----
 
 
----
 
----
  
 
== Kooperationen ==
 
== Kooperationen ==
 
<br clear=all>
 
<br clear=all>
*PD Dr. [https://www.geistsoz.kit.edu/germanistik/1387_2126.php Michael Rupp], Germanistische Mediävistik und Frühneuzeitforschung, Univ. Karlsruhe
+
{{PKL}}
 +
*Prof. Dr. [http://www.stefan-evert.de/ Stefan Evert]
 +
 
 +
*[http://www.linguistik.fau.de/~tsproisl Thomas Proisl], M.A.
 
<br clear=all>
 
<br clear=all>
*[http://www.ub.unibas.ch/ub-hauptbibliothek/ Universitätsbibliothek Basel], Abt. Handschriften und Alte Drucke
 
*[http://bibliothek-otto-schaefer.de/ Bibliothek Otto Schäfer], Schweinfurt
 
*Projekt „Mittelniederdeutsch in Lübeck“ (MiL; WWU Münster); Projektleitung: Dr. Robert Peters, Norbert Lange
 
*Dr. [http://u-bordeaux3.academia.edu/AnneLaureMetzgerRambach Anne-Laure Metzger-Rambach] , Université de Michel de Montaigne Bordeaux 3
 
*Dr. Olga Anna Duhl, Lafayette College
 
 
 
<headertabs />
 
<headertabs />

Version vom 4. Juli 2016, 09:01 Uhr

[bearbeiten]

 Wordle der häufigsten Worte des deutschsprachigen Textkorpus

Narrative Techniken

Auf der Grundlage verschiedener Textkorpora sollen historische Entwicklungen von narrativen Techniken in deutschsprachigen und französischen Romanen verfolgt und Methoden zur automatischen Klassifikation von literarischen Genres und Subgenres mit Hilfe von Topic Modelling entwickelt werden, etwa durch die automatische Erkennung von Erzählformen.

Dazu werden Subgattungen deutscher Romane, etwa Bildungs-, Gesellschafts- und Abenteuerromane, genauer untersucht. Subgattungen werden in der Literaturwissenschaft zwar als etablierte Begriffe verwendet, es zeigt sich jedoch, dass Definitionen inkonsistent sind und über Jahre hinweg verschieben können. Mit Hilfe verschiedener Dimensionen von Romanen wie des Handlungsverlaufs, der Beziehung zwischen Hauptfiguren sowie stilometrischer Analyseergebnisse (z.B. zu den verwendeten Themen und zur Emotionalität) soll überprüft werden, ob und wie sich bestimmte literarische Subgattungen mit computerphilologischen Methoden unterscheiden lassen.

In Zusammenarbeit mit Prof. Evert (Professur für Korpuslinguistik, FAU Erlangen-Nürnberg) soll außerdem die literarische Autorschaftsattribution mit stilometrischen Abstandsmaßen verbessert werden. Außerdem ist die Trennung von Autor-, Gattungs- und Epochensignal in stilometrischen Analysen von großem Interesse, da dies wiederum der Zuverlässigkeit automatische Genreklassifikationen nutzen könnte. Darüber hinaus sollen zuverlässige statistische Methoden zur Signifikanzüberprüfung der festgestellten Entwicklungen ausgearbeitet, implementiert und erprobt werden.

Arbeitsgrundlage

Die Datengrundlage bilden französische und deutschsprachige Romane aus dem 19. Jahrhundert. Diese stammen hauptsächlich aus Quellen wie der Digitalen Bibliothek von TextGrid oder dem Projekt Gutenberg. Die Erhebung von Metadaten sowie die Annotation von Texten zur Entwicklung und Evaluation neuer Methoden stehen ebenfalls im Fokus.

Im Rahmen dieses Teilprojekts wurde ein Korpus zusammengestellt, das aus Abschnitten aus je 130 zusammenhängenden Sätzen aus ca. 90 deutschsprachigen Romanen besteht. Diese Texte enthalten manuelle Annotationen zu Named Entities sowie Koreferenzen. Eine Veröffentlichung dieses Goldstandards ist geplant.

Für die stilometrische Untersuchungen werden außerdem vereinzelte digitale Romantexte in anderen Sprachen wie Englisch oder Französisch aus frei zugänglichen Quellen hinzugezogen.

Genreklassifikation

Ziel ist die automatische Einteilung von Romanen in Untergattungen wie Entwicklungsroman, Gesellschaftsroman oder auch Abenteuerroman. Hierzu werden verschiedene Arten von Features, etwa die Most Frequent Words, verschiede Topic Models oder aus Figurennetzwerken extrahierte Eigenschaften hinsichtlich ihrer Performanz verglichen.

Problematisch ist, dass derartige Experimente oft auf sehr kleinen Datenmengen erfolgen müssen, da Genrelabels aufwendig zu erheben sind und keine klaren Grenzen aufweisen - auch unter Experten herrscht hier oft Uneinigkeit. Entsprechend sind Methoden zur Signifikanzüberprüfung der Ergebnisse insbesondere bei kleinen Datenmengen wichtig. In weiterführenden Untersuchungen sollen Methoden zur Erkennung und Repräsentation von Plotstrukturen unternommen werden.

Stilometrische Abstandsmaße mit Delta

Ausgehend von Burrows’s Delta, einem etablierten stilometrischen Abstandsmaß, werden verschiedene Varianten von Delta weiterentwickelt, um einerseits eine Verbesserung der Ergebnisse beispielsweise der Autorschaftsattribution zu erreichen und andererseits zu einem besseren Verständnis der Funktionsweise dieses im Kern erstaunlich einfachen Abstandsmaßes zu gelangen. In verschiedenen Experimenten wird untersucht, welchen Einfluss Aspekte wie Textlänge oder verschiedene Vektornormalisierungen auf die Ergebnisse von Delta haben. Zukünftig ist besonders die Unterscheidung zwischen Autor-, Gattungs- und Epochensignal von Interesse, um stilometrische Methoden wie Delta für automatische Genreklassifikation nutzbar zu machen.

Vorträge und Aufsätze

  • Lena Hettinger, Fotis Jannidis, Isabella Reger, Andreas Hotho: Significance Testing for the Classification of Literary Subgenres. DH conference, Krakow 2016.
  • Stefan Evert, Fotis Jannidis, Thomas Proisl, Isabella Reger, Thorsten Vitt, Christof Schöch, Steffen Pielström: Outliers or Key Profiles? Understanding Distance Measures for Authorship Attribution. DH conference, Krakow 2016.
  • Stefan Evert, Thomas Proisl, Christof Schöch, Fotis Jannidis, Steffen Pielström, Isabella Reger, Thorsten Vitt: Burrows' Delta verstehen. Sektionsbeitrag auf der DHd-Tagung 2016, Leipzig.
  • Lena Hettinger, Fotis Jannidis, Isabella Reger, Andreas Hotho: Classification of Literary Subgenres. DHd 2016, Leipzig.
  • Stefan Evert, Thomas Proisl, Christoph Schöch, Fotis Jannidis, Steffen Pielström, Thorsten Vitt: Towards a better understanding of Burrows' Delta in literary authorship attribution. 4th Workshop on Computational Linguistics for Literature, Denver, CO, USA, 2015. Download
  • Stefan Evert, Thomas Proisl, Christof Schöch, Fotis Jannidis, Steffen Pielström, Thorsten Vitt, : Explaining Delta, or: How do distance measures for authorship attribution work? Presentation at Corpus Linguistics 2015, Lancaster, UK. Abstract
  • Lena Hettinger, Martin Becker, Isabella Reger, Fotis Jannidis, Andreas Hotho: Genre Classification on German Novels. 12th International Workshop on Text-based Information Retrieval, Valéncia, 2015. Download
  • Fotis Jannidis, Steffen Pielström, Christof Schöch, Thorsten Vitt: Improving Burrows' Delta: An empirical evaluation of text distance measures. DH conference, Sydney 2015.


Projektgruppe Narrative Techniken


Am Hubland, Bau 8

D-97074 Würzburg

Tel.: 0931-31 88421

E-Mail




Technische Partner


Am Hubland

D-97074 Würzburg

Telefon: 0931/31-80534

E-mail



Kooperationen


Bismarckstr. 6

91054 Erlangen

Tel.: +49 09131 85-29251

E-mail