Philtag 14: Unterschied zwischen den Versionen
Aus Kallimachos
Gaede (Diskussion | Beiträge) Keine Bearbeitungszusammenfassung |
|||
| (22 dazwischenliegende Versionen von einem anderen Benutzer werden nicht angezeigt) | |||
| Zeile 3: | Zeile 3: | ||
==<philtag n="14"/>== | ==<philtag n="14"/>== | ||
Vom 16.-17. März 2017 | Vom 16.-17. März 2017 fand in Würzburg der 14. Workshop der DH-Tagungsreihe <philtag/> statt. Die etablierte Würzburger Tagungsreihe zum Einsatz digitaler Methoden in den Geistes- und Kulturwissenschaften bietet den Teilnehmern die Möglichkeit, sich über neue Trends, Projekte und Technologien im Bereich der Digital Humanities zu informieren und auszutauschen. Wie schon im [[Philtag |Vorjahr]] wurde der Workshop auch in diesem Jahr wieder von KALLIMACHOS ausgerichtet. | ||
Um sich über den <philtag/> und weitere Neuigkeiten zu KALLIMACHOS auf dem Laufenden zu halten, können Sie außerdem unseren [https://lists.uni-wuerzburg.de/mailman/listinfo/kallimachos-news E-mail-Newsletter] sowie unseren [http://kallimachos.de/kallimachos/index.php?title=Newsletter:Kallimachos&action=feed&feed=rss RSS-Feed] abonnieren. | |||
=Tagungsbericht= | |||
==Tagungsbericht== | |||
<div class="tagungsbericht"> | |||
Den thematischen Schwerpunkt der diesjährigen Tagung stellten Digitale Editionen im erweiterten Sinne dar. Die insgesamt zwölf Vorträge beschäftigten sich mit Verfahren zur Erschließung digitaler Volltexte, insbesondere durch Optical-Character-Recognition (OCR), sowie mit der Korrektur, Auszeichnung und schließlich der Präsentation und Visualisierung der Texte und Textkorpora im Netz. | |||
===Tag 1=== | |||
Den Anfang machten Wahed Hemati und Tolga Uslu (Universität Frankfurt), die zwei beim Frankfurter [https://hucompute.org/ Text Technology Lab] entwickelte Projekte vorstellten: Das Projekt [https://hucompute.org/applications/wikidition/ Wikidition] bietet eine Darstellungsumgebung für digitale Editionen, die auf Semantic MediaWiki basiert und unter Anderem Möglichkeiten zur Lemmatisierung, Annotation und Vergleich der erfassten Texte liefert. Darüber hinaus stellt der [https://hucompute.org/textimager/ Textimager ] ein mächtiges Tool zur automatischen Textanalyse dar, das eine Vielzahl etablierter Analyseverfahren gemeinsam mit etablierten und neuen interaktiven Visualisierungsmöglichkeiten in einem gemeinsamen Framework zusammenführt. | |||
Ben Kiessling (Uni Leipzig, [http://www.dh.uni-leipzig.de/wo/ Digital Humanities]) stellte die im Leipziger OpenPhilology-Projekt zum Einsatz kommende OCR-Pipeline [https://openphilology.github.io/nidaba/ Nidaba] vor, die eine Kombination zahlreicher freier Softwaremodule zur automatischen Bildvorverarbeitung, Layoutanalyse und Texterkennung erlaubt. Im Anschluss diskutierte Thomas Köntges (Uni Leipzig, [http://www.dh.uni-leipzig.de/wo/ Digital Humanities]) die Möglichkeiten und Herausforderungen bei der computergestützten Textanalyse von historischen Texten. Während Verfahren etwa zum Topic Modelling auf modernen englischen Texten vergleichsweise leicht anwendbar sind, funktionieren diese bei antiken griechischen Texten aufgrund der höheren morphologischen Komplexität deutlich schlechter. Hier sind umfangreiche morphologische Normalisierungen nötig, die allerdings stets verlustbehaftet sind. | |||
Marcus Liwicki (Uni Freiburg, [http://diuf.unifr.ch/main/ Informatik]) gewährte in seinem Beitrag Einblicke in die Funktionsweise neuronaler Netze, die durch Deep Learning z.B. darauf trainiert werden können, Layoutzonen in historischen Dokumenten zu erkennen oder aus den Texten automatisch bestimmte Schlüsselinformationen zu extrahieren. | |||
Steffan Müller ([https://www.badw.de/die-akademie.html BaDW]) stellte das Akademieprojekt Ptolemaeus Arabus et Latinus vor, bei dem Transkriptionen der astronomischen und astrologischen Werke des Claudius Ptolemaeus (2. Jh. n. Chr.) in einer leserfreundlichen Online-Edition zusammen mit den dazugehörigen Faksimila im Netz dargeboten werden. Der reichhaltig annotierte und mit Metadaten angereicherte Text wird hierbei zusätzlich mit einem Katalog von weiteren Werken vernetzt. | |||
Den Abschluss des ersten Veranstaltungstages stellte der Vortrag der DH-Nachwuchsgruppe [https://cligs.hypotheses.org/ CLiGS] dar. Präsentiert wurde die CliGS-Textbox, die der Nachwuchsgruppe als Organisationsmodell und Publikationskanal für die untersuchten Texte und Textkorpora (im konkreten Fall einer Sammlung literarischer Text in romanischen Sprachen) dient. Als Publikationsstrategie dient hierbei eine Kombination der kooperativen Entwicklungsumgebung GitHub mit dem Online-Speicherdienst Zenodo, der die persistente Verfügbarkeit der Texte und Forschungsdaten sicherstellt. | |||
Wie schon im Vorjahr war auch diesmal als Ausklang ein gemeinsames Abendessen angesetzt, diesmal im Würzburger Traditionslokal [http://www.backoefele.de/main/index.php Backöfele]. Hier konnten die Eindrücke der Vorträge im Gespräch vertieft und neue Kontakte geknüpft werden. | |||
===Tag 2=== | |||
[[File: VortragReul2017-1.jpg | link= | alt= Vortrag Christian Reul]] | |||
[[File: VortragReul2017-2.jpg | link= | alt= Vortrag Elisa Herrmann]] | |||
[[File: VortragKrug2017.jpg | link= | alt= Vortrag Markus Krug]] | |||
Der zweite Veranstaltungstag begann mit zwei Vorträgen des Würzburger [http://www.is.informatik.uni-wuerzburg.de/startseite/ Lehrstuhls für Künstliche Intelligenz und Angewandte Informatik (Informatik VI)]: Markus Krug präsentierte mit ATHEN ein Werkzeug zur Annotation von Textkorpora. ATHEN ist in der Lage, verschiedene Arten von digitalen Texten zu importieren, um diese mit weiteren Informationen anzureichern. Auf diese Weise können z.B. Eigennamen sowie die sich auf sie beziehenden Personalpronomen erkannt und ausgezeichnet werden. Darüber hinaus kann ATHEN automatisch direkte Rede inklusive der Sprecher und Angesprochenen sowie eine Vielzahl weiterer Merkmale literarischer und nichtliterarischer Texte erkennen. Christian Reul stellte das Tool LAREX vor, das eine vereinfachte Segmentierung und Layout-Analyse von frühen Buchdrucken ermöglicht. Das Tool schlägt hierzu Bildregionen im gescannten Text vor und versucht, diese automatisch z.B. als Fließtexte, Illustrationen, Marginalien oder Kopfzeilen zu klassifizieren. Die Ergebnisse können z.B. zur automatischen OCR-Erfassung oder zur Verknüpfung von digitalem Text und den dazugehörigen Bildregionen genutzt werden. | |||
Günter Mühlberger (Universität Innsbruck, [https://www.uibk.ac.at/germanistik/dea/ DEA]) stellte die Online-Forschungsinfrastruktur [https://transkribus.eu/Transkribus/ Transkribus] vor, die verschiedene Tools zur automatischen Dokumentenanalyse vereint. Zu den mit Transkribus analysierbaren Texten gehören insb. auch handschriftliche Texte. | |||
Auch die beiden abschließenden Vorträge des Münchner Centrums für Informations- und Sprachverarbeitung ([http://www.cis.uni-muenchen.de/ CIS]) beschäftigen sich mit der OCR historischer Texte: Uwe Springmann diskutierte die Herausforderungen bei der OCR von Frühdrucken, insb. hinsichtlich der Vor- und Nachteile von gemischten und von individuell für den jeweiligen Text erstellten OCR-Modellen. Florian Fink stellte schließlich die am CIS verwendete Software PoCoTo vor, die eine vereinfachte interaktive Nachkorrektur von OCR-erzeugten Transkriptionen ermöglicht. | |||
===Fazit=== | |||
Auch in diesem Jahr erfuhr der Philtag mit 70-80 interessierten und motivierten Teilnehmerinnen und Teilnehmern einen hohen Zuspruch. Wir bedanken uns an dieser Stelle sowohl bei unseren Vortragenden als auch beim Publikum für die zahlreiche Anregungen und die engagierte Teilnahme an der Tagung. Wir freuen uns darauf, Sie im nächsten Jahr wieder bei uns begrüßen zu dürfen! | |||
</div> | |||
=Tagungsplan= | =Tagungsplan= | ||
==Tagungsplan== | ==Tagungsplan== | ||
''Hinweis zur Anreise'': Wenn Sie mit der Bahn anreisen, erreichen Sie die Zentralbibliothek am | ''Hinweis zur Anreise'': Wenn Sie mit der Bahn anreisen, erreichen Sie die Zentralbibliothek am besten über die Buslinien 214 und 114 (Haltestelle ''Universitätszentrum'') oder die Buslinie 14 (Haltestelle ''Am Hubland'', von hier ca. 300 Meter geradeaus. Sie bewegen sich in diesem Fall an der Rückseite der Universitätsbibliothek vorbei). | ||
===Tag 1 (16.3.2017)=== | ===Tag 1 (16.3.2017)=== | ||
| Zeile 42: | Zeile 71: | ||
| 14:00-14:20 | | 14:00-14:20 | ||
| Marcus Liwicki (Uni Freiburg, [http://diuf.unifr.ch/main/ Informatik]): ''Deep Learning für Automatische Dokumentanalyse'' | | Marcus Liwicki (Uni Freiburg, [http://diuf.unifr.ch/main/ Informatik]): ''Deep Learning für Automatische Dokumentanalyse'' | ||
|- | |- | ||
|14:20-14:40 | |14:20-14:40 | ||
| Stefan Müller ([https://www.badw.de/die-akademie.html BAdW]): ''Ptolemaeus Arabus et Latinus. Transkriptionen, Konvertierung und Verknüpfung'' | | Stefan Müller ([https://www.badw.de/die-akademie.html BAdW]): ''Ptolemaeus Arabus et Latinus. Transkriptionen, Konvertierung und Verknüpfung'' | ||
|- | |- | ||
| 14:40-15:00 | | 14:40-15:00 | ||
| [https://cligs.hypotheses.org/ Nachwuchsgruppe CLiGS]: ''Die CLiGS-textbox – Ein Modell für das Aufbauen und Bereitstellen von literarischen Textsammlungen | | [https://cligs.hypotheses.org/ Nachwuchsgruppe CLiGS]: ''Die CLiGS-textbox – Ein Modell für das Aufbauen und Bereitstellen von literarischen Textsammlungen | ||
|- | |- | ||
| 15:00-15:30 | | 15:00-15:30 | ||
| Zeile 71: | Zeile 95: | ||
| 9:00-9:20 | | 9:00-9:20 | ||
| Markus Krug (Uni Würzburg, [http://www.is.informatik.uni-wuerzburg.de/startseite/ Informatik VI]): ''ATHEN – Ein Werkzeug zur Annotation von Textkorpora'' | | Markus Krug (Uni Würzburg, [http://www.is.informatik.uni-wuerzburg.de/startseite/ Informatik VI]): ''ATHEN – Ein Werkzeug zur Annotation von Textkorpora'' | ||
|- | |- | ||
| 9:20-9:40 | | 9:20-9:40 | ||
| Christian Reul (Uni Würzburg, [http://www.is.informatik.uni-wuerzburg.de/startseite/ Informatik VI]): ''LAREX – Ein Werkzeug zur Layout-Analyse und Segmentierung von frühen Buchdrucken'' | | Christian Reul (Uni Würzburg, [http://www.is.informatik.uni-wuerzburg.de/startseite/ Informatik VI]): ''LAREX – Ein Werkzeug zur Layout-Analyse und Segmentierung von frühen Buchdrucken'' | ||
|- | |- | ||
| 9:40-10:00 | | 9:40-10:00 | ||
| Günter Mühlberger (Projekt [https://transkribus.eu/Transkribus/ Transkribus]): ''Transkribus – Eine Forschungsinfrastruktur zur automatisierten Transkription, Erkennung und Anreicherung historischer Dokumente.'' | | Günter Mühlberger (Projekt [https://transkribus.eu/Transkribus/ Transkribus]): ''Transkribus – Eine Forschungsinfrastruktur zur automatisierten Transkription, Erkennung und Anreicherung historischer Dokumente.'' | ||
|- | |- | ||
| 10:00-10:20 | | 10:00-10:20 | ||
| Zeile 87: | Zeile 107: | ||
| 10:20-10:40 | | 10:20-10:40 | ||
| Uwe Springmann ([http://www.cis.uni-muenchen.de/personen/mitarbeiter/springmann/index.html CIS München]): ''Gemischte OCR-Modelle für die Erkennung gedruckter Texte seit Gutenberg'' | | Uwe Springmann ([http://www.cis.uni-muenchen.de/personen/mitarbeiter/springmann/index.html CIS München]): ''Gemischte OCR-Modelle für die Erkennung gedruckter Texte seit Gutenberg'' | ||
|- | |- | ||
| 10:40-11:00 | | 10:40-11:00 | ||
| Florian Fink ([http://www.cis.lmu.de/personen/mitarbeiter/fink/index.html CIS München]): ''PoCoTo – Ein Werkzeug zur interaktiven Nachkorrektur'' | | Florian Fink ([http://www.cis.lmu.de/personen/mitarbeiter/fink/index.html CIS München]): ''PoCoTo – Ein Werkzeug zur interaktiven Nachkorrektur'' | ||
|- | |- | ||
| 11:00-11:30 | | 11:00-11:30 | ||
| Zeile 98: | Zeile 115: | ||
|} | |} | ||
</div> | </div> | ||
<!--*[[media:Tagungsplan Philtag 2017|Der Tagungsplan als Download]]--> | |||
=Materialien= | |||
==Tagungsplan== | |||
<!-- Tagungsplan und Materialien --> | |||
<p> | |||
*[[media:Tagungsplan Philtag 2017.pdf|Der Tagungsplan als Download]] | |||
</p> | |||
==Abstracts und Präsentationen== | |||
===Tag 1=== | |||
<!--*Tolga Uslu: Wikidition – Eine Architektur für digitale Editionen | |||
*Wahed Hemati: Textimager – Eine webbasierte Umgebung für die bildgebende Semantik | |||
**[[media:Presentation TTL Wikidition Textimager.pdf|Gemeinsame Präsentation]]--> | |||
*Marcus Liwicki: Deep Learning für Automatische Dokumentanalyse | |||
**[[media:Presentation Liwicki Deep Learning.pdf|Präsentation]] | |||
*Stefan Müller: Ptolemaeus Arabus et Latinus. Transkriptionen, Konvertierung und Verknüpfung | |||
**[[media:Abstract Mueller Ptolemaeus Arabus et Latinus.pdf|Abstract]] | |||
**[[media:Presentation Mueller Ptolemaeus Arabus et Latinus.pdf|Präsentation]] | |||
*Nachwuchsgruppe CLiGS: Die CLiGS-textbox – Ein Modell für das Aufbauen und Bereitstellen von literarischen Textsammlungen | |||
**[[media:Abstract CLiGS-Textbox.pdf|Abstract]] | |||
**[https://christofs.github.io/textbox-de/#/ Präsentation] | |||
===Tag 2=== | |||
*Markus Krug: ATHEN – Ein Werkzeug zur Annotation von Textkorpora | |||
**[[media:Abstract Krug ATHEN.pdf|Abstract]] | |||
*Christian Reul: ''LAREX – Ein Werkzeug zur Layout-Analyse und Segmentierung von frühen Buchdrucken'' | |||
**[[media:Abstract Reul LAREX.pdf|Abstract]] | |||
**[[media:Presentation Reul LAREX.pdf|Präsentation]] | |||
*Günter Mühlberger: Transkribus – Eine Forschungsinfrastruktur zur automatisierten Transkription, Erkennung und Anreicherung historischer Dokumente. | |||
**[[media:Abstract Mühlberger Transkribus.pdf|Abstract]] | |||
*Uwe Springmann: Gemischte OCR-Modelle für die Erkennung gedruckter Texte seit Gutenberg | |||
**[[media:Abstract Springmann Gemischte OCR-Modelle.pdf|Abstract]] | |||
**[[media:Presentation Springmann Gemischte OCR-Modelle.pdf|Präsentation]] | |||
*Florian Fink: PoCoTo – Ein Werkzeug zur interaktiven Nachkorrektur | |||
**[[media:Abstract Fink PoCoTo.pdf|Abstract]] | |||
<headertabs /> | <headertabs /> | ||
{{Sprachauswahl|Philtag_14_(en)|Philtag_14}} | {{Sprachauswahl|Philtag_14_(en)|Philtag_14}} | ||
__NOTOC__ | |||
Aktuelle Version vom 14. Mai 2020, 23:36 Uhr