Projektbeschreibung: Unterschied zwischen den Versionen

Aus Kallimachos
Wechseln zu:Navigation, Suche
DeletedUser (Diskussion | Beiträge)
DeletedUser (Diskussion | Beiträge)
Zeile 139: Zeile 139:


==Begriffliches==
==Begriffliches==
'''Was bedeutet eigentlich "OCR"?'''
'''Was steckt eigentlich hinter der Abkürzung ''OCR''?'''
Als
* ''OCR'' steht für ''Optical Character Recognition'', also die automatische Erkennung von Buchstaben und Texten anhand digitalisierter Bilddateien.


== Räumliches ==
== Räumliches ==

Version vom 18. Januar 2016, 12:11 Uhr

[bearbeiten]


KALLIMACHOS führt Geisteswissenschaftler, Informatiker und Bibliothekare in einem regionalen Digital Humanities-Zentrum zusammen. Die an der Universität Würzburg vorhandenen Kooperationen und Kompetenzen werden durch Partner am DFKI Kaiserslautern (OCR) und an der Universität Erlangen-Nürnberg (Fachbereich Linguistische Informatik) ergänzt.

Unser Aufgabenschwerpunkt liegt auf der Betreuung digitaler Editionen und quantitativer Analyseverfahren aus dem Bereich des Text Mining, z.B. Stilometrie, Topic Modeling und Named Entity Recognition. Wir bieten unseren Projektpartnern die nötige technische und soziale Infrastruktur, die Geisteswissenschaftler bei der Beantwortung von Forschungsfragen auf der Basis digitaler Methoden unterstützt.

Auf der technischen Seite gehören dazu die Entwicklung und Bereitstellung der benötigten Software-Komponenten und das Erarbeiten prototypischer Arbeitsabläufe, die in bereits vorhandene Infrastrukturen integriert werden. Dabei ist uns gerade auch die langfristige Verfügbarkeit, Pflege und Archivierung der Projekte, Portale und Forschungsdaten ein wichtiges Anliegen.

Außerdem fördern wir durch regelmäßige Workshops und Tagungen den Austausch zwischen den regionalen und überregionalen Digital-Humanities-Projekten. Durch Beratungen und Schulungen führen wir Fachleuten ebenso wie dem akademischen Nachwuchs die Möglichkeiten digitaler Methoden zur Bearbeitung von Forschungsfragen vor Augen und bieten methodische, technische und organisatorische Unterstützung.

[bearbeiten]

Prototypische Arbeitsabläufe zur Datenanalyse

Ausgehend von unseren Teilprojekten als Use Cases werden prototypische Abläufe zur Datenanalyse für die Geisteswissenschaften etabliert und für das Zielpublikum verständlich dokumentiert. Im Rahmen unseres eigens entwickelten Workflowmanagementsystems Wüsyphus II können die etablierte Tools zu Arbeitsketten zusammengestellt werden. Diese sollen durch interne und öffentliche Schulungen auch einer größeren Öffentlichkeit im Bereich der Digital Humanities bekannt gemacht werden. Die ermittelten Best-Practice-Implementierungen werden in die Workflows integriert, am Beispiel der der Use Cases empirisch validiert und der Forschungsgemeinschaft zur Verfügung gestellt. So wird die das „Nachbauen“ mit eigenen Daten im Rahmen weitere Projekte vereinfacht.

Nicht alle Punkte der Wüsyphus-II-Workflowkette müssen im Rahmen von KALLIMACHOS durchlaufen werden. So kann es etwa vorkommen, dass für ein Projekt bereits die nötigen Digitalisate vorliegen, womit das Einscannen der physischen Originale nicht nötig ist. Die Planung eines individuellen Projektworkflows ist aber für alle Use-Cases obligatorisch. Die folgende Grafik zeigt, welche Arbeitsschritte der Workflowkette für die Teilprojekte von Bedeutung sind:

Einscannen der Originale

Das in Zentralbibliothek der Universät eingerichtete Digitalisierungszentrum stellt die nötige Technik und das Fachpersonal für die Neu- und Ersterstellung von hochwertigen Digitalisaten aus den physischen Originalen zur Verfügung. Auch für schwierige Fälle stehen Lösungen parat: So sind mit einer eigens angefertigten Buchwippe auch Scanarbeiten an Folianten mit einem maximalen Öffnungswinkel bis 60° oder größer möglich und für die Digitalisierung großformatiger Poster steht eine Unterdruck-Saugwand zur Verfügung.

Interner Metadateneditor

OCR-Modul

Das OCR-Modul stell eine automatisierte Vorverarbeitung für die Volltexterstellung zur Verfügung. Auf der Grundlage der Arbeiten und Softwarebausteine des DFKI soll der im Projekt verfolgte Ansatz aus folgenden Schritten bestehen:

  • Integration der bisherigen OCR-Komponenten auf Softwarebene,
  • Training von neuen Zeichensätzen für historische Druck- und Handschriften,
  • Entwicklung von „Wörterbüchern“ für historische Orthographien,
  • Weiterentwicklung der nichtparametrischen Methoden für die Bildvorverarbeitung, Layoutanalyse und Sprachmodellierung.

Synoptischer Editor

Das Modul bietet ein Framework für Online-Editoren, in denen Texte und Bilder nebeneinander angezeigt, annotiert und über Bild-Text-Links verknüpft werden können. Die Editoren können dabei auf die Anforderungen der jeweiligen Projekte zugeschnitten werden.

So wird ein intuitives Web-Editionswerkzeug geschaffen, das auch ohne tiefgreifende Kenntnisse im Bezug auf Textkodierung und XML-Formate eine manuelle Nachkorrektur der Resultate des automatischen Bildanalyse- und OCR-Moduls ermöglicht. Damit wird, in Verbindung mit der Benutzerrechteverwaltung des WÜsyphus II-Workflowsystems, die Einbeziehung von Hilfskräften, Seminarteilnehmern und sogar interessierten "Laien" in Editionsprojekte erleichtert bzw. überhaupt erst möglich gemacht.

Das Modul basiert auf einer Weiterentwicklung der Dreifachlupe mit synchronisierten, zoombaren Bildstreifen für Scan, Transkription und Übersetzung dar, die sich als Präsentationswerkzeug bereits im Rahmen von [Link: http://vb.uni-wuerzburg.de/ub/index.html Virtuellen Bibliothek Würzburg] und Franconica Online bewähren konnte. Zusätzlich werden Komponenten des auf Open-Source-Basis verfügbaren CK-Editors ausgebaut. Die entsprechend erweiterte WÜsyphus-Dreifachlupe wird so angepasst, dass sie zusammen mit dem CK-basierten XML-Editor auch in der TextGrid-Weboberfläche verwendet werden kann.

Portale

Wiki-Systeme

Auf der Basis von Semantic MediaWiki, einer Erweiterung des von Portalen wie Wikipedia bekannten Frameworks, wird ein einfach benutzbares und schnell anpassbares Wiki-System zur Bearbeitung, Strukturierung und Präsentation der erfassten Daten zur verfügung gestellt, das bei

werden einfach benutzbarer Web-3.0-Komponente


Stichworte: Semantic MediaWiki Crowdsourcing, Nutzerrechteverwaltung, Web 3.0,

JamWiki und TextGrid überhaupt erwähnen?

Textanalyse

Dieses Modul unterstützt anhand der Textanalyse-Use-Cases

  • die Zusammenstellung eines Korpus zu analysierender Texte aus dem TextGrid-Repository bzw. WÜsyphus u.a. anhand ihrer Metadaten,
  • die Aufbereitung der gewählten Texte mit ihren Metadaten für ihre Analyse mit UIMA,
  • die Ausführung der Analyse und schließlich
  • eine Einbindung der Analyseergebnisse in TextGrid, etwa durch die Rückübertragung von Annotationen durch UIMA nach TEI.


Diese Teilschritte können, ggf. in angepasster Form, auch allgemeiner von anderen Projekten nachgenutzt werden. So sollen langfristig auch Neulinge und "Laien" im Bereich Datenanalyse von den Vorteilen der automatischen Analyseverfahren profitieren, etwa wenn es um die Erkennung grammatischer Fälle oder von Eigennamen in einem Text geht.

Archivierung

[bearbeiten]

TODO: Sortieren

Projektgruppe "Narragonien digital"

Projektleitung

Mitarbeiter/innen:

Studentische Hilfskräfte:

  • Ina Braunschmidt
  • Raphaelle Jung
  • Sebastian Leue


Forschungsgruppe Wissensmanagement

Trippstadter Straße 122

67663 Kaiserslautern

Tel.: 0631 20575-1000

E-Mail

Lehrstuhl I (Gräzistik)

Residenzplatz, 2 (Südflügel)

D-97070 Würzburg
[bearbeiten]

Zusammenarbeit

Ich habe ein geisteswissenschaftliches Projekt(konzept), für das ich gerne mit KALLIMACHOS zusammenarbeiten würde. Wen soll ich kontaktieren und wann können wir anfangen?

  • Zur Zeit befindet sich KALLIMACHOS noch in der Aufbauphase, d.h. dass wir in Zusammenarbeit mit den derzeitigen Teilprojekten ein Workflowsysten aufbauen, das für eine große Bandbreite geisteswissenschaftlicher Projekte nachgenutzt werden kann. 2017 wird diese Phase abeschlossen sein und das System für weitere Projekte zur Verfügung stehen. Gerne können Sie aber auch schon vorher mit uns Kontakt aufnehmen und ihre Pläne mit uns besprechen. Anfragen richten Sie am besten direkt an den Projektleiter Dr. Hans-Günter Schmidt oder an kallimachos@bibliothek.uni-wuerzburg.de


Brauchen wir eigene DH-Kompetenzen, um ein digitales Projekt bei KALLIMACHOS zu starten?

  • Natürlich schadet zusätzliche Expertise hier nicht, der Grundgedanke von KALLIMACHOS ist aber, die nötige Infrastruktur auch für eher "analog" ausgerichtete Lehrstühle und Forschungsgruppen zur Verfügung zu stellen. Die benutzerangepassten Tools des Workflowsystems sollen den Geisteswissenschaftlern ermöglichen, sich ganz auf den Forschungsprozess zu konzentrieren – auch ohne sich vertieft in die Spezifika von XML-Kodierung, Datenbankarchitektur, OCR-Verfahren usw. einzuarbeiten.


Wie funktioniert die Finanzierung von KALLIMACHOS-Projekten?

Begriffliches

Was steckt eigentlich hinter der Abkürzung OCR?

  • OCR steht für Optical Character Recognition, also die automatische Erkennung von Buchstaben und Texten anhand digitalisierter Bilddateien.

Räumliches

Wo finde ich das Digitalisierungszentrum / den Besprechungsraum ___?


TODO