LOD-Showcases

Showcases: How do I work with data in my project?

Here we will gradually publish showcases of our members in which they present their projects.

Die Wenzelsbibel – Digitale Edition und Analyse

Linda Beutel-Thurow (Salzburg)

Das Kooperationsprojekt der Universität Salzburg und der Österreichischen Nationalbibliothek (ÖNB) Die Wenzelsbibel – Digitale Edition und Analyse zielt auf eine erstmalige digitale Gesamtedition und Analyse der Wenzelsbibel, welche für den böhmischen und deutschen König Wenzel IV. um 1390–1400 angelegt wurde.

Als Grundlage für die Text- als auch Bildedition dient das Datenformat TEI. Die Annotationen folgen dabei den aktuellen Richtlinien. Die spezifische Verwendung wird über ein Transkriptions- und Bilderfassungshandbuch definiert, um den Annotationsvorgang genau zu dokumentieren und die Datenstruktur für Nutzende transparent zu machen. So kann z.B. <surplus> verschiedene Szenarien beschreiben, warum Textteile den Lesefluss stören oder als redundant empfunden werden. Das Attribut @reason entspricht zwar den offiziellen Guidelines, der Inhalt darf aber willkürlich sein. Entsprechend wurden projektintern bislang fünf ‚Gründe‘ definiert, welche diese Annotation erforderlich machen (z.B. diplography o. decor) und können über das Transkriptionshandbuch nachvollzogen werden. Darüber hinaus enthält es alle Informationen zur Darstellung der verschiedenen Textannotationen im Frontend der ÖNB. Dieses bietet aktuell die Darstellung des digitalen Faksimiles, der Transkription, der Lesefassung sowie die Beschreibung der Illuminationen und des TEI-XMLs.

Während die Vorgaben für die Textannotation sehr klar definiert sind, gestaltet sich die Bildedition in TEI deutlich komplizierter. Aus ressourcen- und infrastrukturtechnischen Gründen wurde sich dennoch auf dieses Datenformat geeinigt. Um einen kurzen Einblick in die Praxis zu gewähren: Die zu beschreibenden Bildbereiche werden – wie auch der Text – in Transkribus definiert. Nach dem Export und einer projektspezifischen Konvertierung von page-XML zu TEI sind die entsprechenden Regionen im Stand-Off <surface> enthalten, der sich in der textassoziierten TEI-Datei befindet. Um den Eintrag zur Bildbeschreibung mit dem entsprechenden Bereich zu verbinden, werden beide über ein @corresp-Attribut verlinkt. Auch die Text-Bild-Relationen werden auf diese Weise festgehalten: über den TEI-pointer range()wird explizit auf jenen Text verwiesen, der sich auf das beschriebene Objekt bezieht. Die Verknüpfung von Faksimile-Oberfläche und Bildbeschreibung wurde auf der Editionsplattform optisch bereits realisiert. Zukünftig soll dies auch für die Text-Bild-Verknüpfung umgesetzt werden.

Sowohl die Text- als auch die Bilderhebung arbeitet mit Normdaten. So werden Personen, Orte und ‚Völker‘ in Register aufgenommen und mit Wikidata und ICONCLASS verknüpft. Darüber hinaus wäre eine Erweiterung auf z.B. die GND sinnvoll und könnte ggf. in Form von Crowd-Sourcing realisiert werden.

Um einen möglichst transparenten Umgang mit den Projekt-Daten zu gewährleisten, sind sowohl die Editionsrichtlinien als auch die Handbücher auf der Editionsplattform einsehbar. Während das TEI zur Textedition bereits heruntergeladen werden kann, werden die Bildannotationen erst dann verfügbar gemacht, wenn diverse Bugs in der Programmierung behoben werden konnten. Obwohl der transkribus2tei-Export sehr projektspezifisch ist, können dieser und weitere technischen Spezifika über GitLab zukünftig veröffentlicht werden.

Last but not least erfolgt die Transkription der Wenzelsbibel auf Token-Ebene. Dies ermöglicht nicht nur wortgenaue Konkordanzverbindungen mit z.B. der Vulgata, sondern darüber hinaus ebenso ein Einpflegen der Daten in die Mittelhochdeutsche Begriffsdatenbank.

Zum Angebot
Weitere Informationen

Kontakt:
wenzelsbibel@plus.ac.at

Althochdeutsch goes LOD. Die digitale Edition Abrogans:alienatus.

Hanna Fischer (Rostock) und Robert Engsterhold (Marburg)

Mit der Edition Abrogans:alienatus wird erstmals das älteste überlieferte Wörterbuch der deutschen Sprache digital publiziert. Dabei geht die Edition über eine einfache Präsentation des Volltextes hinaus und vernetzt die lateinischen und deutschen Glossen sowohl mit den Image-Digitalisaten der handschriftlichen Überlieferung als auch mit weiteren Online-Ressourcen. Darüber gelingt eine linguistische Kontextualisierung, die neue Forschungsperspektiven eröffnet.

Der Abrogans stellt ein sekundäres Bibelglossar dar, das Mitte des 8. Jahrhunderts ins Althochdeutsche übertragen wurde. Dabei wurden die Einträge des lateinischen Synonymenlexikons fortlaufend wortweise übersetzt. Unsere Edition beruht auf der Überlieferung K (Handschrift der Stiftsbibliothek St. Gallen, Cod. Sang. 911), in der weder die einzelnen Synonymengruppen abgegrenzt noch die Zuordnungen der althochdeutschen Glossen zu den lateinischen Synonymen graphisch markiert werden. Dagegen stellen wir in der digitalen Edition Abrogans:alienatus die Einträge gruppiert gegenüber, was die Erfassung der Textstruktur erleichtert. Die parallele Präsentation der Image-Digitalisate der Handschrift erlaubt den direkten Vergleich mit dem Original. Aktuell umfasst die Edition die Buchstabenstrecke A (Abrogans bis adfitior); eine sukzessive Erweiterung ist geplant.

Um die althochdeutschen Glossen zu kontextualisieren, wurde der Text mit dem Referenzkorpus Altdeutsch (ReA) verknüpft. Zahlreiche Einträge des Abrogans können auf diese Weise in ihrer überlieferten Verwendungsweise in althochdeutschen Texten geprüft werden. Dadurch gelingt auch eine zusätzliche semantische Spezifizierung der Wörterbucheinträge, da die Kontextualisierung im Referenzkorpus weitere Bedeutungsspezifika sichtbar macht, die nur aus der Verwendung in den Schriften und Textsorten des ReA erschlossen werden können. Auf diese Weise lassen sich auch Differenzen zwischen den Bedeutungen der althochdeutschen Abrogans-Glossen in den Synonymengruppen und ihrer Verwendung im Korpus ermitteln.

Da nicht alle Belegformen des Abrogans auch in den althochdeutschen Quellen des ReA belegt sind, werden die althochdeutschen Abrogans-Einträge mit dem jeweils angesetzten Lemma verknüpft: z.B. ist die Abrogans-Belegform <tunchlo> im ReA nicht erfasst, sondern nur Formen wie <tunchli> und <tunchchali> (Murbacher Hymnen) sowie <túncheli> (Notker Martianus Capella). Über die Lemmaverlinkung zu tunkali (lemma=‎”tunkali‎”) werden alle flektierten Formen aufgefunden und die Kontextualisierung des Konzepts (hier ‘Dunkelheit’) kann geprüft werden. Im Falle von Wortverbindungen (z.B. <fer sin> ‘fern sein’) wird auf beide Komponenten der Verbindung verlinkt.

Auch die lateinischen Lemmata und ihre lateinischen Synonyme werden in der digitalen Abrogans-Edition durch Verlinkung zum Thesaurus Linguae Latinae (TLL) kontextualisiert. Wiederum erfolgt die Verknüpfung der Abrogans-Einträge zum TLL über die Grundformen, jedoch nur im Hinblick auf die bisher fertiggestellten und online publizierten Bände des TLL. Dadurch wird ermöglicht, die im Wörterbuch angesetzten Bedeutungen und die entsprechende Belegauswahl mit den bedeutungsähnlichen Glossen der Synonymengruppe zu vergleichen und zugleich Aufschluss über die historische Übersetzungsleistung zu erhalten.

Aus technischer Sicht stellt die Edition Abrogans:alienatus eine App unter https://apps.dsa.info/abrogans dar und nutzt die Serverinfrastruktur des Forschungszentrums Deutscher Sprachatlas. Das webbasierte Nutzerinterface ist als Progressive Web App (PWA) sowohl für Smart Devices als auch Computer entwickelt. Bei der Entwicklung wurden moderne JavaScript-Bibliotheken unterstützend herangezogen. Der Zugriff auf das Backend erfolgt über eine REST-API nach dem OpenAPI-Standard. Die Image-Digitalisate der Handschrift, die über eine API-Schnittstelle der Stiftsbibliothek St. Gallen zur Verfügung gestellt werden (e-codices), werden über den IIIF-Standard in die App eingebunden. Die Verlinkungen zum ReA und TLL wurden manuell erstellt und in den Hypertext eingebunden. Für die Weiterentwicklung der Edition ist eine automatisierte Referenzierung, die die manuellen Arbeitsschritte ablöst, wünschenswert. Zurzeit teil sich die API noch den Namensraum mit anderen Schnittstellen des Deutschen Sprachatlas. Der nächste Schritt ist eine Erweiterung der API, um sie in einen eigenen Namensraum zu überführen, damit eine Anbindung an die LOD erfolgen kann.

Mit der App Abrogans:alienatus konnte eine erste digitale Edition des Wörterbuchs erreicht werden. Die Verknüpfung von Datenbeständen und Online-Ressourcen zum Althochdeutschen über offene REST-Schnittstellen eröffnet dabei neue Perspektiven für eine digital unterstützte, technisch vernetzte und philologisch kontextualisierte Forschung zum Wortschatz der ältesten Sprachstufe des Deutschen.

Zum Angebot
Weitere Informationen

Kontakt:
Prof. Dr. Hanna Fischer
h.fischer@uni-rostock.de

Vernetzte Forschungspublikationen im Archivum Medii Aevi Digitale

Karoline Döring (Mainz/München)

Archivum Medii Aevi Digitale (AMAD) ist eine interdisziplinäre, fachwissenschaftlich betreute Open Access-Publikationsinfrastruktur für die Mittelalterforschung. Sie besteht aus einem Fachrepositorium und dem bereits seit über 10 Jahren etablierten Wissenschaftsblog Mittelalter. Interdisziplinäre Forschung und Rezeptionsgeschichte. AMAD wird in arbeitsteiliger Kooperation von mehreren Partnereinrichtungen aus den Bereichen Universität, Akademie und Bibliothek in einem community-basierten und wissenschaftlich geleiteten Betriebsmodell geführt. Das Angebot ermöglicht Forschenden nachhaltig und kostenfrei digitale Fachpublikationen zu Themen der Mittelalterforschung qualitätsgeprüft zu publizieren, zentral zu recherchieren und dynamisch zu diskutieren. 

Eine zentrale Aufgabe bei AMAD ist, Sichtbarkeit und Auffindbarkeit der im Fachrepositorium verfügbar gemachten Publikationen herzustellen. Dies reagiert einerseits auf ein konkretes Bedürfnis der mediävistischen Community: Es ist im Interesse von Autor*innen, ihre Forschungsergebnisse in aktuellen Diskursen und Debatten zu verorten und im Interesse von Rezipient*innen für die eigene Forschung komfortabel auf einschlägige Literatur zuzugreifen. Andererseits bietet AMAD mit dem Standardisieren, Öffnen und Vernetzen seiner Daten spannende Möglichkeiten für den Einsatz von computergestützten Analyseverfahren zur Bearbeitung von zukünftigen Forschungsfragen der digital humanities¹.

Für beides ist es notwendig, dass die Publikationen mit grundlegenden Metadaten beschrieben werden. Zwingend erforderlich für jede AMAD-Veröffentlichung sind Name, Titel, Zusammenfassung, Dokumententyp, Schlagwörter, Fachgebiet(e) und Lizenz. Erst diese Metadaten ermöglichen, dass die im Fachrepositorium veröffentlichten Monographien, Aufsätze und Sammelbände sinnvoll zum Export über die OAI-Schnittstelle bereitgestellt und über automatisierte Verfahren direkt in spezialisierten Fachdatenbanken wie dem RI OPAC, in allgemeinen Suchmaschinen und Publikationsverzeichnissen wie BASE und Google Scholar sowie in übergreifenden Bibliothekskatalogen und Discovery-Systemen nachgewiesen werden können. Von dort können sie wiederum in verschiedenster Weise weiterverbreitet und nachgenutzt werden. Denn (Meta)Daten in AMAD sind so weit wie möglich fairfindable, accessible, interoperable, reusable. 

Über ein automatisiertes metadata harvesting werden zudem in AMAD auch Publikationen aus anderen Datenquellen wie dem RI OPAC gemeinsam mit den AMAD-Veröffentlichungen durchsuchbar gemacht. Auch hierfür sind qualitativ hochwertige Metadaten die Voraussetzung, um zum Sammlungsprofil passende Titel zu bekommen.  Bei allen Automatisierungsbestrebungen bleibt jedoch noch genügend händische und intellektuelle Kuratierungsarbeit für die zuständigen Fachredakteur*innen und Datenadministrator*innen. Wir leisten sie gern, denn wir finden: „Metadata is a love note to the future.“²

¹ Datenbestände in Fachrepositorien zu öffnen und damit Fachrepositorien auch selbst zu Orten der Forschung zu machen und sie nicht nur als Orte der Publikation von Forschung zu begreifen, erprobt derzeit ein Pilotprojekt des medienwissenschaftlichen Fachrepositoriums media/rep/ und des Marburg Centre for Digital Culture and Infrastructure.
² Tweet von Jason Scott @textfiles, 29.09.2011: https://twitter.com/textfiles/status/119403173436850176 (abgerufen am 29.03.2022).

Zum Angebot 
Weitere Informationen

Kontakt: 
Dr. Karoline Döring, Koordinatorin von AMAD
karoline.doering@mittelalter.blog
amad@mittelalter.blog 

Normierung von Unikaten: Linked Open Data im Handschriftencensus

Bernhard Runzheimer (Marburg) und Nathanael Busch (Marburg)

Der Handschriftencensus (HSC) ist eine Online-Datenbank zu sämtlichen deutschsprachigen Handschriften des Mittelalters (750–1520) weltweit. Er vereint basale Informationen zu Autoren, Werken und ihrer Überlieferung. Darüber hinaus bietet er zu jedem Textzeugen eine überlieferungsgeschichtlich einschlägige Literaturauswahl und den Zugang zu Digitalisaten.

Was auf den ersten Blick wie stumpfe Datenhuberei aussieht, erweist sich bei näherem Blick als tückische Aufgabe. Heterogene Datenbestände müssen redaktionell geprüft und normalisiert werden, damit sie nicht nur Validität garantieren, sondern auch gemeinsam darstellbar, vergleichbar und durchsuchbar werden. Das beginnt auf der simplen Ebene der Signaturen, die nach einem einheitlichen Format anzugeben sind, geht über die kodikologischen und paläographischen Beschreibungen, die einer einheitlichen Terminologie unterliegen müssen, und gipfelt in der Zusammenstellung des Inhalts. Besonders der letzte Bereich ist komplex, weil Werke im Mittelalter anders produziert und reproduziert wurden als in der Moderne.

Eine gewisse Hilfe bieten Normdaten. Mit ihnen können Daten unabhängig von der Bezeichnung angesteuert und auch in anderen Projekten wiedergefunden werden. Deshalb strebt der HSC eine weitgehende Verknüpfung aller Entitäten (Autoren, Werke, Handschriften, Orte, Institutionen) mit IDs der Gemeinsamen Normdatei (GND) an, deren Datensätze nach einem komplexen Regelwerk erstellt werden. Da mittelalterliche Werke zum überwiegenden Teil in der GND noch nicht erfasst sind, stellt der HSC diese Normdaten selbst bereit. Mit dieser Verknüpfung werden die Projektdaten auf einer inhaltlich größtenteils unkritischen Ebene mit Fremddaten ergänzt.

Ein erster Gewinn der Verknüpfungen zeigt sich in der Durchsuchbarkeit der Autor-/Werk-Listen, die auf den Ansetzungen des „Verfasserlexikons“ beruhen und keine Alternativtitel anzeigen, die etwa in anderen Fachdisziplinen gängig sind. Diese Alternativtitel werden jedoch automatisch aus den GND-Datensätzen in die Suche integriert. Beispielsweise kommt man nun zu identischen Ergebnissen, wenn man nach deutschen oder lateinischen Namen sucht („Theodoricus Burgsdorfius“ statt „Dietrich von Bocksdorf“) oder landessprachliche Ortsbezeichnungen eingibt („Pécs“ statt „Fünfkirchen“) – immer sofern sie in der GND verzeichnet sind. Dort sind zum Teil selbst Namensbezeichnungen in Silbenschriften vorhanden (ハルトマン, フォン・アウエ statt „Hartmann von Aue“).

Ein weiterer Vorteil der Verwendung von Normdaten besteht perspektivisch in der potentiellen Nachnutzung des HSC durch andere Projekte, die sich mit ähnlichen Gegenständen beschäftigen. Über die GND-ID als zentralen unique identifier lassen sich gezielt Daten austauschen bzw. letztlich ganze Datenbanken vernetzen. Der HSC bietet außerdem auf der Online-Präsenz die generelle Möglichkeit, einzelne Datensätze im JSON-Format abzufragen. Zusätzlich existiert eine Beacon-Datei, auf der sich alle im Projekt mit GND vorhandenen Autoren und deren verknüpfte Werke (inkl. HSC-ID) befinden.

Zum Angebot
Weitere Informationen 

Kontakt:
Bernhard Runzheimer, M.A.
Prof. Dr. Nathanael Busch

Die neue Mittelhochdeutsche Begriffsdatenbank – MHDBDB 3.0 (ab Dezember 2023)

Katharina Zeppezauer-Wachauer (Salzburg

Die seit 1972 betriebene MHDBDB der Universität Salzburg ist ein komplexes Recherchetool für die mittelhochdeutsche Sprache und Literatur. Sie verfügt über eine mächtige Suchmaschine und einen Wortindex, in dem mittels eines Begriffssystems Bedeutungen von korpusbasierten Wortartikeln erschlossen werden. Das Korpus besteht aus über 600 Werken vom 12. bis zum 16. Jahrhundert. Derzeit wird die Datenbank einem kompletten Redesign unterzogen.

Für die Erschließung wird nun auf Semantic-Web-Technologien wie Normdaten, kontrollierte Vokabulare und Linked Open Data (LOD) gesetzt. Um etwa Werke, Personen, Orte oder Ereignisse eindeutig identifizierbar zu machen, werden diese Entitäten mithilfe eines eindeutigen Identifikators mit externen Datensätzen (Normdaten) verknüpft. Die so hinterlegten Informationen sind maschinenlesbar und ermöglichen weitere Datenverarbeitung. Die Verwendung kontrollierter Vokabularien und Ontologien wie BibFrame 2.0 oder der GND Ontology gewährleistet stabile Referenzen. 

Zur systematischen Tiefenerschließung digitaler Objekte geht die MHDBDB ebenfalls Semantic-Web-konform vor: Die Texte selbst sind in XML/TEI kodiert, jedoch nur als simples, strukturangebendes TEI (Strophe, Vers, Überschrift etc.). Alle Dateien sind tokenisiert, d.h. jedes Wort weist eine eigene ID auf. Die Tokens werden mittels Standoff-Markup sowohl mit eigenen Annotationen (in RDF) als auch mit externen – LOD – verknüpft. Auch bibliografische und deskriptive Metadaten, basierend auf CIDOC-CRM, liegen als RDF-Daten vor. Die Wortartikel sind nach den Vorgaben des OntoLex-Lemon-Lexicography-Modules kodiert. Die Vernetzung zwischen RDF- und TEI-Daten erfolgt mittels Web Annotation Vocabulary nach der Empfehlung des W3-Konsortiums. 

Die Anwendung erfolgt zukünftig über eine visuelle Suchmaske und via SPARQL, einer Abfragesprache für Graphdatenbanken. Dies gilt für sämtliche Abfragen, also Textsuche und Wortindex (jeweils inkl. Begriffssystem, grammatikalischer Annotationen, Wortbildungen etc.) sowie Metadaten. 

Das namensgebende Begriffssystem der MHDBDB war durch klassische, nach Sachgruppen strukturierte Thesauri inspiriert. Die Konzeption erfolgte ursprünglich in der Nachfolge von Roget, Dornseiff und vor allem in Anlehnung an das von Hallig und Wartburg entworfenen Begriffssystems. Die Anforderungen haben über die Jahre dazu geführt, dass es um zahlreiche Kategorien erweitert wurde, etwa um Funktionswörter, Sprachen oder eine Art visionäre Frühform von Named-entity recognition. Für den Relaunch wurde das bisherige Begriffssystem in zwei polyhierarchische SKOS-Thesauri überführt; einen als semantisches Wissensorganisationssystem und einen für die vielen vorkommenden Namen, also ein Onomastikon. SKOS ist semi-formal und einfacher in der Ausführung als die Ontologiesprache OWL; vielfach wird es als Kompromiss zwischen Ausdrucksstärke und Einfachheit beschrieben. Es eignet sich besonders zum Erstellen kontrollierter Vokabulare, Thesauri und Taxonomien, weil diese alle recht ähnliche, simple Strukturen aufweisen. SKOS erlaubt es etwa, einzelnen semantischen Begriffen mehrere Ober- und Unterklassen gleichzeitig zuzuordnen, um editorische Vermerke zu ergänzen und zudem verschiedene Labels (Synonyme) für die Begriffe zu vergeben.

LOD wird maßgeblich dazu beitragen, die MHDBDB anschlussfähig und interoperabel zu halten. Die Texte werden damit tiefenerschlossen, semantisch angereichert und somit sichtbar, verfügbar und nachnutzbar gemacht. Vice versa werden auch sämtliche Forschungsdaten der MHDBDB ans Semantic Web angebunden und so der Forschungscommunity zur Verfügung gestellt.

Zum Angebot
Weitere Informationen

Kontakt:
Dr. Katharina Zeppezauer-Wachauer, Koordinatorin MHDBDB
katharina.wachauer@plus.ac.at
mhdbdb@plus.ac.at