Showcases: Wie arbeite ich in meinem Projekt mit Daten?
An dieser Stelle werden nach und nach Showcases unserer Mitglieder veröffentlicht, in denen sie ihre Projekte vorstellen.
Vernetzte Forschungspublikationen im Archivum Medii Aevi Digitale
Karoline Döring (Mainz/München)
Archivum Medii Aevi Digitale (AMAD) ist eine interdisziplinäre, fachwissenschaftlich betreute Open Access-Publikationsinfrastruktur für die Mittelalterforschung. Sie besteht aus einem Fachrepositorium und dem bereits seit über 10 Jahren etablierten Wissenschaftsblog Mittelalter. Interdisziplinäre Forschung und Rezeptionsgeschichte. AMAD wird in arbeitsteiliger Kooperation von mehreren Partnereinrichtungen aus den Bereichen Universität, Akademie und Bibliothek in einem community-basierten und wissenschaftlich geleiteten Betriebsmodell geführt. Das Angebot ermöglicht Forschenden nachhaltig und kostenfrei digitale Fachpublikationen zu Themen der Mittelalterforschung qualitätsgeprüft zu publizieren, zentral zu recherchieren und dynamisch zu diskutieren.
Eine zentrale Aufgabe bei AMAD ist, Sichtbarkeit und Auffindbarkeit der im Fachrepositorium verfügbar gemachten Publikationen herzustellen. Dies reagiert einerseits auf ein konkretes Bedürfnis der mediävistischen Community: Es ist im Interesse von Autor*innen, ihre Forschungsergebnisse in aktuellen Diskursen und Debatten zu verorten und im Interesse von Rezipient*innen für die eigene Forschung komfortabel auf einschlägige Literatur zuzugreifen. Andererseits bietet AMAD mit dem Standardisieren, Öffnen und Vernetzen seiner Daten spannende Möglichkeiten für den Einsatz von computergestützten Analyseverfahren zur Bearbeitung von zukünftigen Forschungsfragen der digital humanities¹.
Für beides ist es notwendig, dass die Publikationen mit grundlegenden Metadaten beschrieben werden. Zwingend erforderlich für jede AMAD-Veröffentlichung sind Name, Titel, Zusammenfassung, Dokumententyp, Schlagwörter, Fachgebiet(e) und Lizenz. Erst diese Metadaten ermöglichen, dass die im Fachrepositorium veröffentlichten Monographien, Aufsätze und Sammelbände sinnvoll zum Export über die OAI-Schnittstelle bereitgestellt und über automatisierte Verfahren direkt in spezialisierten Fachdatenbanken wie dem RI OPAC, in allgemeinen Suchmaschinen und Publikationsverzeichnissen wie BASE und Google Scholar sowie in übergreifenden Bibliothekskatalogen und Discovery-Systemen nachgewiesen werden können. Von dort können sie wiederum in verschiedenster Weise weiterverbreitet und nachgenutzt werden. Denn (Meta)Daten in AMAD sind so weit wie möglich fair – findable, accessible, interoperable, reusable.
Über ein automatisiertes metadata harvesting werden zudem in AMAD auch Publikationen aus anderen Datenquellen wie dem RI OPAC gemeinsam mit den AMAD-Veröffentlichungen durchsuchbar gemacht. Auch hierfür sind qualitativ hochwertige Metadaten die Voraussetzung, um zum Sammlungsprofil passende Titel zu bekommen. Bei allen Automatisierungsbestrebungen bleibt jedoch noch genügend händische und intellektuelle Kuratierungsarbeit für die zuständigen Fachredakteur*innen und Datenadministrator*innen. Wir leisten sie gern, denn wir finden: „Metadata is a love note to the future.“²
¹ Datenbestände in Fachrepositorien zu öffnen und damit Fachrepositorien auch selbst zu Orten der Forschung zu machen und sie nicht nur als Orte der Publikation von Forschung zu begreifen, erprobt derzeit ein Pilotprojekt des medienwissenschaftlichen Fachrepositoriums media/rep/ und des Marburg Centre for Digital Culture and Infrastructure.
² Tweet von Jason Scott @textfiles, 29.09.2011: https://twitter.com/textfiles/status/119403173436850176 (abgerufen am 29.03.2022).
Pilotprojekt des medienwissenschaftlichen Fachrepositoriums media/rep/ und des Marburg Centre for Digital Culture and Infrastructure.
Zum Angebot
Weitere Informationen
Kontakt:
Dr. Karoline Döring, Koordinatorin von AMAD
karoline.doering@mittelalter.blog
amad@mittelalter.blog
Normierung von Unikaten: Linked Open Data im Handschriftencensus
Bernhard Runzheimer (Marburg) und Nathanael Busch (Marburg)
Der Handschriftencensus (HSC) ist eine Online-Datenbank zu sämtlichen deutschsprachigen Handschriften des Mittelalters (750–1520) weltweit. Er vereint basale Informationen zu Autoren, Werken und ihrer Überlieferung. Darüber hinaus bietet er zu jedem Textzeugen eine überlieferungsgeschichtlich einschlägige Literaturauswahl und den Zugang zu Digitalisaten.
Was auf den ersten Blick wie stumpfe Datenhuberei aussieht, erweist sich bei näherem Blick als tückische Aufgabe. Heterogene Datenbestände müssen redaktionell geprüft und normalisiert werden, damit sie nicht nur Validität garantieren, sondern auch gemeinsam darstellbar, vergleichbar und durchsuchbar werden. Das beginnt auf der simplen Ebene der Signaturen, die nach einem einheitlichen Format anzugeben sind, geht über die kodikologischen und paläographischen Beschreibungen, die einer einheitlichen Terminologie unterliegen müssen, und gipfelt in der Zusammenstellung des Inhalts. Besonders der letzte Bereich ist komplex, weil Werke im Mittelalter anders produziert und reproduziert wurden als in der Moderne.
Eine gewisse Hilfe bieten Normdaten. Mit ihnen können Daten unabhängig von der Bezeichnung angesteuert und auch in anderen Projekten wiedergefunden werden. Deshalb strebt der HSC eine weitgehende Verknüpfung aller Entitäten (Autoren, Werke, Handschriften, Orte, Institutionen) mit IDs der Gemeinsamen Normdatei (GND) an, deren Datensätze nach einem komplexen Regelwerk erstellt werden. Da mittelalterliche Werke zum überwiegenden Teil in der GND noch nicht erfasst sind, stellt der HSC diese Normdaten selbst bereit. Mit dieser Verknüpfung werden die Projektdaten auf einer inhaltlich größtenteils unkritischen Ebene mit Fremddaten ergänzt.
Ein erster Gewinn der Verknüpfungen zeigt sich in der Durchsuchbarkeit der Autor-/Werk-Listen, die auf den Ansetzungen des „Verfasserlexikons“ beruhen und keine Alternativtitel anzeigen, die etwa in anderen Fachdisziplinen gängig sind. Diese Alternativtitel werden jedoch automatisch aus den GND-Datensätzen in die Suche integriert. Beispielsweise kommt man nun zu identischen Ergebnissen, wenn man nach deutschen oder lateinischen Namen sucht („Theodoricus Burgsdorfius“ statt „Dietrich von Bocksdorf“) oder landessprachliche Ortsbezeichnungen eingibt („Pécs“ statt „Fünfkirchen“) – immer sofern sie in der GND verzeichnet sind. Dort sind zum Teil selbst Namensbezeichnungen in Silbenschriften vorhanden (ハルトマン, フォン・アウエ statt „Hartmann von Aue“).
Ein weiterer Vorteil der Verwendung von Normdaten besteht perspektivisch in der potentiellen Nachnutzung des HSC durch andere Projekte, die sich mit ähnlichen Gegenständen beschäftigen. Über die GND-ID als zentralen unique identifier lassen sich gezielt Daten austauschen bzw. letztlich ganze Datenbanken vernetzen. Der HSC bietet außerdem auf der Online-Präsenz die generelle Möglichkeit, einzelne Datensätze im JSON-Format abzufragen. Zusätzlich existiert eine Beacon-Datei, auf der sich alle im Projekt mit GND vorhandenen Autoren und deren verknüpfte Werke (inkl. HSC-ID) befinden.
Zum Angebot
Weitere Informationen
Kontakt:
Bernhard Runzheimer, M.A.
Prof. Dr. Nathanael Busch
Die neue Mittelhochdeutsche Begriffsdatenbank – MHDBDB 3.0 (ab Dezember 2023)
Katharina Zeppezauer-Wachauer (Salzburg)
Die seit 1972 betriebene MHDBDB der Universität Salzburg ist ein komplexes Recherchetool für die mittelhochdeutsche Sprache und Literatur. Sie verfügt über eine mächtige Suchmaschine und einen Wortindex, in dem mittels eines Begriffssystems Bedeutungen von korpusbasierten Wortartikeln erschlossen werden. Das Korpus besteht aus über 600 Werken vom 12. bis zum 16. Jahrhundert. Derzeit wird die Datenbank einem kompletten Redesign unterzogen.
Für die Erschließung wird nun auf Semantic-Web-Technologien wie Normdaten, kontrollierte Vokabulare und Linked Open Data (LOD) gesetzt. Um etwa Werke, Personen, Orte oder Ereignisse eindeutig identifizierbar zu machen, werden diese Entitäten mithilfe eines eindeutigen Identifikators mit externen Datensätzen (Normdaten) verknüpft. Die so hinterlegten Informationen sind maschinenlesbar und ermöglichen weitere Datenverarbeitung. Die Verwendung kontrollierter Vokabularien und Ontologien wie BibFrame 2.0 oder der GND Ontology gewährleistet stabile Referenzen.
Zur systematischen Tiefenerschließung digitaler Objekte geht die MHDBDB ebenfalls Semantic-Web-konform vor: Die Texte selbst sind in XML/TEI kodiert, jedoch nur als simples, strukturangebendes TEI (Strophe, Vers, Überschrift etc.). Alle Dateien sind tokenisiert, d.h. jedes Wort weist eine eigene ID auf. Die Tokens werden mittels Standoff-Markup sowohl mit eigenen Annotationen (in RDF) als auch mit externen – LOD – verknüpft. Auch bibliografische und deskriptive Metadaten, basierend auf CIDOC-CRM, liegen als RDF-Daten vor. Die Wortartikel sind nach den Vorgaben des OntoLex-Lemon-Lexicography-Modules kodiert. Die Vernetzung zwischen RDF- und TEI-Daten erfolgt mittels Web Annotation Vocabulary nach der Empfehlung des W3-Konsortiums.
Die Anwendung erfolgt zukünftig über eine visuelle Suchmaske und via SPARQL, einer Abfragesprache für Graphdatenbanken. Dies gilt für sämtliche Abfragen, also Textsuche und Wortindex (jeweils inkl. Begriffssystem, grammatikalischer Annotationen, Wortbildungen etc.) sowie Metadaten.
Das namensgebende Begriffssystem der MHDBDB war durch klassische, nach Sachgruppen strukturierte Thesauri inspiriert. Die Konzeption erfolgte ursprünglich in der Nachfolge von Roget, Dornseiff und vor allem in Anlehnung an das von Hallig und Wartburg entworfenen Begriffssystems. Die Anforderungen haben über die Jahre dazu geführt, dass es um zahlreiche Kategorien erweitert wurde, etwa um Funktionswörter, Sprachen oder eine Art visionäre Frühform von Named-entity recognition. Für den Relaunch wurde das bisherige Begriffssystem in zwei polyhierarchische SKOS-Thesauri überführt; einen als semantisches Wissensorganisationssystem und einen für die vielen vorkommenden Namen, also ein Onomastikon. SKOS ist semi-formal und einfacher in der Ausführung als die Ontologiesprache OWL; vielfach wird es als Kompromiss zwischen Ausdrucksstärke und Einfachheit beschrieben. Es eignet sich besonders zum Erstellen kontrollierter Vokabulare, Thesauri und Taxonomien, weil diese alle recht ähnliche, simple Strukturen aufweisen. SKOS erlaubt es etwa, einzelnen semantischen Begriffen mehrere Ober- und Unterklassen gleichzeitig zuzuordnen, um editorische Vermerke zu ergänzen und zudem verschiedene Labels (Synonyme) für die Begriffe zu vergeben.
LOD wird maßgeblich dazu beitragen, die MHDBDB anschlussfähig und interoperabel zu halten. Die Texte werden damit tiefenerschlossen, semantisch angereichert und somit sichtbar, verfügbar und nachnutzbar gemacht. Vice versa werden auch sämtliche Forschungsdaten der MHDBDB ans Semantic Web angebunden und so der Forschungscommunity zur Verfügung gestellt.
Zum Angebot
Weitere Informationen
Kontakt:
Dr. Katharina Zeppezauer-Wachauer, Koordinatorin MHDBDB
katharina.wachauer@plus.ac.at
mhdbdb@plus.ac.at