2018-07-16

Was ist Wikidata und wie kann es die bibliothekarische Arbeit unterstützen?

In der aktuellen Ausgabe von “ABI Technik” ist ein kurzer Text von mir in der Rubrik “ABI Technikfrage” enthalten, den ich vor gut drei Monaten geschrieben habe. Hier der Link zur Bezahlversion: https://doi.org/10.1515/abitech-2018-2013. Parallel veröffentliche ich den Wortlaut (angereichert mit Links und Anmerkungen) hier auf dem Blog unter einer CC0-Lizenz (so wie alle anderen Inhalte auch).

Wikidata ist eine von der Wikimedia Foundation seit 2012 betriebene Wissensdatenbank, die von jeder Person manuell oder maschinell bearbeitet werden kann. Die gemeinschaftlich erstellten Daten stehen unter einer CC0-Lizenz. In Wikidata können nicht bloß Informationen über etwas erfasst, sondern diese Aussagen auch mithilfe von Qualifikatoren beschrieben werden, etwa indem Quellen verlinkt, Zeiträume für die Gültigkeit einer Aussage angegeben oder divergierende Aussagen gewichtet werden.

Eines der ersten Ziele von Wikidata war die Unterstützung der Wikipedia-Projekte. Die Datenbank ermöglicht es, strukturierte Informationen wie die Bevölkerungszahl eines Landes einmalig zu erfassen und in den knapp 300 verschiedenen Wikipedia-Sprachversionen anzuzeigen, so dass nicht mehr parallel jede Wikipedia aktualisiert werden muss. Allerdings hat sich Wikidata schnell von der Wikipedia emanzipiert und deckt einen größeren Anwendungsbereich ab: Mittlerweile gibt es etwa so viele Einträge in Wikidata wie es Artikel in allen Wikipedia-Sprachversionen zusammen gibt.[1]

Die große Abdeckung und Vielfalt und der offene Charakter von Wikidata ließen schnell verschiedenste Nutzungsansätze entstehen. Dabei nutzen einige Anwendungen Wikidata bloß als Datenquelle, während andere die gesamte Wikidata-Infrastruktur zum Aufbau neuer Datensammlungen und Anwendungen verwenden.

Im bibliothekarischen Bereich hat Wikidata bisher vor allem in Bezug auf Normdaten von sich reden gemacht. Viele Wikidata-Einträge, etwa zu Personen, haben eine ganze Reihe von Identifikatoren unterschiedlichster Normdatenbanken. Damit kann Wikidata als Normdaten-Drehscheibe benutzt werden [2], über die weitere Quellen herangezogen werden können, einfach indem man eine entsprechende Abfrage mit der GND-ID einer Person, der ISIL einer Bibliothek oder einer anderen Normdaten-ID macht. Diese Möglichkeit wird etwa benutzt, um “Knowledge Cards” zu einer Person mit Bild und Basisinformationen innerhalb eines Bibliothekskatalogs anzuzeigen.[3]

Bei der Nordrhein-Westfälischen Bibliographie (NWBib) wird Wikidata gar als primäre Normdatenquelle für den Aufbau einer hierarchisch gegliederten Ortsklassifikation geographisch-administrativer Einheiten (Gemeinden, Städte, Stadtteile usw.) verwendet.[4] Der Grund: Wikidata ist die einzige nutzbare Datenquelle, die sowohl die nötige Abdeckung hat als auch die Informationen zur hierarchischen Gliederung enthält und auf einfache Weise bearbeitet werden kann.

Sehr relevant für Bibliotheken sind auch die unter dem Namen “WikiCite” stattfindenden Bemühungen, innerhalb Wikidata eine bibliographische Datenbank aufzubauen. Die WikiCite-Community trifft sich jährlich auf der gleichnamigen Konferenz, auch Bibliothekarinnen und Bibliothekare aus verschiedenen Ländern sind dabei. Verwandt damit ist das Scholia-Projekt, das Profile für Wissenschaftler/innen auf Basis von Wikidata generiert und damit sehr schön demonstriert, wie Funktionalitäten von kommerziellen, geschlossenen Diensten wie Web of Science in einer offenen und kollaborativen Umgebung umgesetzt werden können.

Wikidata ist erst fünf Jahre alt und bietet bereits eine Menge Nutzen und interessante Ansätze für Bibliotheken. Grund genug, ein Auge auf die weitere Entwicklung zu haben.


[1] [Edit 2018-07-16, 12:26] Mittlerweile bin ich mir bei dieser Aussage nicht mehr so sicher. Wikidata hat laut Statistikseite ca. 33 49 Millionen Einträge während alle Sprachversionen zusammen laut https://en.wikipedia.org/wiki/List_of_Wikipedias#Grand_total etwa 48 Millionen Einträge haben (inklusive "user pages, images, talk pages, ‘project’ pages, categories, and templates"). Falls jemand mich auf genaue Artikel-Zahlen hinweisen kann, würde mich das freuen.

[2] Im deutschsprachigen Raum vertreten vor allem Jakob Voß und Joachim Neubert die Idee von Wikidata als “Normdaten-Hub”, siehe etwa ihre Vortragsfolien “Wikidata as authority linking hub”.

[3] Siehe etwa Dan Scotts Blogbeitrag “Enriching catalogue pages in Evergreen with Wikidata”.

[4] Das Projekt ist noch nicht abgeschlossen, für weitere Informationen siehe etwa die Wikiseiten https://github.com/hbz/nwbib/wiki/Neukonzeption-der-Raumsystematik und https://github.com/hbz/nwbib/wiki/Wikidata-Matchingverfahren.

2017-11-29

Die OER-Metadatengruppe lebt

Im Kontext der Entwicklung von Infrastrukturen zum Publizieren, Teilen und Finden von freien Lernmaterialen (OER = Open Educational Resources) tut sich einiges in Bezug auf Metadaten. Zum einen wurde gerade ein Heft der Zeitschrift Synergie veröffentlicht, in dem es drei Artikel zum Thema gibt. Siehe dazu die Ankündigung mit Download-Links unter https://synergie.blogs.uni-hamburg.de/kategorie/ausgabe04/.

Im Mai wuchs zudem die 2013 von mir initiierte OER-Metadatengruppe der DINI AG KIM durch eine Zusammenführung mit der Jointly OER-AG, die im Rahmen der Förderrichtlinie zur Förderung von Offenen Bildungsmaterialien (OERinfo) entstanden ist. Seit September gab es drei Online-Treffen der Gruppe.

In den letzten beiden Treffen haben wir u. a. die Ziele und Architektur einer zukünftigen dezentralen OER-infrastruktur diskutiert (siehe Notizen zu den Treffen der OER-Metadatengruppe der DINI AG KIM). Meine Meinung dazu findet sich in diesen Folien. Auf dem OER-Festival in Berlin wird vor “Entscheidern” eine allgemein gehaltene Vision vorgestellt (siehe die Folien).

Auch wenn ich manche Entwicklungen der OER-Infrastruktur sehr skeptisch betrachte (2017 noch in den Aufbau OAI-PMH-basierter Infrastruktur zu investieren scheint mir nicht gerade zeitgemäß), so schätze ich die Diskussionen in der Gruppe sehr. Grundsätzlich scheint auch Einigkeit darüber zu bestehen, dass eine zukünftige Infrastruktur auf Web-Standards (HTTP, URIs, HTML, JSON-LD etc.) basieren solle. Die existierende Infrastruktur im OER- wie im Bildungsbereich allgemein basiert aber leider – wir kennen das zu gut aus der Bibliothekswelt – auf Systemen, die ein Befolgen etwa der Linked Data Design Issues erschweren. Mit dem Wissen, dass hier Handlungsbedarf besteht, könnte ein Teil der in Aussicht stehenden OER-Fördergelder sinnvoll für eine Modernisierung (=Webifizierung) der Infrastruktur aufgewendet werden.

Falls hiermit Interesse an einer Mitarbeit geweckt wurde, dann schnell hier entlang, die Mailingliste abonnieren und am nächsten Treffen teilnehmen. In Kürze sollen hier im Blog noch ein bis zwei Beiträge zu konkreten Entwicklungen und Ideen in Bezug auf OER-Metadaten folgen…

2016-11-11

Stöbergraph

Yewno, gegründet 2011, ist ein durch Venture Capital finanziertes Unternehmen, das laut Selbstbeschreibung eine "Inferenz- und Analyse-SaaS-Plattform im Bereich Knowledge Discovery" anbietet:

Yewno, Inc. (“Yewno”) is a inference and analytics software as a service platform in the field of knowledge discovery; Yewno is the starting point that delivers infinite knowledge potential by displaying paths of information for you to navigate on your research journey. (Quelle)

Seit Juni 2016 wird das Produkt "Yewno for Education" im Beta-Stadium angeboten. Ein "Yewno for Finance" ist in Entwicklung. Hier geht es um ersteres. Eine öffentlich zugängliche Yewno-Testversion gibt es derzeit nicht. Dementsprechend habe ich den Dienst nicht testen können. Die Informationen in diesem Post stammen zum Großteil aus einem Scholarly-Kitchen-Artikel von Jill O'Neill und einem Beitrag im Rahmen der Buchmesse.

Datenbasis und Kooperationspartner

Yewno sammelt und prozessiert große Mengen von wissenschaftlichen Text, um anhand von linguistischer Datenverarbeitung und maschinellem Lernen Beziehungsnetze zu generieren, die schließlich visualisiert und durchstöbert werden können. Ein Blick auf die GitHub legt nahe, dass auch Wikipedia bzw. Wikidata einen Teil beiträgt zur Generierung der Verknüpfungen. Allerdings spielen Volltext eine zentrale Rolle und Yewno betreibt eine Menge Aufwand, um an große Mengen von Volltexten zu kommen. Laut dem genannten Buchmesse-Beitrag sind Verträge mit Oxford University Press, Stanford University Press, Springer Nature und Taylor & Francis Group geschlossen. Die Datenbasis umfasse "50 Millionen hochwertigen wissenschaftlichen Dokumenten, Artikeln und Büchern" und eine Verdopplung bis Weihnachten 2016 sei geplant. Offensichtlich zielt Yewno derzeit auf die Geisteswissenschaften, mit meta.com gibt es im STM-Bereich auch schon eine sehr ähnliche Lösung.

Acht Bibliotheken testen derzeit die Beta-Version: Harvard, Stanford, MIT, University of Michigan, University of California–Berkeley, Stonehill College, Oxford University und die Bayerische Staatbibliothek. Es verwundert nicht, dass die meisten dieser Institutionen ihre Bestände im Rahmen des Google-Book-Projekts digitalisieren. Man kann wohl davon ausgehen, dass auch diese Bestände in die Yewno-Datenbasis eingeflossen sind.

Visualisierung verknüpfter Konzepte, Snippets und Weiterleitung zum Volltext

Yewno ist als ein "Entdeckungswerkzeug" in Ergänzung zu klassischen Recherchesystemen konzipiert. Es richtet sich eher an Neulinge in einem bestimmten Gebiet, die sich zunächst einen Überblick verschaffen und dann möglicherweise tiefer einsteigen wollen. Den Kern von Yewno macht ein Netzwerk von Konzepten aus, das aus dem von Yewno zusammengetragenen Literaturkorpus generiert und anhand eines interaktiven Graphen visualisiert wird. Die Konzepte sind mit relevanten Literaturquellen verknüpft, aus denen Snippets angezeigt werden. Auf Basis des lizenzierten elektronischen – und mutmaßlich auch des gedruckten – Bestands der Bibliothek, wird der Nutzer – wenn erwünscht und vorhanden – zum Volltext geleitet.

Da ich das Tool nicht getestet habe und die YouTube-Videos wenig hergeben, kann ich nichts dazu sagen wie gut Yewno seine Versprechen erfüllt. Es scheint sich aber durchaus um einen interessanten Ansatz zu handeln, der – sei es durch Yewno oder ähnliche andere Produkte – traditionelle Discovery-Systeme in Zukunft ergänzen könnte. Schade, dass so etwas auf einer geschlossenen Datenbasis aufsetzt und nicht auf einem offenen Korpus von Open-Access-Dokumenten...

2016-06-02

Infrastrukturanforderungsbestimmung

Meinen letzten Blogbeitrag habe ich on- wie offline mit zwei Jans und mit Boris Bockelmann diskutiert (Besten Dank!).

Unter anderem ging es in den Gesprächen (wie auch im Austausch mit Boris in den Kommentaren zum Beitrag) um die Frage, ob für die dezentrale Erstellung und Synchronisierung von Metadaten ein zentraler Service nötig sei oder ob das auch dezentral funktionieren kann. Dabei ist mir eine wichtige und grundsätzliche Problematik mit Blick auf die DIPF-Infrastrukturstudie bewusst geworden: Wie so oft wird eine mehr oder weniger konkrete technische Lösung geliefert (hier: ein zentraler "Metadaten-Austausch-Service"), bevor überhaupt eine hinreichende Sammlung der Anforderungen an die OER-Infrastruktur stattgefunden hat. Zwar gibt es in der Studie einen gesonderten Abschnitt zu den Anforderungen (S.46-53), allerdings bleiben diese an der Oberfläche.

Bevor die tatsächliche Entwicklung der Infrastruktur oder die Konkretisierung ihrer Architektur beginnt, sollten die Anforderungen konkretisiert werden. Dies lässt sich z. B. anhand von User Stories tun wie im folgenden skizziert wird.

Nutzergruppen

Letztlich sind es die Anforderungen und Bedürfnisse der Nutzerinnen und Nutzer einer Infrastruktur (und nicht jene der Auftrag- oder Geldgeber, der Betreiber oder irgendwelcher anderer Akteure), die für die Ausgestaltung der Infrastruktur maßgeblich sein sollten. Somit sollten als erstes die verschiedenen Typen von Nutzern der Infrastruktur gesammelt werden. Im Falle von OER sind dies:

  • Menschen, die neue OER erschaffen und dabei unter Umständen bestehende OER überarbeiten und/oder kombinieren
  • Menschen, die nach OER suchen zum Einsatz in ihrer oder anderer Leute Bildung

Dies sind zwei sehr große und sehr heterogene Nutzergruppen. Von Grundschul- oder Förderpädagogen, bis zum Universitätsprofessor, von der an einem Thema nur beiläufig interessierten Person, über Schüler der Primär- und Sekundarstufe bis zur Doktorandin ist hier alles vertreten. Eine genauere Betrachtung der verschiedenen Untergruppen wäre sicherlich angebracht.

Erst User Stories formulieren, dann entscheiden

Zur Bestimmung der Anforderungen an eine zu entwickelnde Technologie haben sich in der agilen Softwareentwicklung User Stories etabliert. Es ist sinnvoll, zunächst eine ganze Menge User Stories aus Perspektive der verschiedenen Nutzergruppen zu sammeln, bevor man sich für oder gegen eine bestimmte Herangehensweise oder für eine bestimmte Technolologie entscheidet. Hier sind ein paar Beispiele:

Als Förderlehrerin in Deutsch möchte ich eine große Menge von Aufgaben und Übungen zum Buchstaben "A" finden, damit ich meinen Schülerinnen und Schülern über den recht langen Lernprozess abwechslungsreiche Lernmaterialien anbieten kann.

Als Lehrer möchte ich durch einen Klick auf ein "Edit"-Knopf die Ressource direkt im Browser anpassen können (Rechtschreibfehler, kleinere Anpassungen etc.), so dass ich schnell die von mir gewünschte Ressource zur Hand hab.

Als Lehrer möchte ich in einer komfortablen Webanwendung neue Arbeitsblätter erstellen, indem ich Übungen und Aufgaben aus verschiedenen Quellen kombiniere.

Als Lehrerin möchte ich von mir online erstellte Arbeitsblätter im Klassensatz ausdrucken.

Als Lehrer, der Arbeitsmaterialien zu einem bestimtmen Thema sucht, möchte ich an einer bestimmten Ressource auf andere Versionen derselben Ressource auf anderen OER-Plattformen hingewiesen werden.

Als Ersteller von OER möchte ich übersichtliche, intuitiv nutzbare webbasierte Autorenwerkzeuge, damit ich auf einfache Weise neue OER erzeugen und publizieren kann.

Als Ersteller von OER möchte ich Anforderungen an eine OER-Infrastruktur auf einfache Weise bestehende OER plus Metadaten von verschiedenen Plattformen übernehmen können, um eine angepasste Version der Ressource zu erstellen.

Als ehemalige Lehrerin möchte ich die Sammlung der von mir selbst erstellten Arbeitsblätter einscannen und unter einer offenen Lizenz für andere zur Nachnutzung publizieren.

Und so weiter. Dies sind nur ein paar Beispiele. Man sieht schnell, dass am Ende einer Sammlung von User Stories, die möglichst alle Nutzergruppen und alle Formen von OER berücksichtigt, eine sehr große Menge an User Stories zusammenkommen sollte. Diese können dann sortiert und priorisiert werden, zum einen für die Entwicklung von konkreter OER-Software, zum anderen für Entscheidungen hinsichtlich der Architektur (zentral vs. dezentral) der Gesamtinfrastruktur. Anforderungen ändern sich mit der Zeit, weshalb im Laufe der Entwicklung von Software und der OER-Infrastruktur die User Stories regelmäßig angepasst, ergänzt und neu priorisiert werden sollten.

2016-05-22

Machbarkeitsstudie zum Aufbau einer OER-Infrastruktur

Seit 2012 bin ich im Bereich Open Educational Resources (OER) aktiv, wobei mein Fokus zunächst auf Metadatenschemata und kontrollierten Vokabularen lag. Seit 2014 beschränken sich meine OER-Aktivitäten weitestgehend auf die Mitarbeit bei der Entwicklung der OER World Map. Die OER World Map ist eine Plattorm, auf der OER-Aktive aus der ganzen Welt Informationen für und über die globale OER-Community sammeln. Erfasst werden Daten über OER-Akteure und -Projekte, über Veranstaltungen und Onlineangebote im Bereich OER. Neben meiner Zuständigkeit für die Datenmodellierung übernehme ich im OER-World-Map-Team auch Aufgaben eines Product Owners.

Etwas länger noch befasse ich mich immer wieder mit der Weiterentwicklung der überregionalen Informationsinfrastruktur in Deutschland. 2011 habe ich etwa die Intransparenz des Neustrukturierungsprozesses beklagt, den der Wissenschaftsrat begonnen hatte, um ihn gemeinsam mit der Deutschen Forschungsgemeinschaft (DFG) weiterzuführen. 2012 habe ich selbst an einem DFG-Antrag (libOS) zum Thema mitgeschrieben und den letztlich erfolgreichen Antrag 2013 einer kritischen Analyse unterzogen.

In Anbetracht dieser Aktivitäten überrascht es nicht, dass ich sehr am Prozess und Ergebnis der Entwicklung einer überregionalen technischen Infrastruktur für OER im deutschsprachigen Raum interessiert bin, fließen darin doch gewissermaßen zwei meiner Interessengebiete zusammen. Da einige Entwicklungen im Hinblick auf die zukünftige OER-Infrastruktur stattgefunden haben, wird es Zeit, eine Zwischenbilanz zu ziehen.

Im letzten Jahr wurde das Deutsche Institut für Internationale Pädagogische Forschung (DIPF) vom Bundesministerium für Bildung und Forschung (BMBF) beauftragt eine Machbarkeitsstudie zum Aufbau einer OER-Infrastruktur in Deutschland zu erstellen. Neben einer Literaturanalyse wurden für die Studie Experteninterviews sowie Workshops durchgeführt. Am 10. Februar hat das DIPF das Ergebnis veröffentlicht, das hier einer näheren Betrachtung unterzogen wird.

Ich gehöre zu den für die Studie interviewten Personen, habe an einem der Workshops teilgenommen habe und Rückmeldungen zu einem Entwurf der Studie gegeben. Außerdem habe ich auf dem OER-Fachforum am 1. März 2016 in Berlin an einem "Thementisch" mit den Machern des Papiers und anderen Personen darüber diskutiert. Somit werden meine inhaltlichen Anmerkungen die Verfasser der Studie kaum überraschen. Alle Seitenangaben beziehen sich auf Deutscher Bildungsserver: Machbarkeitsstudie zum Aufbau und Betrieb von OER-Infrastrukturen in der Bildung (Stand: Februar 2016). 2016, 66 S. - URN: urn:nbn:de:0111-pedocs-117154.

Der Auftrag

Die Studie ist im Auftrag des Bundesministerium für Bildung und Forschung (BMBF) entstanden. Die Leistungsbeschreibung bzw. Auftragstexte sind zwar nicht bekannt und wurden – laut Christian Füller – auch auf Nachfrage nicht vom Ministerium herausgegeben. Allerdings gibt der Text der Studie selbst einigen Aufschluss. Ganz offensichtlich möchte das BMBF in OER investieren. So sei die Studie dadurch motiviert, "Bedarf, Voraussetzungen und Zielrichtungen einer öffentlichen Förderung freier Bildungsmaterialien" (S.5) zu konkretisieren. Die Aufgabe lautet, "Bedingungen und Erfordernisse für Aufbau und Betrieb einer OER‐Infrastruktur im Internet" zu untersuchen "im Dialog mit Expertinnen und Experten aus Bildungspraxis, Bildungsadministration und Wissenschaft, mit Akteuren der OER‐Bewegung sowie mit Medienproduzenten und ‐anbietern" (S.5).

Es geht also um "Infrastruktur". Das ist das, was idealerweise unsichtbar ist, was erst bemerkt wird, wenn es nicht funktioniert (wie z.B. die Stromversorgung, das DSL-Netz, OSI-Protokolle oder Zeichenkodierungen). Im Falle einer Dateninfrastruktur geht es um Daten, um Protokolle und Schnittstellen, um Software etc.

Ergebnisse/Empfehlungen der Studie

Im Folgenden werde ich nun sechs zentrale Empfehlungen des DIPF-Machbarkeitspapiers näher betrachten.

Absage an ein länderübergreifendes OER-Portal

Auf S.4 heißt es: "Aufbau und Betrieb einer zentralen Infrastruktur, im Sinne eines einzelnen Repositoriums bzw. Referatoriums, für OER über alle Bildungsbereiche hinweg stellen keine realistische Option dar". Ich bin sehr froh, dass dies so deutlich ausgesagt wird, findet sich doch noch im Bericht der OER-Arbeitsgruppe, der der Machbarkeitsstudie als "Orientierungsrahmen" diente, eine Empfehlung zum "Aufbau einer neuen bzw. die Unterstützung bereits bestehender länderübergreifender Plattformen im Internet" (Bericht der OER-Arbeitsgruppe, S.8).

Aus meiner Erfahrung neigt die Politik bisher gerne dazu, zentrale "Portale" zu fördern (z.B. vascoda, Europeana, Deutsche Digitale Bibliothek). Problematisch ist dies, weil meist die Ressourcen auf Ebene der Dienste fehlen, die eigentlich die Inhalte bereitstellen und dass ein enormer Aufwand betrieben werden muss, um die Metadaten einzusammeln und in eine einheitliche Struktur zu bekommen. Dazu kommen die Hemmnisse, die die föderale Struktur Deutschlands mit sich bringt. (Fördert man dagegen die Anwendung geteilter Standards und Schnittstellen bei den verschiedenen Diensten ist am Ende der Aufbau eines übergreifenden Rechercheangebots weniger aufwändig.)

Statt eines zentralen Angebots befürwortet die Studie die "Vernetzung bestehender (Teil-))Infrastrukturen", wozu als zentrale Komponente der Aufbau eines "Metadaten-Austausch-Services" (MDAS)(S.4) empfohlen wird. Hier schleicht sich also unter Umständen doch eine länderübergreifende Infrastrukturkomponente hinein. Ich werde dies weiter unten genauer betrachten.

Förderung von Repositorien und Nachweissystemen

Die erste der auf S.4 genannten "zentralen Empfehlungen" lautet:

Fördermaßnahmen sollten Anreize für den Aufbau bzw. die Vernetzung von Repositorien und Nachweissystemen in bislang wenig OER‐aktiven Handlungsfeldern schaffen (z.B. berufliche Bildung, Erwachsenenbildung).

Es wird also empfohlen, fach- oder bildungsbereichspezifische Systeme aufzubauen

  1. für die Publikation von OER und sie beschreibender strukturierter Metadaten im Web (Repositorien) sowie
  2. für die Rechereche nach OER (läuft unter dem relativ neuen, aus dem OER-Bereich kommenden Terminus "Referatorium" )

Förderung des Aufbaus digitaler Materialbestände

Die größere Herausforderung als der Aufbau einer technischen Infrastruktur ist die Entwicklung einer OER-Kultur. Damit meine ich, dass OER-Inhalte in der Breite von Lehrenden und Lernenden produziert, gepflegt, geremixt und in vielfältigen Bildungskontexten genutzt werden. Diese Frage, wo die Inhalte letztlich herkommen, wer sie erstellt und pflegt, ist nicht unbedingt von einem Infrastrukturpapier zu beantworten – es geht ja nicht um social enginieering. Dennoch nimmt die zweite "zentrale Empfehlung" darauf Bezug:

Empfohlen wird der Aufbau von digitalen Materialbeständen i.S.v. Referenzsystemen für OER zu pädagogisch oder bildungspolitisch besonders relevanten Themen (z.B. Inklusion, frühe Bildung, Alphabetisierung).

Wie dies genau umgesetzt werden soll, wird allerdings nicht näher erläutert. Die schwierige und grundlegende Frage, wie ein Wachstum von OER-Produktion und -Nutzung angeregt und die Entstehung einer nachhaltigen OER-Community gefördert werden kann, soll allerdings im die DIPF-Studie flankierenden, auch vom BMBF geförderten Projekt Mapping OER adressiert werden.

Interoperable Metadaten und Metadaten-Austausch-Service

Die dritte "zentrale Empfehlung" lautet wie folgt:

Bestehende OER‐Plattformen sollten um systematische Zugänge, Zugangsvokabulare für unterschiedliche Fächer und Arbeitsinstrumente ergänzt werden, die die Adaption der Materialien in anderen Bildungskontexten unterstützen. Fördermaßnahmen sollten an die Bereitstellung technischer Schnittstellen und interoperabler Metadaten geknüpft werden, welche für die Realisierung eines Metadaten‐Austausch‐Services (s.u.) notwendig sind.

Diese Forderungen lassen die Herzen von Bibliothekarinnen und Bibliothekaren höher schlagen, wird doch für die Inhaltserschließung die Nutzung geteilter kontrollierter Vokabulare und Klassifikationen (Normdaten) gefordert sowie die Bereitstellung von Schnittstellen zum Einsammeln der damit entstehenden Daten.

Was es aber mit dem Metadaten-Austausch-Service genau auf sich hat und welche Aufgabe er erfüllt bleibt unklar. In der Studie wird er als "zentraler", "aggregierender" "Hintergrunddienst" charakterisiert, der folgende Aufgaben übernimmt:

  • Er sammelt die Metadaten aus den deutschen OER-Referatorien regelmäßig ein (Aggregation).
  • Die verschiedenen Metadaten werden in eine gemeinsame Zielstruktur überführt (Normalisierung) und ggf. automatisch angereichert.
  • Der so entstehende übergreifende Metadatenpool wird zum Download und über Schnittstellen angeboten.

Es ist etwas verwunderlich, dass zum einen von einem zentralen OER-Referatorium abgeraten wird und zum anderen mit dem MDAS ein Service empfohlen wird, der anscheinend eine Menge der nötigen Vorarbeiten für ein solches zentrales Portal leistet.

Einige Skepsis im Hinblick auf die Notwendigkeit sowie leichte Umsetzbarkeit und Pflege des MDAS ist sicher angebracht. Allerdings adressiert das Design des MDAS zumindest eine wichtige Frage einer jeden Dateninfrastruktur, die auch mit nutzergenerierten Daten zu tun hat: Wie bekomme ich Menschen dazu in einer verteilten Infrastruktur kleiner Services, Ressourcen zu taggen und zu bewerten? Prinzipiell ist es überhaupt schwierig eine kritische Masse von Menschen aufzubauen, die Tags und Bewertungen vergeben, wenn man nicht schon eine so große Nutzerschaft wie etwa Amazon hat. Im Bibliotheksbereich ist der Katalog-2.0-Hype zumindest in Bezug auf nutzergenerierte Inhalte nach einigen Jahren vergangen, weil innerhalb der Nutzerschaft eines Bibliothekskatalog eben keine kritische Masse hergestellt werden kann. Bessere Chancen bestehen, wenn die nutzergenerierten Inhalte zwischen verschiedenen Katalogen/Referatorien augetauscht werden. So tauchen dieselben Daten überall auf, wo eine Ressource recherchierbar ist und die Chance, dass Nutzer/innen Lust bekommen, selbst zu taggen oder kommentieren, wird größer. Siehe auch einen Blogpost von 2012, in dem ich gewissermaßen mit der Idee eines Metadaten-Austausch-Service für moderne Bibliothekskataloge gespielt habe.

Auch wenn der MDAS also durchaus ein sinnvolles Ziel verfolgt, bin ich mir nicht sicher, ob dazu wirklich ein zentraler Dienst notwendig ist. Mir scheint als wären die Verfasser/innen am DIPF hier stark von ihren Erfahrungen im Rahmen der vom DIPF betriebenen Suchmaschine ELIXIER beeinflusst. ELIXIER stellt auch einen zentrale Datenaggregationsdienst dar. In der Beschreibung der ELIXIER-Historie heißt es:

ELIXIER – was übrigens für "Elaborated Lists in XML for Internet Educational Ressources" steht – startete im Mai 2007 mit dem Ziel, eine standardisierte Schnittstelle für den Austausch von Metadaten zwischen den deutschen Bildungsservern zu entwickeln und damit einen gemeinsamen Ressourcenpool für Lehr-/Lernmaterialien – insbesondere für den Schulunterricht – bereit zu stellen.

Meines Erachtens sollten auch Möglichkeiten genauer betrachtet werden, auf einen zentralen Mittler wie den MDAS zu verzichten und die Daten direkt zwischen den einzelnen Services auszutauschen.

Freie Software als Voraussetzung einer Förderung

Die DIPF-Machbarkeitsstudie empfiehlt als Voraussetzung der Förderung – neben strukturierten Metadaten und technischer Schnittstellen zum Datenaustausch –, dass neue Softwaresysteme als freie Software entwickelt werden sollten. So heißt es auf den Seiten 58 und 62: "Die Förderung [von Repositorien und Referatorien, A.P.] sollte gebunden sein an die Entwicklung der betreffenden Systeme als Open‐Source‐Produkt , um eine Nachnutzung für andere Einrichtungen zu gewährleisten." Diesen Punkt darf man meines Erachtens nicht unterschätzen. Dadurch werden – im Falle eines Erfolgs von OER und der entwickelten Open-Source-Systeme – Abhängigkeiten von kommerziellen Anbietern proprietärer Systeme verhindert.

Transparente Koordination & Kommunikation

Als ein wünschenswertes Ziel nennt die Studie "eine kontinuierliche Abstimmung" der einzelnen, an der OER‐Infrastruktur beteiligten Dienste. "Die Realisierung koordinierter Kommunikationsprozesse und konsensfähiger Workflows ist als zentrales Kriterium für den erfolgreichen Aufbau einer nachhaltig funktionsfähigen ... Infrastrukturbildung zu betrachten". (S.65)

Mit anderen Worten, die beteiligten Akteure sollen sich beim Aufbau der Infrastruktur austauschen, damit eine einheitliche Praxis bei der Er- und Bereitstellung der Daten entstehen möge.

Das Papier schlägt zu diesem Zweck vor, drei Gremien einzurichten:

  1. eine Koordinierungsstelle. die "interoperable Strukturen und Workflows zwischen den beteiligten Anbietern" entwickelt, "um die Interaktion der unterschiedlichen Repositorien, Referatorien und eines zentralen Hintergrunddienstes zu koordinieren",
  2. ein OER-Beirat soll die Koordinierungsstelle fachlich unterstützen, indem "Vertreter/inne/n aller Bildungsbereiche" Metadatenstandards und Schnittstellen abstimmen sowie
  3. ein Runder Tisch, der ein "regelmäßiges offenes Diskussionsforum" darstelle, in dessen Rahmen "auf der Basis z.B. von Arbeitsgruppen oder Workshops innovative Vorhaben zur Weiterentwicklung OER‐förderlicher Infrastrukturen konzipiert".

Wenn ich das richtig verstehe soll die Koordinierungsstelle mit fachlicher Unterstützung des OER-Beirats die technischen Vorgaben der OER-Infrastruktur spezifizieren, deren Anpassung und Weiterentwicklung am "Runden Tisch" diskutiert wird. Ich halte es für etwas verfrüht, für den Austausch direkt drei formale Gremien vorzuschlagen, weil man erst einmal schauen sollte, wieviele und welche Akteure sich überhaupt beteiligen. Zudem halte ich andere Punkte im Kontext der kooperativen Entwicklung einer gemeinsamen Praxis – die ich in einem gesonderten Beitrag aufzählen werde – für viel wichtiger.

Fazit

Zwar wird der Entstehungsprozess der Studie zurecht kritisiert. Diese Kritik sollte auch ernstgenommen und es sollte daraus gelernt werden. Dennoch scheint mir das ziemlich gut zu laufen im Vergleich zu Prozessen der Planung, Förderung und Entwicklung von Dateninfrastrukturen in anderen Bereichen.

Insgesamt stimmt mich der Inhalt der Studie weiterhin sehr optimistisch, was den Aufbau der OER-Infrastruktur angeht. Insbesondere folgende Punkte sind hervorzuheben:

  • die Absage an ein länderübergreifendes OER-Portal,
  • die Empfehlung, Förderung an die Nutzung und Entwicklung von freier Software zu binden,
  • die Tatsache, dass viele Überlegungen gemacht werden – und das nicht erst seit dieser Studie – hinsichtlich Metadatenschemata, geteilten Klassifikations- und Verschlagwortungssystemen und Schnittstellen, die die einfache Zusammenführung verteilt vorliegender Metadaten sicherzustellen, mit dem Ziel das Auffinden relevanter OER zu verbessern.

Man darf gespannt sein, wie sich der weitere Prozess gestaltet.

2016-02-23

Werbung & Lobbying mit Open Educational Resources

Bei der Recherche für einen anderen Blogpost bin ich auf das Whitepaper “Unternehmensfinanzierte Open Educational Resources (OER) an Schulen” gestoßen, das vor kurzem von YAEZ – einer auf “Corporate Publishing für junge Zielgruppen” spezialisierten Agentur – publiziert wurde. YAEZ hat beispielsweise in der Vergangenheit – kostenlose aber (noch) nicht offen lizenzierte – Unterrichtsmaterialien zum Thema “Vernetzte Mobilität – Die digitale Revolution auf Rädern” erstellt, bezahlt von der Initiative “Unsere Autos” des Verbands der Automobilindustrie (VDA). [1]

Das Whitepaper wird auf den YAEZ-Seiten auch unter dem Titel “Erfolgsfaktoren für OER in der Bildungskommunikation” beworben. Hier einige der im Whitepaper genannten Vorteile für Unternehmen, die eine Publikation von OER brächten: “Image verbessern”, “Bekanntheit steigern”, “Inhalte beeinflussen”, “positives Bild vermitteln”, “Kunden gewinnen”, “Gewinn steigern”, “Gewinnung von qualifizierten und geeigneten Auszubildenden”.

Seit langem schon betrachten Unternehmen die Schulen als wichtiges Ziel von Lobbying und Werbung, und das Angebot und die Nutzung durch Unternehmen bereitgestellter Unterrichtsmaterialien nimmt stetig zu, wie etwa gerade ein Beitrag in der letzten Heute Show aufzeigt (siehe auch die dazugehörige “Fakten”-Seite mit weiterführenden Links). Von Unternehmen finanzierte offen lizenzierte Unterrichtsmaterialien sind allerdings bisher noch selten. Wenn die Zahl der Unternehmens-OER aber so rapide wächst wie jene der nicht-offenen (aber kostenlosen) Unterrichtsmaterialien, dann werden die bisher hauptsächlich durch Lernende, Lehrende und öffentliche Bildungseinrichtugen erstellten und gepflegten Open Educational Resources bald Konkurrenz bekommen.

[1] Angeblich platziert YAEZ seine Produkte auch auf lehrer-online, ich habe allerdings auf Anhieb die VDA-Materialien oder andere von YAEZ genannte Beispielmaterialien dort nicht finden können.

2015-12-08

Does GND define authoritative headings?

I already wrote about authority files. In that post I said about Integrated Authority File (GND) which is "operated cooperatively by the German National Library, all German-speaking library networks, the German Union Catalogue of Serials (ZDB) and numerous other institutions" (source):

In the Integrated Authority File a numeric ID (GND ID) is used to identify an authority record. Likewise, each bibliographic record that references this authority record uses the GND ID.

Furthermore, I would even say that this ID is kind of the authoritative "heading" that enables searching for resources about Princess Diana in every data base that uses GND. But a heading in the sense of an authoritative string that all GND users use to refer to Princess Diana does not exist.

On the verge of an edit war ;-)

In December 2013 I had already edited the Wikipedia entry on "Authority Control" to reflect this practice (Edit 1).

Wikipedia user Gymel (Thomas Berger) doesn't agree as you can see by his reverts of my changes (Edit 2, Edit 4 after I put the GND ID back in Edit 3). As this topic can hardly be discussed in Wikipedia commit messages I am writing this post to provide some evidence for my thinking in the hope that the Wikipedia entry will be corrected (once again) soon.

What are "headings", anyway?

Wikipedia says:

In library science, authority control is a process that organizes library catalog and bibliographic information by using a single, distinct name for each topic. The word authority in authority control derives from the idea that the names of people, places, things, and concepts are authorized, i.e., they are established in one particular form. These one-of-a-kind headings are applied consistently throughout the catalog, and work with other organizing data such as linkages and cross references.

In short, headings are authorized names that

  1. are applied consistently throughout the catalog and
  2. are used for linkages and cross references.

With regard to GND (and many other authority files), one would have to adjust point 1: As there is no one catalog GND is maintained for, it should rather read "applied consistently throughout catalogs". Accordingly, below I will have a look at many catalogs from different GND users to see whether there is consensus on one authoritative heading across these different catalogs.

With regard to Geman-speaking cataloging practice, I argue that

  1. no authoritative name strings exist that are applied across catalogs of all GND users, but authoritative strings may only exist within a single catalog
  2. linkages and cross references are exclusively managed by using the GND ID and not a string.

Evidence

Below I am providing some evidence for the two points I made above.
Usage of different headings for presentation purposes

Taking our example Princess Diana (GND ID 118525123), I looked at several data sources to see which heading they use. Interestingly, you just have to look at different representations of the authority record from the German National Library (DNB) alone and will already find different headings in use:

The DNB-OPAC uses Diana, Wales, Prinzessin. We might think that this is the authoritative string. The GND RDF provided by DNB using the GND ontology defines both a "preferred name entity" and a "preferred name". We can already find a difference here – at least in punctuation:


<http://d-nb.info/gnd/118525123>
        gndo:preferredNameEntityForThePerson [
            gndo:epithetGenericNameTitleOrTerritory "Wales, Prinzessin"^^<http://www.w3.org/2001/XMLSchema#string> ;
            gndo:personalName "Diana"^^<http://www.w3.org/2001/XMLSchema#string>
        ] ;
    gndo:preferredNameForThePerson "Diana <Wales, Prinzessin>"^^<http://www.w3.org/2001/XMLSchema#string> .

Taking a look at the DNB-MARC, we can see that birth and death date sneak into the heading (I may be wrong here as I am not very familiar with MARC, really):


        <datafield tag="100" ind1="0" ind2=" ">
            <subfield code="a">Diana</subfield>
            <subfield code="c">Wales, Prinzessin</subfield>
            <subfield code="d">1961-1997</subfield>
        </datafield>

We will also find headings for Princess Diana (GND ID 118525123) that include birth and death dates in data bases of other GND maintainers:

hbz union catalogue: Diana, Wales, Prinzessin, 1961-1997"

GBV union catalogue: Diana <Wales, Prinzessin> *1961-1997*

SWB union catalogue actually has two different headings: Diana, Wales, Prinzessin [1961-1997] and recorded as "Ansetzung Landesarchiv BW": Wales, Diana; Prinzessin; 1961 - 1997 | 118525123

Kalliope (for example this record): Diana <Wales, Princess> (1961-1997)

At last we have two entries that follow the different punctuation versions of the DNB.

HeBIS (e.g. this record): Diana, Wales, Prinzessin

BVB: Diana <Wales, Prinzessin>

Usage of GND IDs for linking

This should be clear to everyone that name strings aren't used for linking to GND entries. As example, I only point to the wide-spread practice of creating beacon files to point to ones catalogued resources on the basis of GND IDs: https://de.wikipedia.org/wiki/Wikipedia:BEACON.

tl;dr

The Integrated Authority File (GND), operated cooperatively by a large group of libraries and library service centers in German-speaking countries, does not define authoritative name strings (= headings) to be used across the different catalogs of GND users.