Übertext: Blog: daten

Dann antworte ich endlich mal auf Jakobs Replik. Erstmal schönen Dank für diese schnelle Antwort, die vielen Verweise und Informationen.

Der Absatz "Daten als Strukturen" in Jakobs Text scheint mir ganz gut das wiederzugeben, was mir in dieser Diskussion wichtig ist und er zeigt, dass wir womöglich wirklich gar nicht so weit auseinanderliegen. In dieser Diskussion geht es ja wohlgemerkt nicht um unseren alltäglichen Gebrauch des Ausdrucks 'Daten', sondern darum, ein theoretisches Konzept in Abgrenzung etwa zum Informationsbegriff zu fassen. [1] Ich gehe hier nun eher indirekt auf Jakobs Replik ein, indem ich versuche, meine Grundgedanken klarer zu fassen.

Daten: Speicherbar und allographisch

Zwei grundlegende Eigenschaften von Daten, die es Wert sind hervorgehoben zu werden, sind:

Daten können gespeichert werden, d.h. sie existieren in einem persistenten Medium.
Daten können kopiert, vervielfältigt werden, wobei sich "Original" und Kopien nicht voneinander unterscheiden. Diese Eigenschaft wird von Nelson Goodman in Sprachen der Kunst als allographisch - im Unterschied zu autographisch - bezeichnet. [2]

Wenn wir übereinstimmen, dass dies notwendige Bedingungen von Daten sind, ergibt sich schon eine Menge daraus. Mit dem ersten Punkt werden etwa die orale Sprache oder die vorgetragene Musik als Träger von Daten ausgeschlossen, denn es handelt sich bei beiden um vorübergehende, verschwindende Medien. Mit der zweiten Bedingung fallen auch Gemälde oder Schallplatten als Träger von Daten aus.
Der grundlegende Punkt, bei dem eher Differenzen entstehen können, ist folgender: Verstehen wir diese zwei Eigenschaften auch als hinreichende Bedingungen von Daten, so hat die An- oder Abwesenheit von Information keinen Einfluss auf ihren Status als Daten. Wir haben es folgerichtig mit Daten auch dann zu tun, wenn sie falsche oder gar keine Information speichern. [3]

Ich würde allerdings nicht behaupten, dass nicht speicher-bare oder nicht-allographische Medien wie die gesprochene Sprache oder die Malerei keine Information enthalten können, wie es Jakob mit der Aussage "Ohne Daten kann es keine Informationen geben" tut. Information kann es sehr wohl ohne Daten in dem hier verstandenen Sinn geben.

Daten-Business oder Content-Business?

Der Unterschied zwischen Daten als syntaktisch geordneter Menge und der Interpretation von Daten (die sicher auch "Information" ins Spiel bringt) wird vielleicht mit diesen zwei Beispielen klar:

1. Der Autor arbeitet auf der semantischen Ebene, er schreibt Worte, Texte. Der Drucker ist im Datengeschäft, er druckt Buchstaben, Wörter, die Textur, er druckt Bücher, Broschüren usw.

2. Solange ich mit dem Computer speichere, konvertiere, etwas in ein Diagramm überführe etc. operiere ich auf der Datenebene. Sobald ich anfange Dubletten zu bereinigen, Falschangaben zu korrigieren, Daten zu ergänzen bin ich auf der semantischen Ebene und befasse mich mit Zeichen (im Sinne eines "zweiseitigen" Zeichenbegriffes).

Beispiel RDF

RDF-Daten ist erstmal alles, was der abstrakten RDF-Syntax folgt, völlig unabhängig davon, dass die URIs womöglich auf irgendwelche realen Entitäten referenzieren und unabhängig davon, ob Literale als Text von Menschen gelesen werden können.
Dass wir mit realen RDF-Daten etwas tun, sie zu bestimmten oder weniger bestimmten Zwecken erschaffen, sie gebrauchen ist natürlich klar. Diese Schnittstelle zwischen Daten, Syntax und Bedeutung scheint ja dein Dissertationsthema (oder nur ein Teil davon?) zu sein, Jakob. Da wird es sicher erst richtig spannend und zweifellos spielen Formate und Modelle hier eine große Rolle (und im Bereich Linked Data die Weltmodelle, die wir Ontologien nennen). Auf der Ebene der Daten wird aber eben von dieser Bedeutungsebene abstrahiert, folgt man den oben genannten zwei Bedingungen für Daten. Die Bedeutung eines Zeichens hingegen ist an seinen Gebrauch gekoppelt und somit eine Analyse der "Beziehung zwischen Daten, Wohlgeformtkeit [sic] und Bedeutung in der Praxis" an eine Untersuchung eben dieser Praktiken. Es müsste also geschaut werden, welche menschlichen Handlungen mit diesen Daten verbunden sind.

Vielen Dank an Felix, mit dem ich (wie sonst auch) viel über die Problematik diskutiert habe. Er hat zwar keine Tasten getippt und Daten produziert aber viel zum Verständnisfortschritt in dem Bereich beigetragen.

[1] Alltagssprachlich haben wir einen viel weiteren Datenbegriff als ich hier beschreibe. Wir reden zum Beispiel von "hochwertigen" und "schlechten" Daten und meinen meistens den Informationsgehalt.

[2] Vgl. Sprachen der Kunst, S. 113. Siehe auch eine alte Hausarbeit von mir, S.17. (Ich werde die bei Gelegenheit nochmal auf scribd hochladen, weil GRIN Geld für einen PDF-Download verlangt. Update: Habe dies nun hier getan.)

[3] Ein Beispiel mag hier erhellend sein: Man wusste zwar lange, dass die ägyptischen Hieroglyphen einst als Zeichen gebraucht wurden, also Bedeutung trugen, konnte aber zunächst nicht viel mehr als auf Datenebene mit ihnen operieren, d.h. den Zeichenvorrat, die Menge der Typen extrahieren, gewisse Regelmäßigkeiten erkennen etc. Erst der Stein von Rosetta ermöglichte es, sich auf die semantische Ebene der Hieroglyphen zu begeben.

Jakob Voß hat eine sehr schöne, dichte Präsentation mit dem Titel "Semantic Web und Linked Open Data. Eine Bibliothekarische Geschichte" auf Slideshare veröffentlicht. Bei Jakobs Vortrag wurde dem Auditorium sicher nicht langweilig. Das Reinschauen lohnt sich.

Jakobs Datenbegriff

Mich hat besonders Jakobs Definition von "Daten" (auf den Folien 5 und 9) zum Nachdenken gebracht:

"Daten: Strukturen aus unterscheidbare[n] Zeichen, die aufgrund von Vereinbarungen Informationen darstellen"

Da keine Referenz angegeben ist, denke ich dass diese Definition in dieser Form von Jakob selbst stammt. Da ich mich desöfteren frage, wie sich der Datenbegriff am besten fassen lässt [1], nehme ich das gerne zum Anlass, hier meinen Gedanken freien Lauf zu lassen.

Offensichtlich benutzt Jakob hier "Zeichen" im Sinne von "Zeichenkörper", denn Information und damit bedeutungstragend werden die Zeichen ja erst "aufgrund von Vereinbarungen". Das lässt sich dann so umformulieren:

Daten sind Strukturen aus unterscheidbaren Zeichenkörpern,
die "aufgrund von Vereinbarungen Informationen darstellen".

Kritik

Hier vier Aspekte der Definition, mit denen ich Probleme habe:

Es ist nicht klar, worauf sich das Relativpronomen 'die' bezieht: auf 'Strukturen' oder auf 'Zeichen(körpern)'.
Der zweite Teilsatz ist mir einfach zu unklar. Mir erscheint der Informationsbegriff im Alltagsgebrauch klarer als in den Bibliotheks- und Informationswissenschaften (Zumindest kommt man im Alltag mit einem unklaren Konzept klar, während so etwas der wissenschaftlichen Arbeit nicht gut tut.) Aber auch, was sich hinter "Vereinbarungen" verbirgt, ist alles andere als klar.
Nach meinem Dafürhalten - und darauf werde ich unten näher eingehen -, stellen Daten keine Information dar, wenn sie auch gespeicherte Information sein mögen. Sprechen wir von Daten, so ist sozusagen die Bedeutung weggekürzt und wir befinden uns allein auf der syntaktischen Ebene. Folgerichtig würde ich den zweiten Spiegelstrich bei einer Definition von "Daten" erstmal einfach wegstreichen um der Sache näher zu kommen.
Mir scheint außerdem - aus Punkt drei folgend - der Ausdruck 'Zeichen'/'Zeichenkörper' hier nicht der passende zu sein. Ein Zeichenkörper ist die materielle Seite des Zeichens. Ein Zeichen hat Bedeutung, weshalb Buchstaben keine Zeichenkörper haben/sind, weil wir - in der Regel - nur Folgen von Buchstaben,nämlich Wörtern und Phrasen, Bedeutung zuweisen und nicht einzelnen Buchstaben. Buchstaben befinden sich eben auf der subsemantischen Ebene. Da ich aber denke, dass sich der Datenbegriff allein auf die syntaktische Ebene bezieht, sollte von den atomaren Einheiten der Syntax , sprich: Buchstaben und Zahlen oder im Bitzeitalter: Bits, gesprochen werden. Diese sind nun eben keine Zeichenkörper, sondern eher als Token oder Inskriptionen o.ä. zu bezeichnen.

Ein rein syntaktischer Ansatz

Daten sind für mich in erster Linie eine Menge unterschiedener und unterscheidbarer, syntaktisch strukturierter Token, die gespeichert sind und transportiert und kopiert werden können. Syntax in diesem Sinne setzt Digitalität (d.h. eine endliche Menge klar abgegrenzter Typen) voraus und damit ist Digitalität auch Voraussetzung für Daten. Es folgt, dass neben elektronisch vorliegenden Daten, Tabellen usw. auch geschriebene Bücher und Partituren Daten sind. Aber Gemälde oder aufgeführte Musikstücke zählen demnach nicht dazu
Oder: Digitale Medien, allen voran die Schrift, ermöglichen erst die Existenz von Daten. Denn erst die Schrift ermöglicht überhaupt eine Unterscheidung zwischen Zeicheninhalt und Zeichenkörper und ist somit notwendige Bedingung zur Unterscheidung von Syntax und Semantik.

Text : Textur = Information : Daten

Diese - zugegebenermaßen rudimentär dargelegte - Sicht auf Daten unterschlägt vollständig die Koppelung von Daten an eine Bedeutung, an den Gebrauch, den wir von ihnen machen. Diese Verbindung ist es, die Jakob im zweiten Teilsatz seiner Definition anspricht, denn Daten entstehen ja für bestimmte Zwecke und somit nicht im bedeutungsleeren Raum. Im Folgenden versuche ich, diese Bedeutungsdimension mit ins Spiel zu bringen, ohne die dargelegte syntaxzentrierte Sicht aufzuweichen.

Ich denke, Daten und Information lassen sich mit Gewinn in Analogie zu Christian Stetters Unterscheidung von Text und Textur (im Sinne von Oberflächenbeschaffenheit) differenzieren. [2] Stetter schreibt in "Schrift und Sprache" auf S. 294:

"Text ist dasjenige, was geschrieben und verstanden wird, die Textur das, was geschrieben ist und gelesen wird."

Und weiter heißt es: "Zwar verstehen wir 'normalerweise' unter Lesen einen Vorgang, der das Verstehen des Gelesenen impliziert, aber man kann durchaus etwas lesen, ohne es zu verstehen." Und ist es nicht genau das, was Computer machen: lesen ohne zu verstehen, über der Textur operieren, ohne den Text, die Semantik auch nur zu berühren? [3]

Hier mein Versuch, Daten und Information analog zu Text und Textur zu unterscheiden:

Information ist, was gespeichert und aufgenommen wird, Daten, was gespeichert ist und ausgelesen wird.

"Aufnehmen" hier im Sinne von "erfassen" oder "einordnen" stellt eine genuin menschliche Handlung dar. Speichern geschieht auf Trägermedien (Festplatte, Papier) und Auslesen mittels Maschinen bzw. auch durch Menschen, die "etwas lesen, ohne es zu verstehen."

Um auf Jakobs Definition zurückzukommen; diese würde dementsprechend etwa folgendermaßen umformuliert werden:

"Daten: Syntaktisch geordnete Mengen von Token, in denen Information gespeichert ist"

Digitalität und Information

So betrachtet basieren Daten auf Information, sie sind Ergebnis der Speicherung von Information in digitalen Medien. Damit ist für den Informationsbegriff freilich wenig gewonnen. Denn Information ist nicht auf das beschränkt, was in einem digitalen Medium gespeichert wird. Gemälde, Piktogramme, die Wahrnehmung oder selbst die gesprochene Sprache können nach allgemeiner Auffassung auch Information beinhalten, dies gilt nicht nur für digitale Medien wie Bits und Bytes, die Schrift oder Notationssysteme.

[1] So wie mich auch der Wissens- und der Informationsbegriff nicht loslassen.

[2] So wie ich ganz allgemein denke, dass die Arbeiten von Stetter mit großem Gewinn für Überlegungen zur Zukunft der Wissenschaften, der Bibliotheken und des Internet gelesen werden können. Der Aachener Linguistik-Professor Christian Stetter, bei dem ich in meinem Erststudium viel studiert habe, ist nicht nur eine Kapazität was Schriftphilosophie und die Grundlagen der Linguistik angeht, sondern übrigens auch einer der Gründer und Geschäftsführer von semantics, die mit der Visual Library Software für die die Erschließung von Digitalisaten und deren Präsentation im Internet anbieten. Verschiedene Projekte nutzen diese Software, z.B die Digitalisierungsprojekte an der Universität Halle. Kay Heiligenhaus, ebenfalls ein ehemaliger Student Stetters und Mitbegründer von semantics, ist wohl eher für das operative Geschäft zuständig. Er beteiligt sich desöfteren an Diskussionen auf Inetbib und hat einen meiner Inetbib-Favorites geschrieben.

[3] Aus diesem Grund ist auch der Ausdruck "Semantic Web" so irreführend, denn auch im Semantic Web "verstehen" Maschinen nichts.

2010-04-30

Datendefinition die Dritte

2010-04-19

Wann sind Daten?

Adrian

No rights reserved

Blog-Archiv