Was sind das Semantic Web und RDF?

Gelesen bei AboutWebDesign.de
URL: http://www.aboutwebdesign.de/awd/content/1051625968.shtml

Das Internet, so wie wir es heute kennen, hat ein Problem: nicht zu bändigende Unordnung. Suchmaschinen versuchen zwar, Ordnung ins Chaos zu bringen. Wie aber jeder weiß, haben auch moderne Suchmaschinen so ihre Probleme mit der Klassifizierung von Suchergebnissen: welche Seite liefert nun das, was der Suchende eigentlich lesen möchte?

Meta-Daten


Das grundsätzliche Problem dahinter: Internet-Seiten enthalten zwar Informationen darüber, wie ihre Inhalte dargestellt werden, z.B. in 12 Punkt großer Fettschrift. Um die Inhalte aber maschinell sinnvoll weiterverarbeiten zu können, bräuchte man aber in erster Linie Informationen darüber, in welchem Verhältnis die Inhalte zueinander stehen: Meta-Daten. Das Wort umfasst alle Daten, die Informationen über andere Daten enthalten.

Verständnis-Probleme


Ein Beispiel: Sie suchen alle Internet-Seiten, die von einer Person XY erstellt wurden. Sie können nun den Namen XY in eine Suchmaschine eingeben und darauf hoffen, möglichst sinnvolle Ergebnisse zu erhalten. Wenn XY aber zufällig häufig zitiert wird, werden Sie viele Seiten mit Zitaten von XY finden, aber nur wenige, die tatsächlich von XY erstellt wurden. Heutige Suchmaschinen können Ihnen da nur schwerlich helfen: in Ermangelung künstlicher Intelligenz können sie nicht herausfinden, in welchem Zusammenhang der Name XY erwähnt wird.

Lösungsansätze


Eine Möglichkeit wäre, die Suchmaschinen so intelligent zu machen, dass sie das, was sie indizieren, auch wirklich verstehen. Eine andere, realistisch durchführbare Alternative dazu ist, den Suchmaschinen und sonstigen informationsverarbeitenden Programmen mitzuteilen, welche Bedeutung bestimmte Informationen haben.

Das könnte z.B. so aussehen:

<autor_dieser_seite>XY</autor_dieser_seite>XY

und

<zitat>
<urheber>XY</urheber>
<text>In lorem ipsum...</text>
</zitat>XY


Hier bewegen wir uns schon auf der Ebene der Meta-Daten: Der Name XY und der Text des Zitats sind die eigentlichen Daten, die Information dagegen, welche Bedeutung XY und sein Zitat haben, sind Meta-Daten.

Das Semantic Web


Das W3C und der WWW-Erfinder Tim Berners-Lee haben dieses Problem schon vor einiger Zeit erkannt. Die Lösungsansätze werden unter dem Schlagwort "Semantic Web" zusammengefasst. Zielvorstellung ist ein Internet, in dem Informationen ihrer Bedeutung nach klassifiziert und einander zugeordnet sind. Wichtig dabei ist, dass diese Bedeutungen und Zuordnungen auch von nicht-intelligenten Agenten wie Suchmaschinen erfassbar sein sollen.

An zentraler Stelle steht dabei RDF, das "Resource Description Framework" (die W3C-Seite dazu finden Sie unter http://www.w3.org/RDF). RDF ist ein Standard, der die oben beschriebenen Zuordnungen und Klassifizierungen leisten soll, und das flexibel und ohne eine zentrale, koordinierende Instanz.

RDF


RDF ist auch das, was wir uns nun etwas näher ansehen wollen - nicht in Form eines Tutorials oder einer Anleitung, sondern als Kurzüberblick.

Beispiel


RDF-Zuordnungen werden normalerweise in XML notiert. Das kann dann z.B. so aussehen:

<rdf:Description about='http://www.aboutwebdesign.de/awd/content/1045569659.shtml'>
<Author>Alexander Dilthey</Author>
<Home-Page rdf:resource='http://www.aboutwebdesign.de' />
</rdf:Description>


Zunächst leiten wir mit rdf:Description eine Beschreibung ein. Was dabei beschrieben wird, geben wir im about-Attribut an. In unserem Beispiel beschreiben wir eine ganze HTML-Seite, es ist aber auch möglich, z.B. einzelne Textpassagen zu beschreiben. Dazu müssen Sie nur angeben, was genau Sie meinen - wie genau das funktionieren kann, steht z.B. in dem Teil unseres XML-Tutorials über XLinks.

Innerhalb des Description-Tags werden nun bestimmte Attribute zugeordnet - hier sind das Author und Home-Page. Der Autor-Name wird als einfacher Text angegeben, für die Homepage dagegen wird auf eine andere URL verwiesen.

RDF-Grammatik


Um das etwas zu formalisieren, wurden im Rahmen von RDF verschiedene Grundbegriffe definiert:

Dadurch ergibt sich eine Reihe von Vorteilen, die RDF gegenüber anderen Lösungen auszeichnet:

Vokabular


Interessanterweise hat das W3C zwar die grundsätzlichen grammatikalischen Eigenschaften von RDF definiert, aber keine konkreten Eigenschaften vorgegeben. Das heißt, es ist dem Anwender völlig freigestellt, ob er Author, Autor oder Creator als Eigenschaft für die Person wählt, die das Dokument erstellt hat.

Daher wird es aufbauend auf RDF weitere Spezifizierungen geben wird, die ein bestimmtes Vokabular an Eigenschaften zur Verfügung stellen. Das geschieht, indem ein XML-Schema (eine Art DTD) eingebunden wird. Wer Lust hat, kann auch sein eigenes XML Schema entwickeln und darauf basierende RDFs erstellen.

Wenn RDF aber wirklich Vorteile für Internet-Suchmaschinen und ihre Anwender bringen soll, werden die beteiligten Akteure sich auf ein bestimmtes Vokabular einigen müssen.

Ein komplexeres Beispiel


Die prinzipiellen Möglichkeiten von RDF kennen Sie nun. Wir wollen aber unsere am Anfang stehende Behauptung, RDF hätte mit der Lösung des Zitat-Problems zu tun, nicht unbewiesen im Raum stehen lassen. Daher nun noch ein etwas komplexeres Beispiel.

Die Datei, in der Zitate enthalten sind, ist verfügbar unter http://www.zitate.de/zitate.html. Sie enthält, neben Layout-Informationen und anderen Zitaten, folgenden Code:


<div id="zitat1">"Uns steht Großes bevor"</div>
- <div id="autor1">XY</div>


Wir wollen etwas Sinn in die Sache bringen. Daher nun folgender RDF-Code:

<rdf:Description about='http://www.zitate.de/zitate.html#zitat1'>
<Typ>Zitat</Typ>
<Autor rdf:resource='http://www.zitate.de/zitate.html#autor1' />
</rdf:Description>

<rdf:Description about='http://www.zitate.de/zitate.html#autor1'>
<Geburtsjahr>1964</Geburtsjahr>
<Homepage rdf:resource='http://www.xy-homepage.de' />
</rdf:Description>


(Achtung: das ist kein korrektes RDF-Dokument. U.a. fehlen XML-Deklaration und Definition eines eigenen Schemas, was aber für ein simples Beispiel übertrieben wäre)

Entsprechende Code-Parser vorausgesetzt, ließe sich so klar ermitteln, was nun ein Autor-Name im Zusammenhang mit einem Zitat wäre und was nicht.

Fazit


Das Semantic Web hat Zukunft - zu groß sind die möglichen Vorteile, als dass sich die Idee einfach ignorieren ließe. In heutigen Zeiten ist es ohnehin eine immer größere Herausforderung, immer mehr Informationen so zu verwalten, dass sie leicht zugänglich sind. Das heißt vor allem, intelligente Durchsuchbarkeit zu gewährleisten, und das geht ohne Semantik nun einmal nicht - davon können Firmen, die mit großen Informationsmengen konfrontiert sind, ein Lied singen.

Schön, dass das W3C mit RDF wenigstens die Grundlage für semantische Auszeichnungen geschaffen hat: RDF basiert auf XML, ist interoperabel und anpassbar - vermutlich werden wir die Sprache bald also nicht nur im Web wiederfinden, sondern auch in Firmen- und Forschungs-Intranets. Schon jetzt wird RDF z.B. von Mozilla/Netscape 6 verwendet, und auch die Yahoo-Alternative Open Directory setzt RDF ein, um seine Verzeichnis-Inhalte zu verteilen.

Zum Weiterlesen


... wenn man nach dieser Einführung Lust auf Mehr hat:

W3C: Semantic Web
... mit vielen Informationen zum Semantic Web.

SemanticWeb.org
... Portal-Seite, viele Links und Informationen.

XML.com: Interview mit Tim Berners-Lee zum Semantic Web
... interessant zu lesen!

W3C-RDF-Homepage
... mit Spezifikation, Links zu vielen Artikeln und einem Validator.

Open Directory RDF-Homepage
... wer sich schon immer einmal das gesamte Open Directory herunterladen wollte, kann das hier tun. Zusätzlich findet man hier Informationen zur Struktur der Open Directory-RDF-Dumps - als Beispiel durchaus interessant.

Mozilla und RDF
... denn auch der populärste Open Source-Browser verwendet RDF.

XMLHack und Dave Beckett's RDF Resource Guide
... liefern Informationen en masse.