Schließen

Die Suche nach Informationen im World Wide Web (kurz Web) hat sich innerhalb weniger Jahre mehrfach gewandelt. In den Anfängen des Web halfen ausschließlich Lesezeichen-Listen dabei einen Überblick über verfügbare Informationen zu wahren. Mitte der 1990er Jahre kamen dann die ersten Suchmaschinen auf, welche die Inhalte von Webseiten indizierten und eine Volltextsuche ermöglichten. Mittels Schlüsselwörter war es möglich, passende Webseiten zu finden. Eine dieser Suchmaschinen, die jedem ein Begriff sein dürfte, ist Google (veröffentlicht 1998).

Diese Art der Suche blieb bis etwa 2012 der Standard zum Auffinden von Informationen im Web. Ein Wendepunkt für die Informationssuche im Web war ein Blogeintrag vom 16. Mai 2012 von Google, in welchem der Google Knowledge Graph zur Verbesserung des Suchalgorithmus vorgestellt wurde. Dies war der Beginn der Bemühungen Googles weg von einer hybriden Suche (bestehend aus probabilistischen Ansätzen und Page Rank) hin zu einer semantischen Suche. Für die semantische Suche ist es wichtig, dass Informationen im Web verlinkt und maschinenlesbar und -verständlich sind. Dies wird immer wichtiger, da so-genannte Web-Crawler, wie sie von Google zur Indizierung von Webseiten eingesetzt werden, die Informationen verstehen und entsprechenden Suchabsichten zuordnen müssen.

Um den Wandel von der Schlüsselwortsuche hin zur semantischen Suche und den Zusammenhang zwischen semantischer Suche und eCommerce besser nachverfolgen zu können, schauen wir uns im Folgenden zunächst die Entwicklung des Web an.

Entwicklung des Web

Das Web wie wir es heute kennen wurde 1989 von Sir Tim Berners-Lee am CERN erfunden (Berners-Lee, 1989). Zu Beginn war das Web eine Sammlung von Textdokumenten und anderen Ressourcen, verbunden durch Hyperlinks und URLs. Diese Ressourcen wurden auf Webservern gespeichert und wurden mittels eines Browsers besucht. Das Web 1.0, wie es auch bezeichnet wird, war vorwiegend für wissenschaftliche Institutionen und Regierungen. Es benötigte spezielle Expertise und das nötige Kleingeld, um Informationen im Web zur Verfügung zu stellen. Netscape wird gerne in Verbindung mit dem Durchbruch des Web gebracht. Hierbei handelt es sich um einen Browser, welcher schnell eine große Anzahl an Nutzern begeistern konnte. Mittels Netscape war auch der Otto-Normal-Nutzer in der Lage Webseiten aufzurufen und Hyperlinks zu folgen. Neben Netscape verkörpert Google das „mega Wachstum“ des Web 1.0. Veröffentlicht im Jahre 1998 hatte Google 2008 schon mehr als 1 Billion Webseiten indiziert.

Auf das Web 1.0 folgte das Web 2.0, auch „Social Web“ genannt. Es wird mit Webanwendungen zum interaktiven Informationsaustausch, nutzerzentriertem Design und Kollaboration über das Web assoziiert. Dieser vage definierte Begriff fasst Themen wie Social Networking, Wikis und webbasierte Kommunikationsmittel zusammen. Die vier nachhaltigen Änderungen des Web 2.0 gegenüber des Web 1.0 sind:

  • Unterscheidung zw. Inhaltsproduzent:innen und -konsument:innen verschwimmt
  • Web 2.0 ist ein „Medium für viele“ anstatt eines „Medium für einzelne“
  • Unterscheidung zw. Serviceanbieter:in und -anwender:in verschwimmt
  • Entstehung neuer Mensch-Maschine-Interaktionen

Doch das Web 2.0 stößt an einigen Stellen an seine Grenzen:

  • Exaktes Auffinden relevanter Informationen
    Die Informationsfindung basiert auf der Schlüsselwortsuche und hat daher eine schlechte Trefferquote und Genauigkeit. Es kann beispielsweise nicht zwischen dem Tier „Jaguar“ und dem Auto „Jaguar“ unterschieden werden. Zusätzlich können Suchmaschinen keinen Zusammenhang zwischen Begriffen herstellen, bspw. dass „verkaufen“ das Gegenteil von „kaufen“ ist.
  • Automatisches Extrahieren relevanter Informationen
    Es existiert keine „One-fit-all“ Lösung zur Extraktion von Daten aus Webseiten aufgrund unterschiedlicher Strukturen, Datenformate und Syntax. Das spezifische Entwickeln eines Web-Crawlers für genau eine Webseite ist sehr zeitaufwändig und hinfällig sobald sich die Struktur der Webseite ändert
  • Kombinieren und wiederverwenden von Informationen
    Das Finden von gleichartiger Information, verteilt über verschiedene Webseiten, ist mit dem Web 2.0 und dessen Schlüsselwortsuche nicht möglich. Des Weiteren können keine Informationen von verschiedenen Webseiten miteinander kombiniert werden, um das gewünschte Ergebnis zu erhalten.

Hier benötigt es Verbesserungen für automatische Querverweise zwischen Datensätzen auf unterschiedlichen Webseiten, die Erhöhung der Trefferquote und Genauigkeit, sowie die automatische Integration von Informationen aus unterschiedlichen Quellen. Eine Lösung für die genannten Probleme ist die Anreicherung von Daten mit semantischen Informationen. Die technische Lösung dazu lautet „Semantic Web“.

“Das Semantic Web ist eine Erweiterung des eigentlichen Web in welchem Information wohldefinierte Bedeutung gegeben wird, um eine bessere Zusammenarbeit von Mensch und Computer zu ermöglichen.” (Berners-Lee, 2001)

Das Semantic Web (Web 3.0) ist die „nächste Generation“ des Web, in welchem Informationen maschinenlesbar und -verständlich sind. Dazu werden Objekte im Web (seien es Bilder, Textinformationen oder Videos) mit einer semantischen Beschreibung versehen. Diese semantische Beschreibung wird Annotation genannt und verbirgt sich im Hintergrund der Webseite. Dies bedeutet, dass ein Mensch die Annotation beim Besuchen der Webseite nicht zu Gesicht bekommt. Ein Web-Crawler kann auf diese Annotation zugreifen und anhand dieser den Inhalt der Webseite verstehen. Zusätzlich werden Datensätze mit anderen Datensätzen im Web verlinkt. Ebenfalls können Daten basierend auf unterschiedlichen Modellen nahtlos integriert werden. Die Kerntechnologie des Semantic Web sind Ontologien. Hierbei handelt es sich um Metadaten, welche der Maschine die Semantik der Daten angeben.

„An ontology is a formal, explicit specification of a shared conceptualization.“ (Studer et al., 1998)

Betrachten wir diese Definition einmal genauer:

  • formal – spezifiziert, dass die Ontologie eindeutig maschinenlesbar ist
  • explicit – explizite Definition von Konzepten, Beziehungen und Einschränkungen
  • shared – Ontologie enthält konsensuales Wissen einer Gruppe
  • conceptualization – Ontologie modelliert einen Teil der (realen) Welt

Eine Sammlung von Termen und eine quasi Ontologie ist schema.org. schema.org wurde von den vier großen Suchmaschinenanbietern (Bing, Google, Yahoo!, Yandex) gegründet und wird zur Beschreibung von „Things“ im Web verwendet. Annotationen können unsichtbar in Webseiten integriert werden, wodurch die Inhalte der Webseiten maschinenlesbar und -verstehbar werden. Diese Annotationen können von Web-Crawlern der Suchmaschinen extrahiert und verwendet werden. Suchmaschinenanbieter nutzen diese Annotation, um Informationen direkt auf der Suchergebnisseite anzuzeigen, dadurch muss die/der Nutzer:in nicht zu den Webseiten wechseln, sondern findet wichtige Informationen auf einen Blick.

Dadurch wird die eigene Webseite unsichtbar. Große Aggregatoren wie Amazon (Produkte), Booking.com (Unterkünfte) oder Google sammeln Daten und bereiten diese für die Nutzer:innen entsprechend auf. Dadurch können Daten von unterschiedlichen Webseiten miteinander kombiniert werden, ohne jede einzelne Webseite besuchen zu müssen. Dies wird auch als Headless Web bezeichnet. Das essenzielle am Headless Web sind die Daten in Form von Annotationen. Diese können dann auf beliebigen Geräten in verschiedenen Darstellungen präsentiert werden.

Headless Web

Das klingt auf den ersten Blick vielleicht gar nicht so schlecht. Wir müssen unsere Webseite nicht weiter pflegen und erreichen eine große Anzahl an Nutzer:innen. Allerdings gibt es auch keine Kontrolle über die Darstellung der Inhalte, keine Möglichkeit der Analyse des Nutzerverhaltens und zusätzliche Kosten durch Kommissionszahlungen. Wenn also schon Daten für die großen Aggregatoren zur Verfügung gestellt werden, warum diese dann nicht so aufbereiten, dass diese von allen verwendet werden können? Aber wer sollte die Daten verwenden wollen?

Das Headless Web ist nicht mehr direkt auf den Menschen als Konsument:in ausgerichtet, sondern auf eine neue Art von Konsumenten, den intelligenten Assistenten, Chatbots, usw. Damit diese nützlichen Informationen liefern, werden Daten benötigt. Deswegen Open Data, also das öffentliche zur Verfügung stellen der Daten. Wenn Daten zur Verfügung gestellt werden, dann aber richtig, und zwar in Form von Linked Open Data.

(Linked) Open Data

Wir zerlegen den Begriff Linked Open Data in „Open Data“ und „Linked Data“. Open Data bedeutet, dass die relevanten Daten für alle Interessenten frei zugänglich gemacht werden. Dazu ist es wichtig, die Daten in einer einheitlichen Sprache (wie z.B. schema.org) zu beschreiben und ein gemeinsames Verständnis für die Daten zu schaffen. Diese strukturierten Daten werden dann auf Webseiten, in gemeinsamen Speicherstrukturen, Datenhubs, Datenbanken und/oder Knowledge Graphen gespeichert. Open Data heißt aber auch, dass diese Daten für alle zugänglich sein müssen und ohne Einschränkung verwendet werden können. Der Abruf der Daten muss hierbei kostenlos (zumutbare Vervielfältigungskosten sind erlaubt) sein und die Daten müssen unter einer offenen Lizenz stehen.

Der zweite Teil „Linked Data“ zielt darauf ab, die eigenen Daten mit anderen Datensätzen in Verbindung zu setzen. Dazu werden eindeutige Identifier in den eigenen Daten benötigt, welche durch andere zum Referenzieren verwendet werden können. Genauso werden für den eigenen Datensatz Identifier anderer Datensätze verwendet, um diese miteinander in Verbindung zu setzen. Um zu vermeiden, dass die Eigenschaften von Materialien der Produkte gepflegt werden müssen, kann für die bestimmten Materialien eine Referenz zu einem Datensatz, welcher die Materialien beschreibt, eingefügt werden.

Was ist nun aber der Vorteil von offenen Daten im eCommerce? Zum einen wird die Doppelpflege von Daten vermieden. Wie im vorherigen Beispiel gesehen, können wir auf bestehende Daten verlinken und müssen diese nicht selbst pflegen. Durch die Verwendung des Standardvokabulars und der Strukturierung der Daten können diese flexibel ausgetauscht werden. Nicht nur mit anderen Unternehmen, sondern auch zwischen Softwaresystemen im eigenen Haus.

Des weiteren wird durch die Verwendung von Linked Open Data die eigene Reichweite erhöht. Intelligente Anwendungen können diese Daten verwenden und eine große Anzahl an Nutzer:innen erreichen.

Es gibt aber auch einiges zu beachten:

  • Analoge Daten – Daten müssen aktuell gehalten werden.
  • Nicht maschinenlesbare Formate – beispielsweise PDF-Dateien sind nicht maschinenlesbar und dürfen daher nicht verwendet werden.
  • Proprietäre Formate – Es muss darauf geachtet werden, dass offene Formate verwendet werden. Ein Word-Dokument kann beispielsweise nicht von jedem geöffnet werden und ist daher zu vermeiden.

Mit welcher Technologie können diese Daten nun gespeichert und mit anderen Datensätzen in Verbindung gesetzt werden? Hier kommen die Knowledge Graphen ins Spiel.

Knowledge Graphen

Knowledge Graphen erlauben die zentrale Speicherung der Daten (Annotationen) als Knoten und Verbindungen zwischen den Knoten.

Die technischen Vorteile von Knowledge Graphen sind Adaptierbarkeit und Reasoning. Adaptierbarkeit ist dadurch gegeben, dass Knowledge Graphen kein fixes Schema besitzen. Dies vereinfacht die Integration von Daten aus unterschiedlichen Quellen. Hierbei muss allerdings darauf geachtet werden, dass die Daten eine gewisse Qualität besitzen. Ist das nicht gewährleistet, können Anwendungen, die darauf aufbauen, keine vernünftigen Ergebnisse liefern. Reasoning wird verwendet, um Information abzuleiten, welche nicht explizit im Knowledge Graphen gespeichert sind, aber bspw. anhand der Ontologie abgeleitet werden können. Gehen wir davon aus, dass die Ontologie eine Hierarchie von Typen beschreibt. Ein Typ in der Ontologie ist „LocalBusiness“ mit einem Untertyp (spezieller) „Store“. Wenn nun in den Daten ein Element vom Typ „Store“ gespeichert ist, kann anhand der Typhierarchie abgeleitet werden, dass dieser Store auch ein „LocalBusiness“ ist, ohne es direkt abgespeichert zu haben. Solche abgeleiteten Informationen sind gerade für intelligente Anwendungen eminent wichtig.

Neben den technischen Vorteilen gibt es ein strategisches Interesse an Knowledge Graphen zur Publikation und Aggregation von semantischen Daten. Interesse bezogen auf eCommerce besteht darin, es als Datenquelle für Drittanbieter zu nutzen und Analysen über die Daten auszuführen, bspw. Zeitreihenanalyse der Preisentwicklung.

Nach der Erzeugung eines solchen Knowledge Graphen, können intelligente Anwendungen damit betrieben werden. Ein Beispiel solcher Anwendungen sind Intelligente Digitale Assistenten.

Intelligente Digitale Assistenten

Intelligente Digitale Assistenten sind Software-Agenten, die eine bestimmte Aufgabe oder Aktion übernehmen, z.B., die Bereitstellung von Produktinformationen oder Hilfestellungen bzw. die Begleitung beim Verkaufsprozess. Diese Aufgaben oder Aktionen werden mittels natürlicher Sprache ausgelöst und in Form eines Dialogs bis zum Abschluss ausgeführt. Dazu analysiert der digitale Assistent die Nutzereingabe und ordnet diese einer Absicht oder einem Thema zu. Zu jeder Absicht oder Thema gibt es dann eine definierte Abfolge, die im Hintergrund stattfindet, um eine Antwort an die/den Nutzer:in zu generieren. Beispielweise, das Abfragen von Informationen zu einem Produkt, Umwandeln der Produktinformationen in eine natürlichsprachliche Antwort und die Ausgabe dieser.

In diesem Beitrag haben wir beleuchtet, warum das Anreichern unserer Webseite mit Schlüsselwörtern nicht mehr ausreicht. Die Informationen auf den Webseiten müssen maschinenlesbar und -verständlich sein, um in der Flut an Informationen nicht unterzugehen. Als nächsten Schritt müssen wir uns als Unternehmen eine Strategie überlegen, um das Gelernte sinnvoll in die Praxis umzusetzen. Abschließend haben wir hierzu eine Liste an „Dos and Don’ts“ zusammengestellt.

Dos and Don’ts

  • Namenskonventionen
    Es ist eminent wichtig auf Standardwerte zur Beschreibung der Eigenschaften von Dienstleistungen und Produkten zu setzen. Die Werte von Eigenschaften dienen als Filter für intelligente Anwendungen. Wenn nun für dieselbe Eigenschaft unterschiedliche Begrifflichkeiten verwendet werden, so fallen einige relevante Ergebnisse aus der Suche heraus. Negative Beispiele wären unterschiedliche Bezeichnungen für dieselbe Farbe („Blau“ vs. „Aquamarine“) oder unterschiedliche Maßeinheiten (0,1 m vs. 10 cm).
  • Open Data
    Hier gilt es die Daten unter Verwendung eines einheitlichen Vokabulars (z.B. schema.org) strukturiert zu beschreiben. Anschließend können diese Daten zur Verfügung gestellt werden, sodass andere smarte Anwendungen darauf bauen können.
  • Linked Data
    Die offenen Daten sollten mit anderen Datensätzen verknüpft werden, um semantische Abfragen zu ermöglichen. Beispielsweise kann ein Produkt mit entsprechendem Zubehör, Dienstleistungen oder Upgrades verknüpft werden. Dies hilft zum Beispiel, die Verkaufsmenge der verknüpften Elemente zu erhöhen.
  • Knowledge Graphen
    Können zur Speicherung der Annotationen verwendet werden. Diese erleichtern Intelligenten Digitalen Assistenten die Verwendung der Daten. Basierend auf den Annotationen und Verlinkungen zwischen Annotationen können unterschiedliche Services zur Verfügung gestellt werden.
  • Daten Silos
    Vermieden werden sollten Daten Silos. Daten aus unterschiedlichen Quellen sind schwierig miteinander in Verbindung zu setzen. Beispielsweise Analysedaten von Social Media Plattformen in einer Plattform und Verkaufsdaten auf einer anderen Plattform führen dazu, dass nicht klar bestimmt werden kann, welche Social Media Plattform die höchste Rendite bringt. Diese fehlende Einsicht führt dann möglicherweise zu einer falschen Verteilung von Marketingbudget.
  • Unstrukturiert
    Textuelle Beschreibungen von Produkten ohne Unterscheidung der einzelnen Eigenschaften führen dazu, dass die Daten nicht von intelligenten Anwendungen verwendet werden können. Ebenso ist es schwierig, Suchfilter auf solche Beschreibungen anzuwenden, was zu schlechten Suchergebnissen führt.
  • Unvollständig
    Daten müssen immer so vollständig wie möglich annotiert und zur Verfügung gestellt werden. Zusätzlich sollten diese immer aktuell gehalten werden.

Weiterführende Bücher

  • Das Open Data Handbuch – https://opendatahandbook.org/guide/de/
  • Handbuch Open Data im Deutschlandtourismus – https://open-data-germany.org/handbuch-open-data/
  • Fensel, D., Simsek, U., Angele, K., Huaman, E., Kärle, E., Panasiuk, O., … & Wahler, A. (2020). Knowledge graphs (pp. 1-10). Springer International Publishing.
  • Gómez-Pérez, A., Fernández-López, M., & Corcho, O. (2006). Ontological Engineering: with examples from the areas of Knowledge Management, e-Commerce and the Semantic Web. Springer Science & Business Media.

Weiterführende Literatur

  • Angele, K., Fensel, D., Huaman, E., Kärle, E., Panasiuk, O., Şimşek, U., … & Wahler, A. (2020). Semantic Web empowered E-tourism. Handbook of e-Tourism, 1-46.
  • Berners-Lee, T. J. (1989). Information management: A proposal (No. CERN-DD-89-001-OC).
  • Berners-Lee, T., Hendler, J., & Lassila, O. (2001). The semantic web. Scientific american, 284(5), 34-43.
  • Studer, R., Benjamins, V. R., & Fensel, D. (1998). Knowledge engineering: principles and methods. Data & knowledge engineering, 25(1-2), 161-197.

Weiterführende Videos:

Downloads

Download nur für registrierte User verfügbar.
Hier können Sie sich anmelden bzw. registrieren

Kursunterlagen – Semantische Technologien im eCommerce
War dieser Artikel hilfreich?
Ja   Nein

Hier können Sie einen Kommentar abgeben

Melden Sie sich bei der eComProf Mailingliste an

So erfahren Sie regelmäßig über eComProf Aktivitäten und bekommen weitere Neuigkeiten zu Themen aus der Welt des eCommerce.*

Dieses Feld dient zur Validierung und sollte nicht verändert werden.
*Wir respektieren Ihre Privatsphäre und Sie können sich natürlich jederzeit wieder problemlos abmelden

Teilnehmende Hochschulen

Gefördert durch