Schließen

Die Arbeit mit Daten und hier im Speziellen die Datenanalyse ist in vielen modernen Organisation heute unerlässlich geworden. Unternehmen versprechen sich davon bessere Einblicke in ihr Geschäftsfeld und ihre Kund:innen, und darauf aufbauend einen Mehrwert für die eigene Organisation.

Abbildung 1: Datenwertschöpfungskette (eigene Darstellung)

Um gute Datenanalyse gewährleisten zu können, ist es jedoch erforderlich, eine passende Datenbasis aufzubauen. Deshalb spielt nicht nur die Analyse allein, sondern auch die Vorgelagerten Schritte in der Datenwertschöpfungskette (siehe Abbildung 1) eine wichtige Rolle. Zu diesen Schritten gehört die Erhebung der Daten (A), die Integration der Daten (B) und die Speicherung dieser Daten (C).

Datenintegration

Unter Datenintegration versteht man in der Literatur den Prozess des Zusammenführens von Daten aus unterschiedlichen Quellen (Ziegler 2007). Hierbei können Daten innerhalb einer Organisation z. B. aus unterschiedlichen Funktionseinheiten zusammengeführt werden (in Anlehnung an die horizontale Integration in der Wertschöpfungskette hier kurz „Horizontale Integration“ genannt). Alternativ können auch Daten über Organisationsgrenzen hinweg zusammengeführt wer-den (in Anlehnung an die vertikale Integration in der Wertschöpfungskette hier kurz „Vertikale Integration“ genannt).

Durch Datenintegration wird ein ganzheitliches Bild des jeweiligen Interessensgegenstandes gezeichnet (Davenport 2018). Hier kann etwa das Beispiel einer Kundin im touristischen Kontext genannt werden, die auf Urlaub ist und bei der Benutzung von digitalen Dienstleistungen in einer Tourismusregion Spuren hinterlässt (siehe Abbildung 2).

Abbildung 2: Spuren einer Kundin in digitalen Systemen am Beispiel Tourismus (eigene Darstellung)

In der Grafik sind in rot die einzelnen Aufenthalte entlang des Tages in unterschiedlichen digitalen Kanälen (Zeile) und bei unterschiedlichen Dienstleistern (Spalte) dargestellt. Jeder rote Balken stellt dabei eine Datenspur dar, die Informationen über die Kundin enthalten kann, und die z. B. für eine gezielte Ansprache dieser Kundin genutzt werden kann.

Wäre es möglich, diese Spuren zusammenzuführen, ergäbe sich ein ganzheitliches Bild dieser Kundin und daraus ein ggf. ein Mehrwert für alle Beteiligten Dienstleister. So könnte z. B. genauer auf die Wünsche der Kundin eingegangen oder eine maßgeschneiderte Dienstleistung angeboten werden.

Die Integration von Daten kann auf unterschiedlichen Ebenen erfolgen (siehe Abbildung 3). Je weiter oben im dargestellten Schichtenmodell Integration passiert, desto einfacher ist sie zu realisieren (es werden keine weitreichenden Eingriffe in die Dateninfrastruktur benötigt). Gleichzeitig ist diese Form der Integration mit einem erheblichen, nachgelagerten Mehraufwand verbunden, da sie nachträgliche Anpassungen an den Daten erforderlich macht. Passiert Integration hingegen in den tieferliegenden Schichten des Modells, sind damit in der Regel aufwändigere Vorarbeiten verbunden. Dafür ist die Integration nahtlos und macht nachträgliche Regiearbeiten überflüssig.

Abbildung 3: Formen von Integration

Wo genau Integration passiert, ist vom jeweiligen Anwendungsfall abhängig und muss sorgsam abgewogen werden. Häufig werden Integrationsprojekte in den oberen Ebenen des Schichtenmodells begonnen und später in tiefere Schichten verlagert.

Moderne Datenintegration

In den letzten Jahrzehnten hat sich Datenlandschaft stark verändert. Während anfangs die Integration von strukturierten Daten für viele Unternehmen an erster Stelle stand, benötigen Analysefragestellungen heute häufig auch semi-strukturierte und unstrukturierte Daten als Input. Hinzu kommt, dass sich das Volumen an gespeicherten Daten ständig erweitert hat und wir heute deshalb in vielen Domänen mit Big Data Problemen konfrontiert sind (Davenport 2012). Hierbei spielen vor allem die Dimensionen Volumen, Variabilität und Velocität eine große Rolle – nicht immer haben Big Data Probleme ausschließlich etwas mit dem Datenvolumen zu tun.

Am Technologiesektor haben sich deshalb neue Werkzeuge etabliert, die auch bei der Integration von Daten eine zentrale Rolle spielen. Längst sind relationale Datenbanken – die lange Zeit ein alternativloses Werkzeug im Bereich der Datenspeicherung waren – zur Seite gerückt. Neue Konzepte haben den Markt erobert und schaffen neue Möglichkeiten bei der Integration und Speicherung. Häufig werden diese Konzepte unter dem Titel NoSQL zusammengefasst (Corbellini 2017).

Video 1: Vergleich von Datenbankkonzepten

Es ist an dieser Stelle wichtig zu betonen, dass keines der genannten Speicherkonzepte den anderen in allen Dimensionen überlegen ist. Vielmehr gilt es abzuwägen, welche integrations- und Speicherlösung für welchen Anwendungsfall optimal ist. Häufig setzten Organisationen deshalb nicht auf eine einzelne Lösung, sondern kombinieren mehrere Systeme, um Anwendungsfälle optimal zu unterstützen.

Dos and Don’ts

  • Keine Lösung ist perfekt. Jeder Anwendungsfall ist speziell und muss sorgsam geprüft werden. Es gibt in der Regel keine Lösung, mit der alle Anforderungen zur Gänze erfüllt werden können. In Praxis müssen Reliabilität, Skalierbarkeit und Wartbarkeit der unterschiedlichen Lösungsvarianten abgewogen werden.
  • Daten sind nicht gleich Daten. Je nach Größe der Anwendung und nach Charakteristik der verwendeten Daten können unterschiedliche Integrationsansätze zweckmäßig sein. Viele Unternehmen setzten heute noch immer auf strukturierte Datenspeicher (Data Warehouse) bei der Daten sofort integriert und transformiert werden. Hier muss allerdings schon im Vorfeld geklärt werden, welche Fragestellungen später bearbeitet werden sollen. Fehlt die Fragestellung, oder lassen sich die Daten nicht strukturiert abbilden, kann es sinnvoll seine einen anderen Integrationsansatz zu verwenden (z.B. Data Lake).
  • Anwendungsfall statt Terminologie: Häufig konzentrieren sich Organisationen darauf, bestimmte Verarbeitungskonzepte im Zusammenhang mit Daten umzusetzen (z.B. Data Lakes). Das liegt häufig daran, dass auch im Technologiebereich Moden existieren, die die Aufmerksamkeit von Entscheidungsträger:innen auf sich ziehen und mit Vorteilen locken. Doch auch wenn solche Moden attraktiv erscheinen, sind sie dennoch in Regel auch mit Nachteilen behaftet, die bei der Entscheidung für oder gegen eine Technologie berücksichtigt werden müssen. Während also Verarbeitungskonzepte durchaus eine gute Referenz bieten, können sie dennoch den jeweiligen Problemfall, der bearbeitet werden soll, nur selten vollständig abbilden. Darum ist es wichtig, zuerst den Problemfall genau zu erörtern, bevor damit begonnen wird, eine bestimmte Lösungsstrategie zu ins Auge zu Fassen und umzusetzen (Nicht jedes Datenproblem lässt sich mit der Implementierung eines Data Lakes lösen).

Weiterführende Literatur

  • Corbellini, A., Mateos, C., Zunino, A., Godoy, D., & Schiaffino, S. (2017). Persisting big-data: The NoSQL landscape. Information Systems, 63, 1-23.
  • Davenport, T. H., Barth, P., & Bean, R. (2012). How’big data’is different. Sloan Management Review, 54(1), 43-46.
  • Davenport, T. H. (2018). From analytics to artificial intelligence. Journal of Business Analytics, 1(2), 73-80.
  • Ziegler, P., & Dittrich, K. R. (2007). Data integration—problems, approaches, and perspectives. Conceptual modelling in information systems engineering, 39-58.

Downloads

Download nur für registrierte User verfügbar.
Hier können Sie sich anmelden bzw. registrieren

Kursunterlagen "Datenintegration in der Software-Landschaft"
War dieser Artikel hilfreich?
Ja   Nein

Hier können Sie einen Kommentar abgeben

Melden Sie sich bei der eComProf Mailingliste an

So erfahren Sie regelmäßig über eComProf Aktivitäten und bekommen weitere Neuigkeiten zu Themen aus der Welt des eCommerce.*

Dieses Feld dient zur Validierung und sollte nicht verändert werden.
*Wir respektieren Ihre Privatsphäre und Sie können sich natürlich jederzeit wieder problemlos abmelden

Teilnehmende Hochschulen

Gefördert durch