Datensammlung & Datenaufbereitung
Die digitale Transformation hat unter anderem dazu geführt, dass Unternehmen eine Vielzahl neuer Datenquellen zur Verfügung stehen. Neben der massiven Verfügbarkeit von neuen Datenquellen liefern diese auch immer detailliertere Daten. Die Herausforderung für Unternehmen besteht nun nicht mehr darin, Daten zu beschaffen oder zu generieren, sondern mit der Fülle und Vielfalt der Daten effizient umzugehen und daraus nützliche Informationen zu gewinnen. Diese Entwicklung beschränkt sich nicht auf digitale Unternehmen, sondern ist natürlich für alle Unternehmen relevant.
Daten als potenzieller Wettbewerbsvorteil
Die strukturierte Nutzung von Daten kann Unternehmen in eine bessere Wettbewerbsposition als ihre Konkurrenten versetzen (z.B. durch frühere Erkennung von Trends oder Kundenpräferenzen), sie kann aber auch neue Geschäftsmöglichkeiten eröffnen (z.B. durch den Verkauf anonymisierter Sensordaten). Die Gesamtheit an Daten, die in einem Unternehmen generiert werden, stellt daher einen immateriellen Vermögenswert dar und jedes Unternehmen sollte sich seiner Datenbasis bewusst sein. Der tatsächliche Wert dieses immateriellen Vermögens hängt allerdings davon ab, wie strukturiert und effizient ein Unternehmen seine Daten nutzt.
Datensammlung und -aufbereitung als Teil des Business Analytics Prozesses
Die strukturierte Nutzung von Daten bezieht sich meist auf den Business Analytics Prozess, und sowohl die Datensammlung als auch die Datenaufbereitung sind wesentliche Bestandteile dieses Prozesses. Im Cross Industry Standard Process for Data Mining (CRISP-DM), beispielsweise, sind das Schritte „Data Understanding“ und „Data Preparation“. Es sollte betont werden, dass die Datensammlung und -aufbereitung als Teile eines (strukturierten) Gesamtprozesses verstanden werden sollten. Eine umfangreiche Sammlung und Aufbereitung von Daten ohne eine entsprechende betriebswirtschaftliche Problemstellung bzw. Zielsetzung ist wenig zielführend.
Quelle: Kenneth Jensen, CC BY-SA 3.0, durch Wikimedia Commons
Bewusstsein für die Vielfalt an Datenquellen
Während vor einigen Jahrzehnten die für Unternehmen relevanten Daten hauptsächlich von ERP-Systemen („Enterprise Resource Planning“) oder CRM-Systemen („Customer Relationship Management“) stammten, ist die Auswahl an potenziellen Datenquellen heute nahezu unbegrenzt. Die möglichen Datenquellen reichen von Sensoren in Geschäftsräumen oder in Maschinen über Tracking-Tools in Webshops oder in sozialen Medien bis hin zu nutzergenerierten Inhalten wie Kundenrezensionen. Es sei darauf hingewiesen, dass unstrukturierte Daten wie Texte, Fotos oder Videos, aber auch hochauflösende Sensordaten sehr wertvolle Informationen enthalten können, deren Verarbeitung und Aufbereitung jedoch in der Regel komplexer ist als bei „herkömmlichen“ Daten.
Quelle: rawpixel.com auf Freepik
Anforderungen an Daten und deren Verknüpfung
Bestimmte Anforderungen an Daten sollten bereits bei deren Erhebung und Aufbereitung berücksichtigt werden, um eine möglichst langfristige und nachhaltige Nutzung zu gewährleisten. Dazu gehören unter anderem die Aspekte:
- Zugänglichkeit,
- Sicherheit,
- Qualität und
- Erweiterbarkeit.
Insbesondere sollte immer berücksichtigt werden, dass Daten potenziell miteinander verknüpft werden können, da eine solche Verknüpfung sowie die potenzielle Hinzunahme externer Datenquellen den Nutzen einer strukturierten Datenanalyse massiv erhöhen kann. Die Verfügbarkeit sowohl von freien (z.B. Open Data Austria, Eurostat, Wikipedia, OpenWeatherMap, etc.) als auch von kommerziellen (z.B. Meta, Google, Twitter, etc.) Datenquellen hat in den letzten Jahren enorm zugenommen und kann – bei entsprechender Aufbereitung und Verknüpfung mit unternehmensinternen Daten – einen Mehrwert bieten.
Dokumentation und Nachvollziehbarkeit der Datenaufbereitung
Während die Datenaufbereitung dem typischen (und strukturierten) ETL-Prozess („Extract, Transform and Load“) folgt, ist dennoch die Dokumentation und Nachvollziehbarkeit der Datenaufbereitung aufgrund der Menge und Vielfalt der Daten unerlässlich. Verschiedene Softwarelösungen bieten hier mehr oder weniger gute Unterstützung. Jupyter Notebook für Python oder Markdown für R sind Beispiele für solche Lösungen, aber auch Power Query ermöglicht eine nachvollziehbare Datenaufbereitung innerhalb von Excel. Gerade bei der Nutzung externer Datenquellen empfiehlt sich jedoch der Einsatz von Python oder R, da diese über APIs („application programming interface“) den direkten Zugriff auf die Daten der entsprechenden Anbieter ermöglichen.
Quelle: Tobias1984, CC BY-SA 4.0, durch Wikimedia Commons
Weiterführende Literatur
- Aggarwal, M. (2018). Cross-Industry process for data mining. Verfügbar unter: https://medium.com/@thecodingcookie/cross-industry-process-for-data-mining-286c407132d0
- Barton, D., Court, D. (2012). Making Advanced Analytics Work For You. Harvard Business Review 90(10), 78-83.
- Harvard Business Review (2018). HBR Guide to Data Analytics Basics for Managers. Boston: Harvard Business Review Press.
- Rogers D. L. (2016). The Digital Transformation Playbook. New York: Columbia University Press.
- Seiter, M. (2022). Business Analytics. Wie Sie Daten für die Steuerung von Unternehmen nutzen. München: Vahlen.
Zheng, A., Casari, A. (2018) Feature Engineering for Machine Learning: Principles and Techniques for Data Scientists. Sebastopol: O’Reilly Media.
Downloads
Download nur für registrierte User verfügbar.
Hier können Sie sich anmelden bzw. registrieren