Hinweis:
Dieser Blogartikel ist älter als 5 Jahre – die genannten Inhalte sind eventuell überholt.
Kürzlich wurde das Buch BI & Analytics in der Cloud im dpunkt Verlag veröffentlicht, in dem von verschiedenen Fachautoren des TDWI die Besonderheiten zu Cloud Business Intelligence und Analytics erklärt werden. Unseren Beitrag „Mehrwerte von Cloud Services in hybriden DWH-Architekturen“ veröffentlichen wir ebenfalls als dreiteilige Blog-Serie. Dieser letzte Artikel behandelt Szenarien mit global verteilten Daten, Ausfallsicherheit in der Cloud, Edge Computing, Herausforderungen und Risiken und liefert das Fazit des Autors.
Global verteilte Daten
Durch weltweit verteilte Standorte von international operierenden Konzernen und noch mehr mobile Devices aller Nutzerschichten entstehen inzwischen viele Daten dezentral. Die Konsolidierung und Nutzung dieser Daten für Analysen und Vergleiche kann wertvoll sein. Oft sind für Data-Warehousing-Anwendungen nur ein Bruchteil oder Aggregate dieser Datenmenge notwendig. Dazu kommen als wichtige Filter die Vorschriften zum Datenschutz der einzelnen Länder.
Die großen Public-Cloud-Anbieter haben Rechenzentren in vielen Regionen, die für die dezentrale Sammlung und Vorverarbeitung dieser Daten genutzt werden können. Dabei kommen jeweils die gleichen Dienste und Verarbeitungs-Patterns (Laden, Cleansing etc.) zum Einsatz. Das vereinfacht die Entwicklung und den Rollout der Business-Intelligence-Infrastrukturkomponenten.
In der Abbildung Global verteilte Daten sammeln und nutzen – Predictive Maintenance ist das Beispiel eines Maschinenbauers dargestellt, der die Laufzeit seiner Maschinen beim Kunden durch die Analyse von Sensordaten optimiert. Die Anlagen funken beständig Sensordaten in Public-Cloud-Rechenzentren. Dabei werden die Daten aus Gründen der Latenz zunächst in „lokalen“ Cloud-Rechenzentren gespeichert. Diese Rechenzentren auf Länder- oder Kontinent-Ebene sind bei den großen Public-Cloud-Anbietern über außerordentlich schnelle Leitungen miteinander verbunden und ermöglichen auf Wunsch den zentralen Zugriff auf alle Daten. Die Data Scientists des Maschinenherstellers nutzen diese sehr große Datenbasis für das Training von Algorithmen, die im nächsten Schritt als Modell für die Vorhersage von Ausfällen und Empfehlung entsprechenden Maßnahmen dienen und wertvolle Hinweise zur Verbesserung der Leistung an den Maschinenbetreuer des Kunden liefern.
Ausfallsicherheit in der Cloud
Disaster-Recovery-Pläne sind gerade für große und komplexe Business-Intelligence-Systeme oft nur theoretisch vorhanden. Allerdings steigen diese Anforderungen proportional mit der wachsenden Bedeutung der Unternehmensdaten. Wichtig sind sie umso mehr, wenn die Einbindung des Data Warehouse in operative Prozesse wie beispielsweise eine Provisionsabrechnung erfolgt ist. Die Cloud-Anbieter garantieren durch spezielle Replikationsmechanismen sehr hohe Verfügbarkeiten, die in der Cloud enthalten und in unterschiedlichen Service-Levels in Anspruch genommen werden können.
Im Diagramm Ausfallsicherheit in der Cloud sieht man drei im analytischen Bereich oft genutzte Datenspeicher.
Bei relationalen Datenbanken im Platform-as-a-Service-Modus ist ein automatisches Backup in der Regel im Funktionsumfang enthalten. Es können Stände auf die Minute genau bis zu Zeitpunkten lange in der Vergangenheit wiederhergestellt werden, ohne dass ein IT-Verantwortlicher des Kunden sich jemals Gedanken über Wiederherstellungsszenarien, Zeitpläne oder gar Bandroboter gemacht hat.
Bei managed Data Lake Services und sogar bei den Standard-Storages einiger Public-Cloud-Anbieter werden bei der Ingestion von Dateien sofort 3 Kopien auf unterschiedlichen Speicherknoten angelegt. Die Gefahr eines Datenverlustes durch Hardware-Ausfall ist hier sehr gering.
Es gibt inzwischen neben den bekannten Open-Source-basierten noSQL Datenbanken auch einige spezialisierte Cloud-basierte Alternativen, die es ermöglichen, Daten mit sehr geringer Latenz sogar kontinentübergreifend zu replizieren. So stehen die Daten den Nutzern sehr schnell global zur Verfügung – ohne teure eigene Infrastrukturen – und sind natürlich im Katastrophenfall ebenfalls gesichert.
Edge Computing
Für einige analytischen Szenarien gerade im Bereich des Internet-of-Things sind die Latenzzeiten für Antworten aus der Cloud zu hoch. Gemeint sind nicht Basisfunktionen, die innerhalb einer Maschinensteuerung gelöst werden können, sondern die Echtzeitidentifikation von kritischen Problemen aus einem komplexen Zusammenhang von Daten, die dann zum Auslösen von Aktionen vor Ort führen sollen (z.B. das Stoppen einer Maschine). Auch in diesem Bereich wird inzwischen mit Data-Science-Algorithmen und trainierten Modellen gearbeitet. Wichtig ist hier vor allem die Reaktionszeit, aber auch nur im Kontext des gerade aktuellen Datenstandes.
In der Cloud werden diese Technologien wie bereits in anderen Kapiteln angeschnitten oft zur Analyse von gesammelten historischen Daten verwendet, um beispielsweise Vorhersagen zu Abnutzung oder Ausfällen von Maschinen zu machen.
So kann es allerdings vorkommen, dass Teile der Algorithmen von On-Premises und Cloud sich inhaltlich zwar überlagern aber separat in unterschiedlicher Technologie implementiert werden müssen, was duplizierten Code zur Folge hat.
Einige Hersteller bieten zur Lösung solcher Probleme inzwischen die Möglichkeit des zentralen Managements von Edge-Knoten aus der Cloud, i.d.R. über Container-Technologien. So können auch in der Cloud trainierte Machine-Learning-Modelle auf die Edge-Konten verteilt werden.
In der Abbildung zu Edge Computing sieht man ein typisches Predictive Maintenance Szenario. Die Sensordaten der Maschinen und Förderanlagen werden über einen Field Gateway zunächst gesammelt und von diesem aus in die Cloud sowie an die Edge Node(s) verteilt. Auf die Möglichkeiten in der Cloud wurde bereits oben eingegangen. Wichtig in diesem Zusammenhang ist lediglich, dass die cloud-basiert generierten Ergebnisse nicht im (Sub)-Sekundenbereich zu Maßnahmen führen müssen.
Die Edge Nodes dagegen reagieren sehr schnell vor Ort im Kundennetzwerk auf ungünstige Korrelationen, die aus den Daten erkenntlich sind mit dem Auslösen von Aktionen, um größere Schäden an Werkstücken, Maschinen oder gar die Gefährdung von Menschen abzuwenden. Die Verwaltung von Inhalten der Edge Nodes kann dabei auf Wunsch auch wie oben erläutert durch spezielle Cloud-Dienste erfolgen.
Herausforderungen und Risiken
Wo Licht ist, ist natürlich auch Schatten. Einige Probleme mit Cloud-Diensten im Kontext Data-Warehousing und Analytics werden in diesem Abschnitt diskutiert.
Das Thema Datenschutz ist insbesondere dann problematisch, wenn es um die Speicherung sensibler Daten in Cloud-Angeboten vor allem im außereuropäischen Ausland mit anderer Rechtsprechung geht. Innerhalb der EU gelten mit Inkrafttreten der Datenschutzgrundverordnung (DSVGO) nun einheitliche Regeln, denen sich auch die Cloud-Anbieter unterwerfen werden müssen.
Viele der Cloud-Business-Intelligence-Angebote sind noch relativ jung und deshalb im Vergleich funktional noch nicht so ausgereift wie die seit Jahrzehnten verfügbaren und stets weiterentwickelten On-Premises-Business-Intelligence-Angebote.
Die notwendige Abstraktion der Infrastruktur vereinfacht zwar viele Dinge, aber sie schafft auch neue Probleme wie Intransparenz und dadurch erschwerte Fehlersuche.
Die Innovationsgeschwindigkeit der großen Cloud-Anbieter ist grundsätzlich sehr hoch, aber im hochdynamischen Open-Source-Bereich hängen die installierten Versionen der PaaS-Dienste den neuesten Bug-Fixes und Releases immer etwas hinterher. Da diese Projekte von der Community und nicht von den Cloud-Providern weiterentwickelt werden, müssen sie nach dem Release zunächst auf die Anforderungen der eigenen Cloud angepasst und getestet werden.
Das sogenannte „Evergreening“ von Cloud-Diensten, also die für den Anwender spürbar ständige Weiterentwicklung von Features kann auch insbesondere im SaaS-Bereich Probleme verursachen. Die Anwender sind teilweise verwirrt, wenn sich ihre Applikationen ohne Ankündigung ändern und sie den Button für eine Funktion nicht mehr dort finden, wo er gestern noch war.
Das Outsourcen von Infrastruktur und deren Betrieb bedeutet für die Unternehmens-IT gleichzeitig auch weniger Kontrolle und mehr Abhängigkeit vom Cloud-Betreiber.
Gerade spezialisierte Dienste, die als Alleinstellungsmerkmal gelten, können vom Kunden ebenso als Vendor-Lock-In mit zu hoher Bindung an die Plattform für die Zukunft gesehen werden. Diesem Umstand kann ggf. über die Entwicklung und den Einsatz generischer Docker-Container entgegengewirkt werden, die auch auf anderen Plattformen einsetzbar wären.
Die Kosten von Cloud Services hängen meist von volatilen Parametern der Nutzung ab. Das führt auch dazu, dass diese Kosten in der Cloud zwar geringer, aber in der Regel nicht so linear planbar sind wie abschreibbare Investitionen in Hardware. Das führt zu Unsicherheit und der Notwendigkeit neuer, agiler Methoden der IT-Projektfinanzierung und des Controllings.
Fazit
Cloud-Technologie erweitert das Business-Intelligence-Spielfeld um viele Möglichkeiten, die auf Wunsch schnell zur Verfügung stehen. Das kommt dem Prinzip der agilen Software-Entwicklung zugute, da das Ausprobieren von neuen Technologien mit weniger Kosten und Einarbeitung verbunden ist. Der Innovationsdruck der im harten Wettbewerb stehenden Cloud-Anbieter freut die Kunden, die neben der schnelleren Weiterentwicklung analytischer Systeme bei niedrigen Anfangsinvestitionen auch ein hohes Maß an Skalierbarkeit und Verfügbarkeit einkaufen.
Literaturverweise
- [Pe01] Peinl, R.: Überblick über Docker-Cluster-Technologien – Tools und Trends, 20.04.2018
- [Wa01] Wanner, W.: Cloud- versus Edge-Computing, 06.06.2016
- [Ke01] Kenworthy, A.: HBase and Phoenix on Azure: adventures in abstraction, 29.08.2016