Mehrwerte von Cloud Services in hybriden DWH-Architekturen

Die Gründe, IT-Infrastruktur aus dem eigenen Rechenzentrum in eine (Public) Cloud zu verschieben, sind vielfältig und einleuchtend: Niedrigere Kosten, schnellere Time-to-market und Effizienz des Kapitaleinsatzes, um nur die Wichtigsten zu nennen. Die komplette Verlagerung eines Corporate Data Warehouse in die Cloud ist allerdings bislang eher die Ausnahme. Abgesehen von der gerade in Deutschland sehr ernsthaft geführten Datenschutz-Diskussion würde es viel Aufwand und Kosten bedeuten, die Daten aller relevanten Quellsysteme mit der Cloud zu synchronisieren oder alle Systeme des Unternehmens dorthin umzuziehen. Ein Zwischenweg stellen hybride DWH-Architekturen dar, welche selektiv Cloud-Dienste nutzen und dabei die On-Premises und Cloud-Datenbestände intelligent integrieren. Die Vorteile dieser Services für Data-Management- und Analytics-Aufgaben werden in den folgenden Abschnitten dargestellt. Im Anschluss werden einige typische Szenarien aus der Praxis vorgestellt.

Skalierbarkeit

Dem stetig steigenden Hunger analytischer Lösungen auf mehr Rechen- und Speicherkapazität setzen die Public-Cloud-Anbieter das Angebot fast unendlicher Ressourcen entgegen. Das ist sowohl für horizontale als auch vertikale Skalierungsszenarien ein großer Vorteil gegenüber eigenen Rechenzentren, deren Ausstattung mit der Kapitalbindung für den Kunden einhergeht. Um diese Performance-Optionen einem breiten Publikum als Dienst anbieten zu können, wurden sie abstrahiert und in der Bedienung vereinfacht. So ist es teilweise über die Oberfläche möglich die gewünschte Performance per Schieberegler einzustellen.

Dem im Zeitverlauf unterschiedlichen Ressourcenbedarf von Data-Warehouse-Lösungen kommt die automatisierbare zeit- oder auslastungsgesteuerte Allokation von Rechenleistung zugute. So kann beispielsweise die Infrastruktur nachts für rechenintensive Batch-Operationen und tagsüber für Query Performance optimiert werden.

Chancen durch Technologievielfalt

In der Cloud sind sehr viele unterschiedliche Technologien nur einen Mausklick entfernt. Das schafft den Freiraum, in Projekten auch technologisch neue Wege zu gehen mit weniger Einarbeitungs- und Bereitstellungsaufwand. Die Cloud ist gefühlt ein Baukasten für die Zusammenstellung von Software-Architekturen mit spezialisierten Komponenten, die über lose gekoppelte Schnittstellen direkt miteinander kommunizieren. Ob Realtime- oder traditionelle Batch-Verarbeitung, es sind oft gleich mehrere PaaS-Dienste mit unterschiedlichen Schwerpunkten für die gleiche Aufgabe vorhanden. Das ermöglicht die Umsetzung von Best-of-Breed-Ansätzen sehr viel einfacher als in On-Premises-Szenarien.

Inzwischen gibt es auch BI-Komponenten, die speziell für die Cloud entwickelt wurden und exklusiv dort verfügbar sind. Sie sind speziell auf diese Infrastruktur optimiert und bieten durch ihre Funktionalität ein Alleinstellungsmerkmal für bestimmte Cloud-Provider.

Erhöhte Agilität

Die tendenziell überlasteten EDV Abteilungen vieler Unternehmen tun sich schwer mit der Infrastruktur für junge und hochkomplexe Technologien. Wenn in der Projekt-Ramp-Up-Phase zunächst Hardware abgeschätzt, bestellt und eingerichtet werden muss, stagniert die Entwicklung für einige Zeit, was zu Konflikten führt.

Die Bereitstellung auch großer verteilter Systeme geht bei Public-Cloud-Anbietern innerhalb von Minuten vonstatten. Auch spätere Anpassungen bzgl. Skalierung oder Auswahl der Komponenten sind schnell und unkompliziert möglich.

Die schnelle und flexible Bereitstellung von Entwicklungsumgebungen spielt zu Projektbeginn eine große Rolle und schafft später Sicherheit bei Upgrades oder Patches. Die Provisionierung kann über Container-Technologien und Scripting wiederholbar eingerichtet werden. Über VPNs und LDAP-Synchronisierungen können diese Umgebungen im Netzwerk der Unternehmen für den Anwender transparent eingebunden werden.

Diese Optionen stellen eine erhebliche Entlastung für die IT-Abteilungen dar und führen guten Voraussetzungen für BI-Entwickler.

Schnelle Innovationszyklen der Hersteller

Der Unterschied zwischen Cloud und On-Premises Software macht sich insbesondere bei der Rollout-Frequenz neuer Features bemerkbar. Oft liegen bei On-Premises-BI-Produkten Jahre zwischen neuen Versionen, in der Cloud sind es teilweise nur wenige Wochen. Es ist einleuchtend, dass Deployments auf zentral verwalteten, hochautomatisierten Systemen des Cloud-Anbieters einfacher auszurollen sind als ein Release für die unterschiedlichen Systemumgebungen aller Kunden.

Optimierung von Betriebskosten

Da Cloud-Systeme vom Kunden gemietet werden, fallen nur minimale initiale Investitionskosten an. Entscheidungsprozesse für Budgetfreigaben gestalten sich so einfacher.

Falls die ausgewählten Software-Komponenten sich wider Erwarten nicht optimal für die Aufgaben eigenen, ist ein Umrüsten auf andere Dienste oder sogar der komplette Ausstieg aus der gemieteten Infrastruktur jederzeit möglich. Das vermeidet gerade bei großen Big-Data-Projekten finanzielle Risiken und auch potentiell zu bildende Rückstellungen.

Die Synergieeffekte beim Einkauf der Hardware und der hohe Automatisierungsgrad der Cloud-Infrastrukturen führen zu niedrigen Kosten, die an den Endkunden weitergegeben werden. Damit können On-Premises-Rechenzentren preislich kaum konkurrieren.

Auch die bereits beschriebene Möglichkeit der zeitlich gesteuerten Skalierung zur Vermeidung von Leerlauf bietet dem Kunden viel Spielraum für Kostenoptimierung.

Global verteilte Daten

Durch weltweit verteilte Standorte von international operierenden Konzernen und noch viel mehr mobile Devices entstehen viele Daten dezentral. Meist sind für Data-Warehousing-Anwendungen nur Bruchteile oder Aggregate dieser Datenmenge notwendig. Dazu kommen als wichtiger Filter die Vorschriften zum Datenschutz der einzelnen Länder.

Die großen Public-Cloud-Anbieter haben Rechenzentren in vielen Regionen, die für die dezentrale Sammlung und Vorverarbeitung dieser Daten genutzt werden können. Es können dafür aber überall die gleichen Dienste und Verarbeitungs-Pattern (Laden, Cleansing etc.) angewandt werden. Das vereinfacht die Entwicklung und den Rollout der BI-Infrastrukturkomponenten. Die konsolidierten Betrachtungen sind dann entweder direkt über SaaS Frontend Tools oder über eine weitere zentrale analytische Datenbasis mit ausreichend Rechenpower möglich.

Ausfallsicherheit

Disaster-Recovery-Pläne sind gerade für große und komplexe BI-Systeme oft nur theoretisch vorhanden. Allerdings steigen diese Anforderungen proportional mit wachsender Bedeutung der Unternehmensdaten. Wichtig sind sie vor allem dann, wenn die Einbindung des Data Warehouse in operative Prozesse erfolgt ist. Die Cloud-Anbieter garantieren durch spezielle Replikations-Mechanismen sehr hohe Verfügbarkeiten, die in der Cloud enthalten sind und in unterschiedlichen Service-Levels in Anspruch genommen werden können.

In den folgenden Abschnitten werden nun einige Anwendungsfälle von hybriden DWH-Architekturen aus der Praxis des Autors vorgestellt.

Szenario 1: Skalierbarkeit in der Cloud für Massendaten

Im Internet entstehende Massendaten wie Social-Media- oder Clickstream-Analysen werden in der Cloud mit horizontal skalierenden Big-Data-Systemen verarbeitet und in einem relationalen MPP DWH für das Berichtswesen bereitgestellt. Traditionelle Workloads sowie Analysen und Dashboards laufen weiterhin On-Premises über das Standard-BI-Tooling. Nicht-sensible Daten werden über ein Data Gateway im Cloud DWH angereichert, das nun auch konsolidiertes Reporting über alle Daten mit SaaS-BI-Frontend-Applikationen ermöglicht.

Es sind keine Vorab-Investitionen in Hardware für die Big-Data-Systeme notwendig. Der Projektverlauf wird durch schnelle Provisionierung der Cloud-Systeme ohne den sonst vorab notwendigen intensiven Aufbau von Infrastruktur-Know-How beschleunigt.

Szenario 2: Technologievielfalt für die Optimierung der Fertigung

Bestimmte Sensordaten aus den global verteilten Fertigungsanlagen unterschiedlicher Standorte eines Unternehmens werden über Field Gateways in die Cloud gesendet. Berechnungen werden direkt im Stream vorgenommen und die Daten durch Machine-Learning-Modelle mit Optimierungsvorschlägen angereichert. Die Persistenz der Ergebnisse erfolgt gleichzeitig in mehreren spezialisierten Datenbanken wie SQL und non-SQL DBs für unterschiedliche Zwecke. Außerdem findet das Streaming der Daten in Echtzeit-Dashboards zur Überwachung der Fertigungslinien statt, die dann direkt an den Linien angezeigt werden. Die Rückkopplung der zu optimierenden Parameter für den Maschinenpark wird über Data Gateways an alle Standorte übertragen und dient so der kontinuierlichen Verbesserung der Industriestraßen.

Hier wird besonders der Nutzen der Vielfältigkeit von Diensten in Public Clouds sowie der dezentralen Verfügbarkeit deutlich. Die Kosten für Cloud Computing und Datentransfer werden schnell amortisiert durch gesparte Betriebskosten und Kapitaleinsatz für Hardware.

Szenario 3: Alle Daten im Zugriff – Stretch DB

On-Premises entstehen oft hohe Betriebskosten für das Vorhalten historischer Daten im Data Warehouse. Deshalb wird aus Kostengründen oft unterschieden zwischen historischen Daten, die gelöscht oder offline archiviert werden und aktuellen Daten, die im Data Warehouse für den schnellen Zugriff zur Verfügung stehen. Zur Lösung von Fragestellungen, die auch ältere Daten beinhalten, müssen die Daten dann ad-hoc relativ mühsam zusammengestellt werden.

Im Cloud-Szenario werden die älteren Daten ab einem definierten Alter automatisch aus dem On-Premises Data Warehouse in ein baugleiches Cloud Data Warehouse verlagert. Bei Abfragen werden die historischen und aktuellen Daten automatisch aus den Datenspeichern kombiniert und dem Nutzer als ein zusammenhängendes Record Set zurückgegeben.

Dadurch sind historische und aktuelle Daten immer im Zugriff, transparent für Berichte und Applikationen. Bei den historischen Daten sind höhere Latenzen akzeptabel. Die Funktionalität wird gerade bei schnell wachsenden Datenmengen über die Cloud Lösungbei geringeren Kosten als On-Premises realisiert. Bei Bedarf ist das Hochskalieren des Cloud Data Warehouse kein Problem.

Fazit

Cloud-Technologie erweitert das BI-Spielfeld um viele Möglichkeiten, die auf Wunsch schnell zur Verfügung stehen. Das kommt dem Prinzip der agilen Software-Entwicklung zugute, da das Ausprobieren von neuen Technologien mit weniger Kosten und Einarbeitung verbunden ist. Der Innovationsdruck der im harten Wettbewerb stehenden Cloud-Anbieter freut die Kunden, die neben der schnelleren Weiterentwicklung analytischer Systeme bei niedrigen Anfangsinvestitionen auch ein hohes Maß an Skalierbarkeit und Verfügbarkeit einkaufen.

Dieser Artikel erschien zuerst in der TDWI-Broschüre BI und Analytics in der Cloud.

comments powered by Disqus