Hybride DWH-Architekturen: Mehrwerte von Cloud Services (Teil 1)

Gepostet am: 14. Januar 2019

Kürzlich wurde das Buch BI & Analytics in der Cloud im dpunkt-Verlag veröffentlicht, in dem von verschiedenen Fachautoren des TDWI die Besonderheiten zu Cloud Business Intelligence und Analytics erklärt werden. Unseren Beitrag „Mehrwerte von Cloud Services in hybriden DWH-Architekturen“ veröffentlichen wir ebenfalls als dreiteilige Blog-Serie. Dieser erste Teil behandelt neben der Einführung die Kapitel Cloud und Data-Warehousing, Connectivity in die Cloud sowie Skalierbarkeit und Chancen durch Technologievielfalt.

Einführung

Die Gründe, IT-Infrastruktur aus dem eigenen Rechenzentrum in eine (Public) Cloud zu verschieben, sind vielfältig und einleuchtend: niedrigere Kosten, schnellere Time-to-Market und Effizienz des Kapitaleinsatzes, um nur die wichtigsten zu nennen. Die komplette Verlagerung eines Corporate Data Warehouse (DWH) in die Cloud ist allerdings bislang eher die Ausnahme. Abgesehen von der gerade in Deutschland sehr ernsthaft geführten Datenschutz-Diskussion würde es viel Aufwand und Kosten bedeuten, die Daten aller relevanten Quellsysteme mit der Cloud zu synchronisieren oder alle Systeme des Unternehmens dorthin umzuziehen. Einen Zwischenweg stellen hybride DWH-Architekturen dar, die selektiv Cloud-Dienste nutzen und dabei die On-Premises-Datenbestände- und Cloud-Datenbestände intelligent integrieren.

Cloud und Data-Warehousing

Die Vielfalt an verfügbaren, spezialisierten Datenspeicherungs- und Verarbeitungs-Technologien ermöglicht hybride Systeme im Sinne der Verwendung unterschiedlichster Komponenten bei weiterhin überschaubaren Kosten und Komplexität. Die Vorteile der Cloud-Services für Data-Management- und Analytics-Aufgaben werden dazu in den folgenden Abschnitten mit Beispielen aus der Praxis vorgestellt. Da die fachbereichsübergreifende Betrachtung von Daten auf Business-Intelligence-Plattformen inzwischen einen hohen Stellenwert hat, werden hier inhaltlich nicht nur klassische Data-Warehouse Use Cases wie Finanz- oder Vertriebs-Kennzahlen betrachtet, sondern darüber hinaus auch andere analytische Themen wie die Sammlung und Auswertung von Maschinen- und Social-Media-Nutzungsdaten.

Connectivity in die Cloud

Eine der ersten zentralen Fragestellungen bei hybriden Infrastrukturen ist natürlich, auf welche Weise die Daten sicher zwischen On-Premises-Rechenzentren und der Cloud ausgetauscht werden können. Die verschiedenen Alternativen und Optionen dazu werden hier kurz dargestellt.

Das Einrichten eines Virtual Private Network (VPN) zwischen On-Premises-Rechenzentrum und der Cloud-Infrastruktur ist eine naheliegende Variante. Im Prinzip reiht sich die Cloud zwischen den verschiedenen Standorten eines Unternehmens als weiteres verbundenes Netzwerk ein. Die Verbindungen sind verschlüsselt und die Kommunikation kann auf bestimmte Protokolle und Ports eingeschränkt werden um die Sicherheit weiter zu erhöhen. Allerdings öffnet das Unternehmen sein Netzwerk damit auch punktuell nach außen, so dass bei einer Kompromittierung der Infrastruktur des Cloud-Anbieters auch unmittelbar Gefahren für das On-Premises-Unternehmensnetzwerk bestehen. Deshalb ist dieser Schritt auch oft mit zeitaufwändigen Vorab-Evaluierungen der Sicherheitsmechanismen in der Cloud seitens der internen IT verbunden.

Skizze eines Data Gateway

Eine gängige Alternative zum VPN bieten einige Cloud Provider mit spezialisierten Lösungen wie in der Abbildung Data Gateway skizziert. Diese ermöglichen den gesicherten Datentransfer von On-Premises-Datenbanken, File Servern und anderen Datenspeichern an bestimmte Dienste in der Cloud. Ein solches Gateway wird auf einem Server innerhalb des lokalen Kundennetzes installiert, mit bestimmten Rechten auf Ressourcen für den Datenzugriff ausgestattet und anschließend in der Cloud registriert. Die Kommunikation zwischen Gateway und Endpunkt in der Cloud erfolgt verschlüsselt und einheitlich über Standardprotokolle und einen definierbaren Port (z.B. 443) und erfordert deshalb meist keine zusätzlichen Freigaben durch die IT.

Trotz Verschlüsselung bereitet den Sicherheitsverantwortlichen die Nutzung von öffentlichen Internetleitungen und Infrastrukturen gerade für sensible Daten Sorge. Um die Angriffsfläche weiter zu minimieren können spezielle Leitungen genutzt werden, die direkt mit den Rechenzentren der Cloud-Anbieter verbunden sind und die ausschließlich den Traffic des Mieters transportieren.

Ein weiterer Aspekt – gerade zu Beginn von Projekten mit einem umfangreichen, historischen Datenbestand – ist der initiale Upload dieser Daten in die Cloud. Über die Standard-Internetverbindung des Unternehmens kann das zu einem Zeit- und Kostenproblem werden. Die Cloud-Provider bieten dafür teilweise einen Service an, bei dem die Daten des Kunden auf physischen Datenträgern abgeholt, direkt ins Cloud-Rechenzentrum gefahren und eingespeist werden.

Skalierbarkeit

Dem stetig steigenden Hunger analytischer Lösungen auf mehr Rechen- und Speicherkapazität setzen die Public-Cloud-Anbieter das Angebot fast unendlicher Ressourcen entgegen. Das ist sowohl für horizontale als auch vertikale Skalierungsszenarien ein großer Vorteil gegenüber eigenen Rechenzentren, deren Ausstattung mit der Kapitalbindung für den Kunden einhergeht – von oft langwierigen Beschaffungsprozessen und räumlichen Platzrestriktionen ganz abgesehen. Um diese Performance-Optionen einem breiten Publikum als Dienst anbieten zu können, werden sie in der Cloud oft abstrahiert und in der Bedienung vereinfacht. Bei vielen Diensten entscheidet der Nutzer nicht mehr über technische Parameter wie CPU & Arbeitsspeicher, sondern ob der Service einfach doppelt oder dreimal so schnell sein soll. Dazu werden künstliche Einheiten gebildet und in unterschiedlichen Service-Kategorien angeboten. So ist es dann teilweise auch über die Web-Oberfläche möglich, die gewünschte Performance per Schieberegler einzustellen.

Skalierbarkeit in der Cloud vs. im Rechenzentrum

Dem im Zeitverlauf sehr variablen Ressourcenbedarf von Data-Warehouse-Lösungen kommt die automatisierbare zeit- oder auslastungsgesteuerte Allokation von Rechenleistung zugute. So kann beispielsweise die Infrastruktur nachts für rechenintensive Batch-Operationen und tagsüber für Query Performance optimiert werden. Bestimmten Komponenten können bei einer smarten Kombination von Datenhaltung und Zugriffsschichten zeitweise sogar komplett abgeschaltet werden.

Die Abbildung zur Skalierbarkeit in der Cloud zeigt die hybride Analytics-Landschaft eines Unternehmens, welche die Services der Cloud für die Verarbeitung von Massendaten nutzt.

„Data born in the cloud“ in großen Volumina wie Social-Media- oder Clickstream-Daten werden in der Cloud mit horizontal skalierenden Big-Data-Systemen verarbeitet und in einem relationalen Massive Parallel Processing Data-Warehouse (MPP DWH) für das Berichtswesen bereitgestellt. Traditionelle Workloads sowie Analysen und Dashboards laufen weiterhin on-premises über das Standard-Business-Intelligence-Tooling. Nicht-sensible Daten werden über ein Data Gateway im Cloud DWH angereichert, was auch konsolidiertes Reporting über alle Daten ermöglicht.

Es sind keine Vorab-Investitionen in Hardware für die Big-Data-Systeme notwendig. Der Projektverlauf wird durch schnelle Provisionierung der Cloud-Systeme ohne den sonst notwendigen intensiven Aufbau von Infrastruktur-Know-How beschleunigt.

Chancen durch Technologievielfalt

In der Cloud sind sehr viele unterschiedliche Technologien nur einen Mausklick entfernt. Das schafft den Freiraum in Projekten auch technologisch neue Wege zu gehen – und das mit verhältnismäßig geringem Einarbeitungs- und Bereitstellungsaufwand. Die Cloud verhält sich wie ein „Baukasten“ für die Zusammenstellung von Software-Architekturen mit spezialisierten Komponenten, die über lose gekoppelte Schnittstellen direkt miteinander kommunizieren. Ob Realtime- oder traditionelle Batch-Verarbeitung, es sind oft gleich mehrere PaaS-Dienste mit unterschiedlichen Schwerpunkten für die gleiche Aufgabe vorhanden. Das ermöglicht die Umsetzung von best-of-breed Ansätzen – viel einfacher als in On-Premises-Szenarien.

Inzwischen gibt es auch Business-Intelligence-Komponenten, die speziell für die Cloud entwickelt wurden und exklusiv dort verfügbar sind. Diese sind speziell auf diese Infrastruktur optimiert und bieten durch ihre Funktionalität ein Alleinstellungsmerkmal für bestimmte Cloud Provider.

Technologievielfalt in der Cloud: Skizze alternativer Technologien

Die Abbildung Technologievielfalt in der Cloud zeigt einen Use Case aus der Praxis für die Optimierung der Fertigungsprozesse. Bestimmte Sensordaten aus den global verteilten Fertigungsanlagen unterschiedlicher Standorte eines Unternehmens werden über Field Gateways in die Cloud gesendet. Berechnungen werden direkt im Stream vorgenommen und die Daten durch Machine Learning Modelle mit Optimierungsvorschlägen angereichert. Die Persistenz der Ergebnisse erfolgt gleichzeitig in mehreren spezialisierten Datenbanken für unterschiedliche Verwendungszwecke. Außerdem werden zur Überwachung der Fertigungslinien die Daten-Streams in Echtzeit-Dashboards visualisiert, die dann direkt an den Linien angezeigt werden. Die Rückkopplung der zu optimierenden Parameter für den Maschinenpark wird über Data Gateways an alle Standorte übertragen und dient so der kontinuierlichen Verbesserung der Industriestraßen.

Hier wird besonders der Vorteil der Vielfältigkeit von Diensten in Public Clouds sowie der dezentralen Verfügbarkeit deutlich. Die Kosten für Cloud Computing und Datentransfer werden schnell amortisiert durch eingesparte Betriebskosten und den verringerten Kapitaleinsatz für Hardware.

Weiterlesen

Teil 2 der Blog-Serie behandelt die Kombination hybrider Technologien im Data-Warehouse, erhöhte Agilität, schnelle Innovationszyklen der Hersteller sowie die Optimierung von Betriebskosten im Cloud Kontext.

2019-01-16T09:01:39+00:00