Notice:
This post is older than 5 years – the content might be outdated.
Einführung
Cloud und Data-Warehousing
Die Vielfalt an verfügbaren, spezialisierten Datenspeicherungs- und Verarbeitungs-Technologien ermöglicht hybride Systeme im Sinne der Verwendung unterschiedlichster Komponenten bei weiterhin überschaubaren Kosten und Komplexität. Die Vorteile der Cloud-Services für Data-Management- und Analytics-Aufgaben werden dazu in den folgenden Abschnitten mit Beispielen aus der Praxis vorgestellt. Da die fachbereichsübergreifende Betrachtung von Daten auf Business-Intelligence-Plattformen inzwischen einen hohen Stellenwert hat, werden hier inhaltlich nicht nur klassische Data-Warehouse Use Cases wie Finanz- oder Vertriebs-Kennzahlen betrachtet, sondern darüber hinaus auch andere analytische Themen wie die Sammlung und Auswertung von Maschinen- und Social-Media-Nutzungsdaten.
Connectivity in die Cloud
Eine der ersten zentralen Fragestellungen bei hybriden Infrastrukturen ist natürlich, auf welche Weise die Daten sicher zwischen On-Premises-Rechenzentren und der Cloud ausgetauscht werden können. Die verschiedenen Alternativen und Optionen dazu werden hier kurz dargestellt.
Das Einrichten eines Virtual Private Network (VPN) zwischen On-Premises-Rechenzentrum und der Cloud-Infrastruktur ist eine naheliegende Variante. Im Prinzip reiht sich die Cloud zwischen den verschiedenen Standorten eines Unternehmens als weiteres verbundenes Netzwerk ein. Die Verbindungen sind verschlüsselt und die Kommunikation kann auf bestimmte Protokolle und Ports eingeschränkt werden um die Sicherheit weiter zu erhöhen. Allerdings öffnet das Unternehmen sein Netzwerk damit auch punktuell nach außen, so dass bei einer Kompromittierung der Infrastruktur des Cloud-Anbieters auch unmittelbar Gefahren für das On-Premises-Unternehmensnetzwerk bestehen. Deshalb ist dieser Schritt auch oft mit zeitaufwändigen Vorab-Evaluierungen der Sicherheitsmechanismen in der Cloud seitens der internen IT verbunden.
Eine gängige Alternative zum VPN bieten einige Cloud Provider mit spezialisierten Lösungen wie in der Abbildung Data Gateway skizziert. Diese ermöglichen den gesicherten Datentransfer von On-Premises-Datenbanken, File Servern und anderen Datenspeichern an bestimmte Dienste in der Cloud. Ein solches Gateway wird auf einem Server innerhalb des lokalen Kundennetzes installiert, mit bestimmten Rechten auf Ressourcen für den Datenzugriff ausgestattet und anschließend in der Cloud registriert. Die Kommunikation zwischen Gateway und Endpunkt in der Cloud erfolgt verschlüsselt und einheitlich über Standardprotokolle und einen definierbaren Port (z.B. 443) und erfordert deshalb meist keine zusätzlichen Freigaben durch die IT.
Trotz Verschlüsselung bereitet den Sicherheitsverantwortlichen die Nutzung von öffentlichen Internetleitungen und Infrastrukturen gerade für sensible Daten Sorge. Um die Angriffsfläche weiter zu minimieren können spezielle Leitungen genutzt werden, die direkt mit den Rechenzentren der Cloud-Anbieter verbunden sind und die ausschließlich den Traffic des Mieters transportieren.
Ein weiterer Aspekt – gerade zu Beginn von Projekten mit einem umfangreichen, historischen Datenbestand – ist der initiale Upload dieser Daten in die Cloud. Über die Standard-Internetverbindung des Unternehmens kann das zu einem Zeit- und Kostenproblem werden. Die Cloud-Provider bieten dafür teilweise einen Service an, bei dem die Daten des Kunden auf physischen Datenträgern abgeholt, direkt ins Cloud-Rechenzentrum gefahren und eingespeist werden.
Skalierbarkeit
Dem stetig steigenden Hunger analytischer Lösungen auf mehr Rechen- und Speicherkapazität setzen die Public-Cloud-Anbieter das Angebot fast unendlicher Ressourcen entgegen. Das ist sowohl für horizontale als auch vertikale Skalierungsszenarien ein großer Vorteil gegenüber eigenen Rechenzentren, deren Ausstattung mit der Kapitalbindung für den Kunden einhergeht – von oft langwierigen Beschaffungsprozessen und räumlichen Platzrestriktionen ganz abgesehen. Um diese Performance-Optionen einem breiten Publikum als Dienst anbieten zu können, werden sie in der Cloud oft abstrahiert und in der Bedienung vereinfacht. Bei vielen Diensten entscheidet der User nicht mehr über technische Parameter wie CPU & Arbeitsspeicher, sondern ob der Service einfach doppelt oder dreimal so schnell sein soll. Dazu werden künstliche Einheiten gebildet und in unterschiedlichen Service-Kategorien angeboten. So ist es dann teilweise auch über die Web-Oberfläche möglich, die gewünschte Performance per Schieberegler einzustellen.
Dem im Zeitverlauf sehr variablen Ressourcenbedarf von Data-Warehouse-Lösungen kommt die automatisierbare zeit- oder auslastungsgesteuerte Allokation von Rechenleistung zugute. So kann beispielsweise die Infrastruktur nachts für rechenintensive Batch-Operationen und tagsüber für Query Performance optimiert werden. Bestimmten Komponenten können bei einer smarten Kombination von Datenhaltung und Zugriffsschichten zeitweise sogar komplett abgeschaltet werden.
Die Abbildung zur Skalierbarkeit in der Cloud zeigt die hybride Analytics-Landschaft eines Unternehmens, welche die Services der Cloud für die Verarbeitung von Massendaten nutzt.
„Data born in the cloud“ in großen Volumina wie Social-Media- oder Clickstream-Daten werden in der Cloud mit horizontal skalierenden Big-Data-Systemen verarbeitet und in einem relationalen Massive Parallel Processing Data-Warehouse (MPP DWH) für das Berichtswesen bereitgestellt. Traditionelle Workloads sowie Analysen und Dashboards laufen weiterhin on-premises über das Standard-Business-Intelligence-Tooling. Nicht-sensible Daten werden über ein Data Gateway im Cloud DWH angereichert, was auch konsolidiertes Reporting über alle Daten ermöglicht.
Es sind keine Vorab-Investitionen in Hardware für die Big-Data-Systeme notwendig. Der Projektverlauf wird durch schnelle Provisionierung der Cloud-Systeme ohne den sonst notwendigen intensiven Aufbau von Infrastruktur-Know-How beschleunigt.
Chancen durch Technologievielfalt
In der Cloud sind sehr viele unterschiedliche Technologien nur einen Mausklick entfernt. Das schafft den Freiraum in Projekten auch technologisch neue Wege zu gehen – und das mit verhältnismäßig geringem Einarbeitungs- und Bereitstellungsaufwand. Die Cloud verhält sich wie ein „Baukasten“ für die Zusammenstellung von Software-Architekturen mit spezialisierten Komponenten, die über lose gekoppelte Schnittstellen direkt miteinander kommunizieren. Ob Realtime- oder traditionelle Batch-Verarbeitung, es sind oft gleich mehrere PaaS-Dienste mit unterschiedlichen Schwerpunkten für die gleiche Aufgabe vorhanden. Das ermöglicht die Umsetzung von best-of-breed Ansätzen – viel einfacher als in On-Premises-Szenarien.
Inzwischen gibt es auch Business-Intelligence-Komponenten, die speziell für die Cloud entwickelt wurden und exklusiv dort verfügbar sind. Diese sind speziell auf diese Infrastruktur optimiert und bieten durch ihre Funktionalität ein Alleinstellungsmerkmal für bestimmte Cloud Provider.
Die Abbildung Technologievielfalt in der Cloud zeigt einen Use Case aus der Praxis für die Optimierung der Fertigungsprozesse. Bestimmte Sensordaten aus den global verteilten Fertigungsanlagen unterschiedlicher Standorte eines Unternehmens werden über Field Gateways in die Cloud gesendet. Berechnungen werden direkt im Stream vorgenommen und die Daten durch Machine Learning Modelle mit Optimierungsvorschlägen angereichert. Die Persistenz der Ergebnisse erfolgt gleichzeitig in mehreren spezialisierten Datenbanken für unterschiedliche Verwendungszwecke. Außerdem werden zur Überwachung der Fertigungslinien die Daten-Streams in Echtzeit-Dashboards visualisiert, die dann direkt an den Linien angezeigt werden. Die Rückkopplung der zu optimierenden Parameter für den Maschinenpark wird über Data Gateways an alle Standorte übertragen und dient so der kontinuierlichen Verbesserung der Industriestraßen.
Hier wird besonders der Vorteil der Vielfältigkeit von Diensten in Public Clouds sowie der dezentralen Verfügbarkeit deutlich. Die Kosten für Cloud Computing und Datentransfer werden schnell amortisiert durch eingesparte Betriebskosten und den verringerten Kapitaleinsatz für Hardware.
Weiterlesen
Teil 2 der Blog-Serie behandelt die Kombination hybrider Technologien im Data-Warehouse, erhöhte Agilität, schnelle Innovationszyklen der Hersteller sowie die Optimierung von Betriebskosten im Cloud Kontext.
2 Kommentare