Powering a Data Hub at Otto Group BI with Schedoscope

In order to build data services or advanced machine learning models, organizations must integrate large amounts of information from diverse sources. As a central place to consolidate as many data sources as possible we often find what is fashionably called a data lake. Building a data lake usually starts by collecting as much data in raw form as possible. The idea is to give data scientists simple access to all available data so that they can combine information in ways not yet anticipated. Hadoop is the preferred choice for such a system because it is able to store vast amounts of data in a cost-efficient manner and is largely agnostic to structure. Weiterlesen

Cloud Wars: Computation [Teil 3]

Um aus gesammelten Daten nützliche Informationen und einen Mehrwert zu gewinnen, ist in der Regel eine Aufbereitung notwendig. Die Methoden zur Verarbeitung lassen sich in Realtime und Batch Processing unterteilen. Erstere beziehen sich nur auf einen sehr aktuellen Ausschnitt der Daten und wurden bereits im Teil Collection and Storage bei den Streaming-Diensten vorgestellt. Die Batch-Verarbeitung bezieht meist einen größeren Datenausschnitt mit ein, also auch historische Daten, um neue Erkenntnisse oder Analysemodelle zu erhalten. Zur Verarbeitung großer Datenmengen stellen die Cloud Provider meist Tools aus dem Hadoop Big Data Ecosystem zur Verfügung. Weiterlesen

Cloud Wars: Collection und Storage [Teil 2]

Typischerweise steht zu Beginn eines klassischen Analytics-Anwendungsfalles die Datenerfassung. Im Zuge der steigenden Bedeutung der Analyse bei Web-Anwendungen und mobilen Geräten, aber auch anderer Softwareanwendungen und Diensten, werden kontinuierlich große Mengen an Daten generiert. Im Gegensatz zu statischen Datensätzen, die periodisch im Batch verarbeitet werden, besteht in diesem Bereich oft die Anforderung, den Datenstrom kontinuierlich zu erfassen und zu analysieren. Im Folgenden möchten wir die Streaming-Dienste in die sogenannten Publish-Subscribe-Message-Systeme (oder Message Broker) und die eigentliche Stream-Verarbeitung unterteilen. Weiterlesen

Cloud Wars: Microsoft Azure vs. Amazon Web Services vs. Google Cloud Platform [Teil 1]

Die großen Public Cloud Anbieter locken inzwischen mit vielversprechenden Platform-as-a-Service-Angeboten, um Daten jeglicher Art performant und kosteneffizient zu speichern und zu verarbeiten. Neben unterschiedlichen Datenbanken gibt es dazu Dienste für Batch- und Realtime-Processing. Anhand eines typischen IoT-Szenarios aus der Praxis wurden im Rahmen eines Research-Projekts einige der wichtigen data-driven-Services beleuchtet. Dazu gehen 3 Schwergewichte des Cloud Business ins Rennen: Microsoft Azure vs. Amazon Web Services vs. Google Cloud Platform. Weiterlesen

Microsoft Power BI Version 2.0

Bis vor kurzem war das Tooling zum Erstellen von MS Power BI Lösungen zum größten Teil über Plugins in Excel integriert. Ins Web setzen konnte man die Datenmodelle und Reports entweder auf Sharepoint oder über das Power BI Tenant in Office 365.

Seit Juli 2015 ist die brandneue Version 2.0 der Self-Service BI Software verfügbar mit jeder Menge neuer Features, die in diesem Artikel kurz vorgestellt werden. Das Tool richtet sich neben dem BI Professional in erster Linie auch an den nicht immer IT-affinen Business Analysten oder Controller. Weiterlesen