Big Data, Search, Data Science

Wir haben große Expertise in den Themenbereichen Big Data, Search, Data Science, Deep Learning und angrenzenden Bereichen. Wir beschäftigen uns aber nicht nur im Rahmen unserer Kundenprojekte damit, sondern teilen unser Wissen in Blog-Artikeln, in Case Studies, auf Meetups, in Trainings und Vorträgen:

Big Data

Anomaly Detection: (Dis-)advantages of k-means clustering

Sascha Schmalz, Julian Keppel I 04.07.2017

Anomaly Detection: (Dis-)advantages of k-means clustering

In this blog post we will show you some of the advantages and disadvantages of using k-means. Furthermore we will give a general overview about techniques other than clustering which can be used for anomaly detection. Mehr lesen ...

Powering a Data Hub at Otto Group BI with Schedoscope

Hans-Peter Zorn I 29.05.2017

Powering a Data Hub at Otto Group BI with Schedoscope

In order to build data services or advanced machine learning models, organizations must integrate large amounts of information from diverse sources. As a central place to consolidate as many data sources as possible we often find what is fashionably called a data lake. Mehr lesen ...

Causal Inference and Propensity Score Methods

Florian Wilhelm I 20.04.2017

Causal Inference and Propensity Score Methods

In the field of machine learning and particularly in supervised learning, correlation is crucial to predict the target variable with the help of the feature variables. Rarely do we think about causation and the actual effect of a single feature variable or covariate on the target or response. Mehr lesen ...

24/7 Spark Streaming on YARN in Production

Bernhard Schäfer I 22.12.2016

24/7 Spark Streaming on YARN in Production

At a large client in the German food retailing industry, we have been running Spark Streaming on Apache Hadoop™ YARN in production for close to a year now. Overall, Spark Streaming has proved to be a flexible, robust and scalable streaming engine. Mehr lesen ...

Search & Text Analytics

Elastic Stack: (Multi) Cluster Monitoring

Alexander Koehler I 15.02.2017

Elastic Stack: (Multi) Cluster Monitoring

Starting with Elastic Stack 5 the popular site plugins HEAD and KOPF aren’t supported any longer by elastic. This decision creates a gap for operations running ELK stack installations that need an upgrade to Elastic Stack. Mehr lesen ...

Elk on Docker (-Compose)

Alexander Koehler I 03.11.2016

Elk on Docker (-Compose)

The ELK/Elastic stack is a common open source solution for collecting and analyzing log data from distributed systems. This article will show you how to run an ELK on Docker using Docker Compose. This will enable you to run ELK distributed on your docker infrastructure or test it on your local system. Mehr lesen ...

Drastic Elastic [Part 4]: Aggregations & Plugins

Andrew Kenworthy I 12.08.2016

Drastic Elastic [Part 4]: Aggregations & Plugins

In an earlier post in this mini-series I mentioned that the aggregated data we persist in ELasticSearch has discrete retention times: 5 minute aggregation => (retention time of) one day hourly aggregations => 7 days daily aggregations => 5 years ... Mehr lesen ...

Drastic Elastic [Part 3]: ElasticSearch as a Database

Andrew Kenworthy I 02.08.2016

Drastic Elastic [Part 3]: ElasticSearch as a Database

ElasticSearch does not offer support for clusters spanning data centres. However, on our project we had access to a network latency of 400 *micro*seconds (0.4 ms) between three separate locations in the same city, and decided to test a cluster spanning all three data centres ... Mehr lesen ...

Drastic Elastic [Part 2]: The aggregation framework

Andrew Kenworthy I 19.07.2016

Drastic Elastic [Part 2]: The aggregation framework

Following from my earlier article on elasticsearch-as-a-database, we will now take a look at the aggregation framework ... Mehr lesen ...

Drastic Elastic [Part 1]: ElasticSearch as a Database

Andrew Kenworthy I 19.07.2016

Drastic Elastic [Part 1]: ElasticSearch as a Database

In an article for Java Magazin way back in 2012 (only a small section of it seems to have survived online(!), although it is still available from the inovex website as a download) I toyed with the idea of using a search engine as a database ... Mehr lesen ...

Data Science & Deep Learning

Affective Robots: Emotionally Intelligent Machines

Silvia Santano I 17.06.2017

Affective Robots: Emotionally Intelligent Machines

Automatic emotion recognition is an emerging area which leverages and combines knowledge from multiple fields such as machine learning, computer vision and signal processing. It has potential applications in many areas including healthcare, robotic assistance, education, market survey and advertising. Mehr lesen ...

Real-time detection of anomalies in computer networks with methods of machine learning: Stop the (data)-thief!

Sascha Schmalz, Julian Keppel I 14.06.2017

Real-time detection of anomalies in computer networks with methods of machine learning: Stop the (data)-thief!

This blog post shows some results and concepts of a master’s thesis here at inovex. It describes some basic concepts and shows a prototypical architecture for detecting unusual network activities in real-time. Mehr lesen ...

Hive UDFs and UDAFs with Python

Florian Wilhelm I 07.11.2016

Hive UDFs and UDAFs with Python

Sometimes the analytical power of built-in Hive functions is just not enough. In this case it is possible to write hand-tailored User-Defined Functions (UDFs) for transformations and even aggregations which are therefore called User-Defined Aggregation Functions (UDAFs). Mehr lesen ...

HyperLogLog on Spark Streaming – Schätzung von Kardinalitäten innerhalb eines Datenstroms

Julian Keppel I 18.06.2016

HyperLogLog on Spark Streaming – Schätzung von Kardinalitäten innerhalb eines Datenstroms

Im Rahmen eines Research-Projektes wurde die Implementierung und Praxistauglicheit von HyperLogLog auf Apache Spark Streaming mithilfe eines einfachen Prototyps untersucht. Dieser Artikel beschreibt Grundlagen, Durchführung und Findings. Mehr lesen ...

Sie benötigen Unterstützung durch unsere Big-Data- und Data-Science-Experten?

Dann rufen Sie uns an unter +49 (0)721 619 021-0 oder schreiben Sie uns eine E-Mail. Wir freuen uns auf Ihre Nachricht!

Sie haben Fragen zu diesen Themen?

inovex Content Pool

Unsere Vorträge zu den Themen „Big Data / Analytics“

Zu den Vorträgen

inovex Theses

Anwendbarkeit von Anonymisierungstechniken im Bereich Big Data

Unser Masterstudent Andreas Bender befasste sich in seiner Abschlussarbeit mit dem spannenden Thema "Anonymisierungstechniken".

Big Data Thesis lesen

Big Data

Sébastien Jelsch / 08.10.2015

Optimierung von Analytischen Abfragen über Statistical Linked Data mit MapReduce

In diesem Kurzbeitrag zu einer laufenden Arbeit von inovexler Sébastien Jelsch wird eine Extract-Transform-Load (ETL) Pipeline vorgestellt, die extrem große Mengen an Linked Data automatisiert in ein horizontal skalierbares Open Source OLAP-System bereitstellen kann.

Beitrag jetzt lesen

Case Study

„Big Data: Optimierte Betrugserkennung auf Microsoft Azure“

In einem Innovationsprojekt realisiert arvato Financial Solutions gemeinsam mit Microsoft, dem Cloud- und Big-Data-Spezialisten inovex GmbH und drei Pilotkunden aus dem E-Commerce-Bereich eine Big-Data-Architektur auf Microsoft Azure und lotet damit aus, wie durch die Kombination von Cloud Computing, Big Data und Advanced Analytics Betrugserkennung verbessert und neue Finance BPO-Services entwickelt werden können.

Case Study lesen

Case Study

„Data Science für ProSiebenSat.1“

Welchen messbaren Einfluss hat TV-Werbung auf das Online-Verhalten? inovex und ProSiebenSat.1 beantworten diese Frage objektiv mit Big-Data-Technologien und gaben mit einem Vortrag beim BITKOM Big Data Summit 2015 spannende Einblicke in das Projekt.

Case Study lesen

inovex Theses

„Empfehlungsgenerierung mit Elasticsearch“

In ihrer Masterthesis verknüpft inovexlerin Anna Roes das Forschungsgebiet Recommendersysteme mit der aktuell viel beachteten und im industriellen Umfeld beliebten Open-Source-Suchmaschine Elasticsearch.

Thesis lesen

inovex Content Pool

Unsere Vorträge zu den Themen „Search & Text Analytics“

Zu den Vorträgen

inovex Trainings

Trainings: Apache Spark und Hadoop

Zur Trainingsübersicht

Inhouse Trainings

Inhouse Big Data Trainings

Big Data Inhouse Trainings für Gruppen zu Ihrem Wunschtermin und bei Ihnen vor Ort.

Zu den Big Data Trainings

inovex Content Pool

Unsere Vorträge zu den Themen „Data Science & Deep Learning“

Zu den Vorträgen