Empfehlungsgenerierung mit Elasticsearch

Empfehlungen basieren häufig auf der Beobachtung von auffälligen Gemeinsamkeiten einer bestimmten Gruppe von Personen („Wer A mag, mag auffällig oft auch auch B“). Zur Aufdeckung dieser Gemeinsamkeiten und der darauf aufbauenden Generierung von Empfehlungen können auch Technologien zum Einsatz kommen, an die man in diesem Kontext zunächst einmal gar nicht denkt.

In ihrer Masterthesis verknüpft inovexlerin Anna Roes das Forschungsgebiet Recommendersysteme mit der aktuell viel beachteten und im industriellen Umfeld beliebten Open-Source-Suchmaschine Elasticsearch. Anna Roes hat ihr Informatikstudium an der Hochschule Karlsruhe – Technik und Wirtschaft abgeschlossen und für Ihre hervorragenden Leistungen einen Preis bekommen (siehe auch Video unten).

Elasticsearch ist für den Einsatz auf verteilten Systemen gebaut und erlaubt es, große Datenmengen nahezu in Echtzeit zu verarbeiten. Eingesetzt wird Elasticsearch sowohl zur Volltextsuche, als auch zur Suche in strukturierten Daten und zu Analysezwecken.

Auch Suchwortvervollständigung, Vorschläge („Meinten Sie vielleicht…“) und die Anzeige verwandter Einträge lassen sich mit Elasticsearch umsetzen und werden häufig verwendet. In vielen Anwendungskontexten sind darüber hinaus personalisierte Empfehlungen wünschenswert und für die Anbieter der entsprechenden Dienste wäre es natürlich von Vorteil, wenn sich ein solches Empfehlungssystem direkt mit Elasticsearch und möglichst ohne großen Aufwand als Plug-and-Play-Lösung umsetzen ließe. Wie sich dies erreichen lässt, ist das Thema dieser Masterthesis.

Inhalt:

Recommendersysteme

  • Grundlagen: Terminologie, Taxonomie von Recommendersystemen, Funktionen, Modellierung
  • Methoden: Nicht-personalisierte Empfehlungen, Inhaltsbasierte Empfehlungen, Kollaboratives Filtern, Demographische Ansätze, Wissensbasierte Ansätze, Gemeinschaftsbasierte Ansätze, Hybride Ansätze
  • Kaltstartprobleme
  • Stand der Technik – Wie arbeiten bekannte Recommendersysteme? Beispiele: Filmempfehlungen bei Netflix, Produktempfehlungen bei Amazon

Elasticsearch

  • Grundlagen: Anbindung und Schnittstellen, Datenhaltung und -verteilung
  • Suche: Strukturierte Suche, Volltextsuche, Scoring
  • Aggregationen: Funktionsweise, Die Significant-Terms-Aggregation
  • Umsetzung eines einfachen Recommender-Plugins für Elasticsearch: Grundidee, Aufbau des Plugins (Konfiguration von Recommendern, Anzeige von Recommendern, Abfrage von Empfehlungen)
  • Skalierbarkeit

Evaluationsgrundlagen

  • Datensätze (Ausgangsdatensatz, Testdatensatz mit Aufteilung 80-20, All-But-20-Datensatz)
  • Zu vergleichende Ansätze (Significant Terms, Terms, Taste-Plugin)
  • Qualitätsmaße (Datenlage, Precision, Recall, False Positive Rate, Weitere Maße)

Evaluation

  • 80-20-Testset (Precision, Recall, Echte False Positives, Anteil bekannter Filme, Korrigierte Präzision, All-But-20-Testset, Vergleich der Listen ähnlicher Filme (Empfehlungsgenerierung, Korrekturauswirkungen Significant-Terms-Empfehlungen, Vergleich von Terms- und Significant-Terms-Empfehlungen, Vergleich mit Taste-Empfehlungen)

Sie haben Fragen oder möchten zu diesem Thema beraten werden?

Dann rufen Sie uns an unter +49 (0)721 619 021-0 oder schreiben Sie uns eine E-Mail. Wir freuen uns auf Ihre Nachricht!

Patrick Thoma

Ich freue mich auf Ihre Nachricht!

Patrick Thoma

Head of Data Management & Analytics

Über uns

Unsere Technologie-Partner

Wir kooperieren mit Partnern, die unseren Kunden einen echten Mehrwert bieten: Cloudera, Elastic, Hortonworks, Liferay, MapR, Microsoft, Red Hat, Quobyte und UID.

Mehr Infos

inovex Content Pool

Aktuelle Vorträge, Whitepaper, Fachartikel & Videos

Hier geht's zum Content Pool