Ein Data Scientist am Whiteboard

Der Tag eines Data Scientist bei inovex – Mehr als nur Daten

Lesezeit
8 ​​min

Der Tag eines Data Scientist kann vielfältig sein: Datenaufbereitung und -analyse, die Konzeption von KI-Modellen und viel mehr. Bei inovex bleiben die Möglichkeiten, sich im Unternehmen einzubringen, jedoch nicht auf den eigenen Fachbereich beschränkt. Im Blog-Artikel beschreibe ich, wie ein Tag als Senior Data Scientist bei inovex ablaufen kann.

Check-In in den Tag

Es ist 8:45 Uhr. Nach meiner Morgenroutine startet mein Tag bei inovex: Chrome, CMD+T C Enter, CMD+T M Enter – ein kurzer Blick in den Google Kalender, Gmail und Slack. Was für Termine stehen heute an und wo kann ich meinen Deep Work Blocker platzieren, um ungestört und konzentriert nachzudenken und an einem Problem zu arbeiten? Was macht die Inbox und gibt es wichtige E-Mails? Abschließend checke ich Slack auf Direktnachrichten und blicke in Kunden-, Team- und Standort-Channel. Dann passe ich die Tagesplanung gegebenenfalls nochmal an. Hierbei versuche ich Flexibilität und Fokus zu berücksichtigen. Daher ist es mir auch wichtig mehrere zusammenhängende Stunden für Deep Work zu blocken.

Mein Daily im Kundenprojekt

8:55 Uhr: Ich logge mich im VPN unseres Kunden ein und checke dort meine Slack-Direktnachrichten. Um 9:00 Uhr startet unser Daily. Wir arbeiten mit Kanban – ausgewählte Tickets mit Blockern oder Diskussionsbedarf sowie aktuelle Bugs in Live-Systemen werden kurz besprochen. Längere und dedizierte Diskussionen werden verabredet und terminiert. Eigentlich unspektakulär, aber heute mündet unser Daily direkt in eine halbe Stunde außerplanmäßiger Arbeit.

What could possibly go wrong?

Zwei Jenkins Jobs, die täglich Prognosen mit Spark durchführen, sind am frühen Morgen nach der Dateneinspeisung auf die Nase gefallen. Der Grund ist schnell gefunden: in den Job-Konfigurationen wird Docker Image Tag genutzt, das auf ein automatisch gelöschtes Image verweist und heute der Retention Policy für die Docker Registry zum Opfer fiel. Somit konnten die Jobs das referenzierte Image nicht mehr finden und sind abgebrochen.

Diese Policy war mir zuvor nicht bewusst, erscheint aber logisch, um im Zuge kontinuierlicher Integration nicht unendlich Images anzuhäufen – wieder etwas gelernt. Auch zeigt uns dieses Problem, dass man sich bei Datenprodukten immer Gedanken um die Mitigation bei Ausfällen machen sollte. Anschließend überprüfe ich das letzte Release und referenziere es neu in der Konfiguration. Zuletzt werden beide Jobs ausnahmsweise manuell getriggert, um die täglichen Prognosen zu generieren.

Das Ergebnis sieht gut aus: das neue Image wird erwartungsgemäß genutzt, die Spark-Jobs gestartet und die Prognosen generiert. Abschließend informiere ich unseren Data Engineer und das Team über Fehlerursache und wie wir es künftig vermeiden.

Bei inovex ist uns wichtig, dass Data Scientists ein ganzheitliches Verständnis besitzen. Das hört nicht bei der Data-Science-Expertise auf, sondern erstreckt sich auch über Softwareentwicklung, Deployment, Monitoring usw. Wir nennen das End-to-End Data Science bzw. Data Science to Production. Und so kann auch eine gewisse Kompetenz im Umgang mit Docker oder CI/CD-Tools wie Jenkins hilfreich sein.

Auf ins Office

10:00 Uhr: Nach der Morgenbesprechung und dem ersten kleineren Einsatz fahre ich mit meinem JobRad ins Büro. Ich finde es gut und nur logisch, dass ein moderner und nicht nur an ökonomischer Nachhaltigkeit orientierter Arbeitgeber nicht nur klassisches Fahrzeugleasing unterstützt, sondern auch Fahrradleasing. Das wird bei uns sehr gut angenommen und manche Kollegen leasen bereits ihr Zweitrad.

Im Büro treffe ich kurz meine Mentee zum Kaffee- eine neue Kollegin im Team Data Management & Analytics (DMA).  Ich stehe ihr als Mentor bei Fragen und Problemen mit Rat und Tat zur Seite, um ihr den Start bei uns so angenehm wie möglich zu machen und sich am neuen Standort gut zurechtzufinden.

Data Science Guild Meeting

11:00 Uhr: Einmal wöchentlich kommen alle Data Scientists beim Kunden teamübergreifend für eine Stunde zusammen, um über spezifische Themen wie Modellierung, Verhalten von Modellen oder Analysen zu diskutieren und sich über Ideen auszutauschen. Auch werden hier wichtige Veränderungen an der Infrastruktur und deren Auswirkungen auf unsere Use Cases besprochen. Heute haben wir drei Themen: Fehlerinterpretation eines Preisprognosemodells, Monitoring desselbigen sowie die Diskussion neuer Merkmale für Betrugserkennungsmodelle auf Basis von Freitexten. Dieser Austausch ist immer sehr spannend und hilfreich. Das diverse Spektrum an Use Cases von Recommender Systemen zu Fraud Detection und Personen sorgt für für fruchtbare Diskussionen und die Verbesserung unserer Ansätze.

Brownbag

12:00 Uhr bedeutet bei inovex klassischerweise „Brownbag”-Zeit. Bei einer Brownbag stellt ein Kollege oder eine Kollegin ein Thema vor und wir tauschen uns anschließend hierzu aus oder geben Feedback. Das kann von Technologien, über Projekte bis hin zu kulturellen Themen oder Hobbyprojekten reichen. Auch die Form steht frei. Viele präsentieren für rund eine halbe Stunde und anschließend gibt es eine Frage- und Diskussionsrunde. Es kann aber auch die Form eines Lean Coffee oder einer kleinen Hacking Session annehmen. Heute stellt ein Masterand sein Zwischenergebnisse zur Arbeit „Machine Learning and Epidemiological Modelling in the Context of COVID-19” vor.

Deep Work – hierarchisches Bayes-Modell & Datenprodukte

13:00 Uhr: Kaffee und ab in den Tunnel. Den Nachmittag habe ich mir für Deep Work blockiert. Ich erarbeite für unseren Kunden ein hierarchisches Bayes-Modell, um den Effekt von Werbemaßnahmen auf die täglichen Interaktionszahlen mit den Inseraten eines Händlers als Erwartungswert einer Poisson-verteilten Zufallsvariable zu schätzen. Wir möchten also die Verteilung der Interaktionszahl auf das Inserat ohne zusätzliche Promotion schätzen und diese dann mit der Verteilung unter dem Einfluss spezifischer Promotionen vergleichen, um die Verteilung des multiplikativen Effekts ausweisen zu können. Das Sampling einer Posterior-Verteilung ermöglicht uns hierbei eine bessere Einschätzung der Unsicherheit und erleichtert die Kommunikation mit Product Manager oder anderen Stakeholder erheblich. Eine zielgruppengerechte Kommunikation mit verschiedenen Stakeholdern ist ebenso eine wichtige Aufgabe von Data Scientists.

Im Speziellen arbeite ich derzeit an der zweiten Ausbaustufe des Datenprodukts, bei der wir die Verteilung der bestimmte Effektgröße durch einen Lageparameter repräsentieren. Wenn wir dies für genügend Inserate durchführen, ergibt sich wiederum eine neue Verteilung, die wir nutzen, um jeden Inserat einen Quantilswert zuzuordnen. Dieser Quantilswert  ist nun die Zielvariable für ein Modell zur Quantilsregression auf Basis der Inseratsmerkmale. Das würde uns erlauben, auf Basis der Merkmale als unabhängige Variablen eine Vorhersage der Effektivität einer Promotion durchzuführen. Auf dieser Grundlage generieren wir für besonders sichere und hohe Effekte entsprechende Vorschläge jeweilige Promotionen zu buchen. Bei unserem Kunden bin ich verantwortlich für die Entwicklung der gesamten Pipeline vom Data Preprocessing über regelmäßiges Modelltraining sowie die täglichen Prognoseläufe, in denen ein vorgegebenes Modell auf aktuellen Daten angewendet wird, um die Ergebnisse anschließend in einer Datenbank bereitzustellen. Diese wird wiederum von einem Service zur Generierung der Vorschläge genutzt.

Zeit für weiterführende Themen

So ergibt sich eine abwechslungsreiche Arbeit, die neben den grundsätzlichen Kundenprojekten auch Zeit für interne Themen lässt.  Dazu gehören zum Beispiel die inocircles, die strategischen Themen, Studentenbetreuung, Mentoring oder auch Fachartikel. Derzeit betreue ich einen Bacheloranden, der an Preference-based Inverse Reinforcement Learning arbeitet. Dieser Austausch und das Coaching machen mir Spaß. Ich lerne neue Dinge und kann gleichzeitig meine Erfahrung für die Unterstützung und Ausbildung möglicher Mitarbeiter nutzen.

Zum Ende meines heutigen Arbeitstages editiere ich noch meinen Einführungsartikel zu Recommender Systems, den ich derzeit für eine heise-Sonderausgabe zu Machine Learning verfasse. Danach setz mich auf’s Rad und treffe mich noch mit ein paar Kolleginnen zum Wein. Auch das ist inovex: viele sind auch über die reine Arbeit hinaus freundschaftlich miteinander verbunden.

 

Wenn du Senior Data Scientist bist und  deine zukünftigen Arbeitstage auch bei inovex verbringen möchtest, findest du hier mehr Infos  über die offenen Stellen und wie du mit uns Kontakt aufnimmst.

One thought on “Der Tag eines Data Scientist bei inovex – Mehr als nur Daten

Hat dir der Beitrag gefallen?

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Ähnliche Artikel