Illustration: Eine Mathematikerin jongliert mit Daten
Artificial Intelligence

Der Tag zweier Mathematikerinnen bei inovex: Jonglieren mit Daten!

Lesezeit
13 ​​min

Der Arbeitsalltag einer Mathematikerin im Bereich Data Management & Analytics kann vielfältig sein: Datensammlung, -aufbereitung und -analyse sowie der Entwurf von KI-Modellen und vieles mehr. Die Möglichkeiten, sich in ein Datenprojekt einzubringen, sind meist nicht auf das eigene Fachgebiet beschränkt. Mara (Senior Big Data Scientist) und Marisa (Senior Machine Learning Engineer) sind zwei Mathematikerinnen, die jeden Tag auf unterschiedlichste Weise mit Daten jonglieren. In diesem Blogbeitrag beschreiben sie, wie ein Tag einer Datenjongleurin aussehen kann und wie wir Mathematik in unserem Alltag nutzen.

Wenn du Mathematik studierst oder studiert hast, stehst du vor einer großen Auswahl an möglichen Karrierepfaden. Du solltest dir aber auf jeden Fall den Bereich Datenmanagement & Analytik anschauen – nicht nur, weil der Harvard Business Review den Beruf des Data Scientists als den „sexiest job“ des 21. Jahrhunderts bezeichnet hat [1]. In den letzten Jahren haben sich viele spezialisierte Berufsbezeichnungen herausgebildet, zum Beispiel „Data Engineer“, „(Big) Data Scientist“ oder „Machine Learning (ML) Engineer“. Sie alle haben jedoch das gleiche Ziel: Daten so zu verarbeiten, dass nützliche Informationen aus ihnen extrahiert (gelernt) werden können und Computer auf der Grundlage dieses Wissens intelligent handeln können. Die Arbeit mit und die Implementierung von KI-Algorithmen erfordert allerdings mehr als nur KI-Expert:innen: Es ist ein Teamsport. Unabhängig von der Berufsbezeichnung sind viele verschiedene Spezialist:innen erforderlich, die als Team zusammenarbeiten und sich gegenseitig ergänzen. Auch andere Bereiche der Informatik und verwandter Wissenschaften wie Datenbankmanagement, Softwareentwicklung oder Kognitionswissenschaft müssen einbezogen werden, um Künstliche Intelligenz produktiv einsetzbar machen zu können.

Marisa, was ist deine Rolle als ML-Engineer im Team und wann verwendest du Mathe?

Aufgrund der bereits erwähnten Vielfalt und der zahlreichen Verbindungen zu anderen Teammitgliedern ist es schwierig, einen typischen Tag eines ML Engineers zu beschreiben, denn jeder Tag ist von neuen Herausforderungen geprägt – zum Glück. Doch selbst bei den komplexesten Herausforderungen lässt uns unsere mathematisch-analytische Denkfähigkeit nicht verzweifeln.

Die mathematische Modellierung von Daten in einem Lernalgorithmus, sei es durch eine angewandte, spezialisierte lineare Regression oder durch ein ausgefallenes künstliches neuronales Netz, nimmt normalerweise nicht mehr als die letzten 5-10 % eines ganzen Datenprojekts in Anspruch. Damit eine Vorhersage wirklich gut funktioniert, ist der End-to-End-Gedanke entscheidend. Woher kommen die Daten eigentlich? Und welche Daten brauche ich, um ein gültiges Ergebnis zu erhalten? Liegen passende Daten vor? Kann ich an profitablere Daten gelangen oder muss ich das Ziel der Vorhersage ändern? Es ist entscheidend, das große Ganze zu verstehen.

“All of AI […] has a proof-of-concept-to-production gap. […] The full cycle of a machine learning project is not just modeling. It is finding the right data, deploying it, monitoring it, feeding data back, showing safety — doing all the things that need to be done to be deployed.“
Andrew Ng [2]

Im Allgemeinen hilft ein Machine Learning Engineer dabei, Algorithmen des maschinellen Lernens oder der Künstlichen Intelligenz in einer produktiven Umgebung so einsetzbar zu machen, dass sie im Tagesgeschäft problemlos verwendet werden können. Das klingt nach einer Menge Infrastruktur und Software-Engineering, und ja, das kann einen großen Teil der Arbeit eines ML Engineers ausmachen. Man muss die bestehenden IT-Landschaften und Systeme auf Kundenebene verstehen, um zu entscheiden, wie man in diesen bestehenden Systemen eine Pipeline zwischen den Daten und der Ausgabe einer Vorhersage aufbaut und wie man am Ende alles einsetzt. Aber KI ist ein Mannschaftssport. Natürlich bin ich als Machine Learning Engineer nicht die Spezialistin für alles, aber es ist wichtig, den Überblick zu behalten.

Wie viel Mathematik man als ML Engineer in diesem interdisziplinären Bereich braucht, hängt in erster Linie vom Niveau und Interesse der einzelnen Person an den verwendeten mathematisch-statistischen Techniken ab. Es gibt den ML Engineer, der den ganzen Tag damit verbringt, Infrastrukturen aufzubauen oder Software zu programmieren, um einen intelligenten Algorithmus im Kundensystem produktiv laufen zu lassen. Diese Art von ML Engineer ist sicherlich stärker von der Informatik beeinflusst als ich es als Mathematikerin bin. Ich bewundere das, aber ich kann mich nur schlecht im Programmieren verlieren. Das Gute an meinem Beruf ist, dass ich das auch gar nicht muss. Der Beruf ist so facettenreich und vielschichtig, dass jede:r der eigenen Leidenschaft folgen und eine persönliche Rolle im Team einnehmen kann – mit dem Bonus, dass man ab und zu in andere Rollen hineinschnuppern kann.

Als Mathematikerin habe ich im Laufe der Jahre verschiedene Rollen übernommen. Während einer Projektphase übernehme ich oft die Rolle einer allgemeinen Strategin oder Projektmanagerin, die dafür sorgt, dass das Team die gleiche Vision verfolgt, um Input und intelligenten Output in der produktiven Umgebung zusammenzubringen. Wenn dann Spezialist:innen für die Datenmodellierung im Projekt benötigt werden, habe ich die Möglichkeit, meiner mathematischen Leidenschaft nachzugehen: in Form kleinerer Datenexplorationen und -visualisierungen über die Bewertung mathematischer Beziehungen in den Daten bis hin zur Auswahl und dem Training von Lernalgorithmen. Letzteres beinhaltet insbesondere die Berücksichtigung von Genauigkeit, Trainingszeit, Modellkomplexität, Anzahl der Parameter und Anzahl der Merkmale. Darüber hinaus müssen Parametereinstellungen und Validierungsstrategien ausgewählt, Underfitting und Overfitting durch das Verständnis des Bias-Variance-Tradeoff identifiziert und Konfidenzintervalle geschätzt werden. Ein tieferer Einblick in die Mathematik für Machine Learning findet sich auf Medium [3]. Als mathematisch orientierter ML Engineer kann meine Rolle daher von Zeit zu Zeit der eines Data Scientists ähnlich sein.

Diese Rollenveränderung und Vielfalt ist das, was ich an meiner Arbeit oder generell an der Arbeit in einem Daten-Projektteam liebe. Ein anderer Machine Learning Engineer könnte sicherlich viele weitere technische Rollen übernehmen – vor allem wenn es darum geht, die entsprechenden Daten zu sammeln, ohne die kein ML- oder KI-Modell funktioniert. Und genau da kommt Mara ins Spiel.

Mara, was machst du den ganzen Tag als Data Scientist und wann verwendest du Mathematik?

Nach meinem Mathematikstudium habe ich angefangen, als Data Scientist für inovex zu arbeiten. Als ich mich für die Stelle bewarb, wurde ich im Vorstellungsgespräch gefragt, welchen Titel ich bevorzugen würde: Data Engineer oder Data Scientist. Damals war ich überzeugt, dass Letzteres die einzig vernünftige Wahl für eine Mathematikerin wie mich sei. Schon während meines Studiums war ich als Werkstudentin im Bereich der Data Science tätig und besuchte darüber hinaus auch Vorlesungen über Data Mining, neuronale Netze und andere verwandte Themen.

Die Verbindungen zwischen Mathematik und Data Science sind zahlreich – in der Tat ist Data Science hauptsächlich die Anwendung mathematischer Modelle auf verschiedene Anwendungsfälle. Und ich wünschte, diese Tatsache würde an der Universität häufiger und mit mehr Nachdruck gelehrt werden. Hast du dich jemals gefragt, wozu all diese mathematische Theorie gut ist? Wenn du Mathematik studierst, hast du dir schon einmal über all die Arten von Matrix-Faktorisierungen, die man in der numerischen Mathematik lernen muss, den Kopf zerbrochen? Oder bist du vielleicht ein:e Abiturient:in, die sich mit der hohen Kunst der Analysis und Algebra befasst, aber befürchtet, dass es zu nichts führt? Ich kann dich beruhigen: Die Anwendungsfälle für die Mathematik und ihre Theorien sind grenzenlos.

Eines meiner Lieblingsbeispiele, das mir während meiner Arbeit als Werkstudentin begegnet ist, sind Empfehlungssysteme (Recommender Systems). Ein großartiger Einführungsartikel zu diesem Thema ist auf Medium zu finden, wo Recommender Systems als „Algorithmen, die darauf abzielen, Usern relevante Artikel vorzuschlagen,“ [4] definiert werden. Das können zum Beispiel Produkte in einem Online-Shop oder Filme auf einer Streaming-Plattform sein. Die Interaktion zwischen Objekten und Nutzer:innen kann durch eine dünnbesetzte Matrix dargestellt werden, in der jeder Eintrag z. B. beschreibt, wie ein:e Nutzer:in einen bestimmten Film bewertet hat oder ob ein:e Nutzer:in ein bestimmtes Produkt gekauft hat. Ein Ansatz, aus dieser Matrix Informationen zu gewinnen und Empfehlungen zu lernen, besteht darin, sie in zwei kleinere, dichtere Matrizen zu zerlegen – die sogenannte Matrix-Faktorisierung. Die eine Matrix beschreibt dann die User-Repräsentation, während die andere die Artikel-Repräsentation – eine gute Veranschaulichung dafür, wie ein mathematisches Konstrukt in der Praxis eingesetzt werden kann. Auch andere mathematische Methoden finden in der Theorie der Empfehlungssysteme Anwendung.

Jetzt habe ich viel davon geschwärmt, wie vielfältig und „sexy“ [1] die Anwendungen der reinen (und manchmal scheinbar trockenen) Mathematik im Data-Science-Bereich sein können. Aber wenn du diesen Artikel aufmerksam gelesen hast, ist dir vielleicht aufgefallen, dass ich nicht nach meiner Arbeit als Data Scientist, sondern als Data Engineer gefragt wurde. Warum das?

Wie bereits erwähnt, ist die Arbeit im Bereich der KI oder – allgemein gesprochen – an einem Datenprojekt ein Teamsport. In diesem Zusammenhang kommt man automatisch auch mit anderen Rollen in Berührung und wechselt von Zeit zu Zeit die Position. Mit meinem mathematischen Hintergrund hatte ich immer großen Respekt vor der Rolle des Data Engineers, von der ich dachte, sie sei „echten“ Programmierer:innen mit IT-Hintergrund vorbehalten. Zu Beginn meines Studiums hätte ich nicht gedacht, dass ich mich jemals für das Coden interessieren würde und wie Marisa werde ich wahrscheinlich nie so viel Spaß am Programmieren haben wie meine Kolleg:innen, die Informatik studiert haben. Aber Data Engineering ist so viel mehr als nur vor dem Laptop zu sitzen, während grüne Buchstaben auf einem schwarzen Bildschirm erscheinen und die Finger in Lichtgeschwindigkeit über die Tastatur fliegen.

Das Geschwister der Data Science, mit etwas weniger „Sex Appeal“, hat sicherlich mehr Aspekte aus der Informatik als aus der Mathematik geerbt [5]. Als Data Engineer entwirft, implementiert und überwacht man Daten-Pipelines, die die ML-Modelle eines Data Scientists speisen können. Außerdem spielen Datenspeicherung und -qualität eine wichtige Rolle. Programmierkenntnisse und die Bereitschaft, sich ständig in neue Technologien einzuarbeiten, sind für diesen Job unerlässlich.

Mit dieser Rollenbeschreibung im Hinterkopf zeigt sich, dass man nicht unbedingt Mathe braucht, um Data Engineer zu sein. Das heißt aber nicht, dass Mathematiker:innen keine guten oder gar hervorragenden Data Engineers sein können. Ihr Studium umfasst viel mehr als nur Kenntnisse in Algebra, Analysis und vielen anderen mathematischen Fächern. Es wird oft gesagt, dass Mathematik und Philosophie eng miteinander verbunden sind, und einige Universitäten wie Oxford bieten sogar Vorlesungen an, die beide Disziplinen miteinander kombinieren [6]. Auch ohne einen solchen Kurs zu besuchen, erwirbt ein:e Mathematikstudent:in eine Menge Soft Skills, die im Alltag eines Data Engineers grundlegende Werkzeuge sind: Man muss mit komplexen Systemen umgehen, die aus unterschiedlichen Datenquellen gefüttert werden, welche wiederum durch verschiedene Pipelines miteinander verknüpft sind. Mit logischem und analytischem Denken kann man ETL-Prozesse (extract, transform and load) besser verstehen und gestalten. Gründlichkeit und das Prüfen von Richtigkeit sind der Schlüssel zur Überwachung von Daten-Pipelines und zur Gewährleistung einer hohen Datenqualität. Resilienz und Deduktion sind beim Performance Tuning oder beim Debuggen in Daten-Pipelines von großer Hilfe. Mit einigen dieser Fähigkeiten im Werkzeugkoffer hast du eine gute Grundlage für die Rolle eines Data Scientist, praktische Erfahrung kommt mit der Zeit.

Die Möglichkeiten für eine:n Mathematiker:in im Datensektor sind also breit gefächert. Es werden verschiedene Typen von Menschen und Fähigkeiten benötigt und es gibt zahlreiche Weiterbildungsmöglichkeiten. Außerdem können Datenprojekte sehr vielfältig sein, da Daten überall anfallen: E-Commerce, Lebensmittel- und Mode-Einzelhandel, Logistik, Mobilität, Smart Buildings, … Man kann immer einen Anwendungsfall finden, der dem eigenen Geschmack entspricht. Ich kann auf jeden Fall empfehlen, die Chance zu nutzen und einen Einblick in diese Branche zu bekommen.

Unabhängig davon, für welchen Studiengang oder Karriereweg du dich entscheidest, kann ich dich nur ermutigen, über den Tellerrand hinauszuschauen und auch in andere Rollen und Bereiche hineinzuschnuppern als die, die du bereits kennst. Ob positiv oder negativ, es wird ein Erfahrungsgewinn für dich sein. Und du wirst eine Bereicherung für jedes Team sein, wenn du außerhalb deiner Komfortzone denken kannst.

This article is available in English at Her Maths Story. 

[1] https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
[2] https://spectrum.ieee.org/view-from-the-valley/artificial-intelligence/machine-learning/andrew-ng-xrays-the-ai-hype
[3] https://towardsdatascience.com/the-mathematics-of-machine-learning-894f046c568
[4] https://towardsdatascience.com/introduction-to-recommender-systems-6c66cf15ada
[5] https://www.stitchdata.com/blog/5-things-you-should-know-for-career-in-data-engineering/
[6] https://www.ox.ac.uk/admissions/undergraduate/courses-listing/mathematics-and-philosophy

Hat dir der Beitrag gefallen?

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert