Juni 2019: What’s happening?

Wer nach etwas (tiefer-technologischem) Lese- und Experimentierstoff für die ruhigeren Zeiten im Sommer sucht, hat mit den bemerkenswerten Entwicklungen der letzten Jahre im Bereich des Natural Language Processing (NLP) im Umfeld der Künstlichen Intelligenz eine große Quelle interessanten Materials zur Verfügung. Einen guten Einstieg bildet hier sicherlich Sebastian Ruders Überblick der jüngeren NLP-Geschichte. Wie dort unschwer zu erkennen ist, beobachten wir einen Übergang zu neuronalen Netzen im NLP in den letzten fünf Jahren und ebenfalls eine Beschleunigung der Entwicklungen und des Interesses vor allem in den vergangenen zwei Jahren. Gerade vortrainierte Sprachmodelle (pretrained models) haben 2018 geradezu einen Hype ausgelöst. So wurde im vergangenen Sommer Ruders Artikel im Gradient zu „NLP’s ImageNet moment has arrived“ breit zitiert und diskutiert: die These, dass, ähnlich zu den vortrainierten Modellen in der Bilderkennung, nun auch die vortrainierten Modelle im NLP das Zepter übernehmen. Im Spätjahr 2018 wurde das BERT-Modell von Google veröffentlicht, eine Entwicklung, die in der NLP Community viel diskutiert wurde und es sogar in die Keynote der Google I/O schaffte. Die schrittweise Veröffentlichung von GPT-2 durch OpenAI aufgrund ethischer Erwägungen schaffte es in etwas reißerischer Form („New AI fake text generator may be too dangerous to release, say creators“) sogar bis in den Guardian. Vergangene Woche ist die neueste Iteration der vortrainierten Modelle erschienen, XLNet, die nach den Werten des Papers zu urteilen, die Metriken nochmals um einiges verbessert (Diskussion auf redditErläuterungen auf mediumPaper auf arxiv). Wer nun, ganz enthusiastisch, ein Modell wie XLNet selbst von Grund auf trainieren möchte, sollte allerdings das Kleingedruckte im Paper lesen: XLNet wurde auf 512 TPUv3 für mehrere Tage trainiert, offizielle Kosten laut Listenpreis: 245.000 $.

Herzlichst,

Christian Meder