Machine Learning zum Lunch

Maschinelles Lernen ist in aller Munde und wird auch am D-CHAB immer wichtiger. Wie aber lässt sich Expertise in einer Disziplin aufbauen, die sich zu schnell für Lehrbücher entwickelt und fachspezifisch immer neue Herausforderungen hervorbringt? Doktorierende am D-CHAB setzen auf Erfahrungsaustausch und haben mit dem Data & Machine Learning (ML) Lunch ein studentisches Fortbildungsformat der besonderen Art geschaffen. Wir haben mit dem Organisator Julian Götz gesprochen.

02.09.2024 von Julia Ecker

Vorlesen
Anzahl der Kommentare

Der Data & Machine Learning (ML) Lunch ist ein studentisch gewachsenes Projekt. Mittlerweile gibt es sie seit 2022. Wie entstand die Idee dazu?

Durch mein Doktorat bin ich Richtung Machine Learning gedriftet und hab mich damit etwas allein in unserer sonst recht experimentellen Forschungsgruppe gefühlt. Diesen Teil meiner Arbeit konnten nur wenige Kollegen kritisch begutachten. Ich wusste allerdings, dass es auch in anderen Gruppen Leute gibt, die sich mit ML beschäftigen. So haben Professor Jeffrey Bode und ich die Machine Learning Lunchs initiiert. Prof. Bode und Prof. Copéret haben dann weitere Professoren ins Boot geholt, die ihre Forschungsgruppen auf das Angebot aufmerksam gemacht haben. Die Leute waren sehr offen und so hatten wir bald Interessierte aus fünf oder sechs Gruppen beisammen.

Wie läuft so ein Data & ML Lunch ab?

Im Wesentlichen stellt jemand ein Thema vor und dann wird diskutiert. Es hängt sehr vom Sprecher ab, wie stark er oder sie die Diskussion fokussiert. Das geht von 40-45 Minuten Talk mit klassischer Frage-Antwort-Session bis hin zu kurzen 15-20 Minuten-Talks mit langer Diskussion oder überhaupt einer offenen Fragerunde, so im Stil: Ich habe die Methode XY verwendet, aber bin mir nicht sicher, ob ich auf dem richtigen Weg bin. Wie würdet ihr das machen?

Mit welchem Ziel kommen die Leute zur Veranstaltung?

Die Machine Learning Lunch Sessions stehen allen offen: Die einen suchen vor allem den Austausch. Andere suchen gezielt nach Feedback – das war auch meine Anfangsmotivation – und wieder andere hören lieber zu, ohne selbst was vorzustellen. Es ist ja durchaus anspruchsvoll vor 15 Leuten zu stehen, die sich richtig gut mit dem Thema auskennen. Aber ich weiss noch, dass ich damals bei meinem ersten Talk sehr viele Vorschläge und konstruktive Kritik empfangen habe.

Visualization: Inferrring meaning from chemical structure—exemplified here by sorting constituents of a virtual chemical library into structurally similar clusters—is a frequent topic in the data&ML lunches — Die Ableitung von Bedeutungen aus der chemischen Struktur - hier am Beispiel einer Sortierung von Bestandteilen einer virtuellen chemischen Bibliothek in strukturell ähnliche Cluster - ist ein häufiges Thema bei den data&ML-Lunches (Visualisierung: Julian Götz)

Welche Themen kommen denn z.B. zur Sprache?

Die Themen kommen aus ganz verschiedenen Ecken. Bei uns gings z.B. schon mal um das Sammeln von Reaktionsdaten – also Daten darüber, ob eine Reaktion das gewünschte Produkt ergibt oder nicht. Wie sammelt man grosse Menge solcher Daten? Und wie verwendet man sie in einem Machine Learning-Modell, um zukünftige Reaktionen vorherzusagen? Ein Vortragender aus einer anderen Gruppe hat sich einmal mit Kraftfeldern fürs Modellieren von Molekülen beschäftigt. Dabei berechnet man die Struktur eines Moleküls auf atomarer Ebene und kann daraus seine Eigenschaften ableiten. Wir haben dann diskutiert, wie solche Kraftfelder mit Machine Learning Methoden approximiert werden können. Neben einem Austausch über Methoden, kamen hier auch Datensätze ins Spiel, die helfen könnten, das Modell zu verbessern.

Werden die Themen spontan gesetzt oder gibt es einen Jahresplan?

Ich plane normalerweise drei, vier Monate im Voraus. Entweder schlagen mir Leute Themen vor oder ich frage aktiv nach. Bisweilen haben wir auch externe Sprecher, das braucht ebenfalls etwas Vorlaufzeit.

Du selbst bist ja fast fertig mit deinem Doktorat. Wer wird das Format weiterführen?

Das Format werden erfreulicherweise zwei Personen übernehmen. Shaun O’Hare aus der Bode Gruppe – wir sind eher experimentell angesiedelt - und Stefan Schmid aus der Jorner Gruppe, welche sich stark mit maschinellem Lernen, vor allem mit Repräsentationen von Molekülen beschäftigt. Ich denke, das wird eine gute Kombination sein. So bleibt das Format weiterhin für Interessierte aus der experimentellen, aber auch aus der theoretischen Richtung zugänglich.

Der Data & ML Lunch findet im Semester einmal monatlich statt und richtet sich primär an Doktoranden und PostDocs. Interessierte können eine Mail an Shaun O’Hare (shaun.ohare@org.chem.ethz.ch) und Stefan Schmid (schmiste@chem.ethz.ch) schicken, um im Mailverteiler aufgenommen zu werden. Die ML-Lunch-Daten werden zudem im Veranstaltungskalender des D-CHAB publiziert.

Julian Götz ist seit 2019 Doktorand in der Gruppe von Professor Jeffrey Bode. In seiner Forschung führt er organische Reaktionen in miniaturisierter Form durch, um grosse Datensätze über Reaktionsergebnisse zu erstellen. Diese verwendet er zum Trainieren von Machine Learning Modellen, die den Reaktionsausgang für ungetestete Substrate vorhersagen können. Machine Learning erlebt in der Chemie gerade einen großen Aufschwung, ist aber durch den Mangel an Daten gehemmt. Julian Götz’ Forschung ermöglichte es ihm, die Grenzen von ML in der Chemie auszutesten.