Universität Innsbruck

06/19/2024 | News release | Distributed by Public on 06/19/2024 02:17

Effi­zi­en­ter rech­nen

Fortschritte in der Rechenleistung von Computern und neue digitale Möglichkeiten haben die Pharmabranche in den vergangenen Jahren geradezu revolutioniert - bei der Arzneimittelforschung und der Überprüfung möglicher Wirkstoffe spielen Supercomputer heute eine maßgebliche Rolle. Im Rahmen des von der EU-Kommission geförderten EuroHPC-Projekts "LIGATE" befassen sich unter anderem Innsbrucker Informatiker:innen mit der Optimierung des gesamten Drug-Discovery-Workflows auf Hochleistungsrechnern. "Wir arbeiten an zwei größeren Teilen, die aber aufeinander einwirken: Einerseits geht es um die Beschleunigung der eigentlichen Rechenoperationen, andererseits um die Optimierung des Energieverbrauchs", erklärt Ass.-Prof. Dr. Peter Thoman vom Institut für Informatik, Leiter eines der Work Packages im Projekt. "Umgesetzt wird das alles als Open-Source-Lösung, um plattformunabhängig einsetzbar zu sein."

Aufwändige Berechnungen

Firmenpartner im nunmehr abgeschlossenen Projekt war der italienische Pharmabetrieb Dompé, der eng in die Spezifikation der jeweiligen Lösungen eingebunden war. "Die grundlegende Idee bei Drug Discovery am Supercomputer ist folgende: Es gibt Datenbanken mit Milliarden von Wirkstoff-Molekülen, die grundsätzlich in der Medikamentenentwicklung verwendet werden können. Ziele dieser Moleküle - wie zum Beispiel das Spike-Protein von SARS-CoV-2 - besitzen so genannte Docking-Locations, an denen ein Wirkstoff anknüpfen könnte. Und je nachdem, welche Stoffe in Kontakt kommen, können die andocken, manche stärker, andere schwächer. Diese möglichen Verbindungen, ob stark oder schwach und ob sie überhaupt möglich sind, bei Milliarden von Molekülen, das rechnen und simulieren Pharmaunternehmen an Hochleistungsrechnern. Diese Simulation ist der Haupt-Workload, den die entsprechende Software erledigt", erklärt der Informatiker. Diese Berechnung besteht aus mehreren Detailschritten, so müssen zum Beispiel die erwähnten Docking-Sites erst identifiziert werden, und daraus ergibt sich dann ein Scoring, was wie gut an diese Docking-Sites passt, wie es verändert oder gedreht werden muss - in Summe eine Vielzahl an einzelnen Schritten, die in sehr großer Zahl sinnvollerweise nur am Computer gemacht werden können.

Peter Thomans Work Package bestand aus zwei Hauptteilen, wie er erklärt: "Einerseits war unser Ziel, diese Berechnungen effizienter zu machen, andererseits sollte die Software auf einer viel größeren Zahl an Hochleistungs-Hardware laufen können - also die vorhandene Software war neu zu implementieren, mit herstellerunabhängigen, offenen Schnittstellen. Dabei haben wir mit dem Industriestandard SYCL gearbeitet, ein offener Standard für GPU-Berechnungen, die auf jeder Hardware funktionieren."

Effizienssteigerung

Die von Thoman beschriebene Berechnung dieser Molekül-Passungen - also der Abgleich von Molekül-Docking-Points - läuft auf Hochleistungshardware parallel in mehreren einzelnen Schritten, und darin liegt auch ein Problem: "Das Problem dabei ist, dass die insgesamt riesige Berechnung in etwas kleinere Teile aufgeteilt wird, auch für die Verlässlichkeit: Falls ein einzelner Berechnungsschritt ausfällt, gibt es trotzdem noch sinnvolle Resultate. A priori kann man in diesem riesigen Datensatz von Molekülen aber nicht genau sagen, wie lange denn jetzt die Berechnung der einzelnen Docking-Operation dauert." Das führt dazu, dass alle parallelen Schritte so lang dauern wie der langsamste Schritt - erst, wenn alle ausgeführt sind, wird ein neues Package aufgeteilt.

Die Lösung der Informatiker dafür klingt einleuchtend, war aber in der Umsetzung durchaus herausfordernd: "Unser Ansatz war, dass die Software live versucht - während die große Berechnung läuft - die Bereiche, auf denen die verschiedenen Teile gerechnet werden, neu umzuverteilen, sodass alle etwa gleichzeitig fertig werden. Das ist so genanntes Dynamic Load Balancing, für diesen Spezialfall, wo es keine A-priori-Information gibt, sondern der Rechner innerhalb der relativ kurzen Laufzeit - wir reden hier von wenigen Minuten pro Operation - die Information sammelt und basierend darauf Entscheidungen trifft, wie die Daten verteilt werden. Bildlich gesprochen: Die einzelnen Knoten versuchen, sich ein Bild davon zu machen, wie lang die verschiedenen Berechnungen im ganzen Cluster verteilt brauchen, aber nur aufgrund ihrer lokalen Informationen, und aufgrund von Informationen, die sie direkt mit anderen austauschen."

Energieersparnis

Kürzere Laufzeiten bedeuten auch einen niedrigeren Energieverbrauch. Neben dem Team aus Innsbruck um Peter Thoman arbeitete unter anderem auch ein Team aus Salerno an der Energieeffizienz. Die Innsbrucker Arbeit ist am Ende nicht nur für Pharma-Anwendungen interessant: "Unser Teil war Grundlagenarbeit. Praktisch alles, was wir in dem Bereich der Optimierung gemacht haben, haben wir nicht nur mit der konkreten Medizinanwendung getestet, sondern auch mit anderen Anwendungen." Das LIGATE-Projekt ist inzwischen abgeschlossen, Peter Thoman arbeitet allerdings im von der FFG geförderten Projekt UMUGUC an der Effizienzsteigerung von Hochleistungs-Rechenoperationen weiter.