Saarbrücken, 08. Mai 2025 - Künstliche Intelligenz (KI) ist nur so gut wie die Daten, auf denen sie entwickelt und getestet wird – und gerade in der Gesundheitsforschung ist es entscheidend, wie gut ein Modell unter schwierigen Bedingungen abschneidet. Um die Leistungsfähigkeit von KI-Modellen besser bewerten zu können, haben Forschende am Helmholtz-Institut für Pharmazeutische Forschung Saarland (HIPS) gemeinsam mit Partnern der Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU) das neue Tool DataSAIL entwickelt. Es bringt einen innovativen Ansatz für das sogenannte Data-Splitting mit und setzt damit neue Maßstäbe in einem zentralen Schritt der KI-Entwicklung. Ihre Arbeit veröffentlichten die Forschenden in der Fachzeitschrift Nature Communications.
Für den Aufbau und die Prüfung von KI-Modellen werden große Datenmengen benötigt. Diese werden in der Regel in zwei Teile aufgeteilt: Trainingsdaten, mit denen das Modell lernt, und Testdaten, mit denen es später überprüft wird. Damit das Testergebnis aussagekräftig ist, müssen die Testdaten möglichst realistische Einsatzszenarien abbilden. Sind sie den Trainingsdaten zu ähnlich, fällt der Test oft zu optimistisch aus. Sind sie hingegen stark davon abweichend, kann es passieren, dass das Modell scheitert, obwohl es für den eigentlichen Anwendungsfall geeignet wäre. Die Herausforderung besteht also darin, die Daten sinnvoll und möglichst gezielt zu trennen. In einer neuen Studie zeigen Prof. Olga Kalinina, Leiterin der Gruppe Wirkstoffbioinformatik am HIPS und ihr Doktorand Roman Joeres zusammen mit dem Erlanger Professor David Blumenthal, dass die Aufgabe, möglichst unterschiedliche Testdaten zu erzeugen, mathematisch zu den besonders komplexen Problemen zählt. Trotzdem ist es ihnen gelungen, das Softwaretool DataSAIL zu entwickeln: ein neues Werkzeug, das das Data-Splitting als Optimierungsproblem beschreibt und effizient löst. Diese Methode ermöglicht es, gezielt Testdaten zu erzeugen, die unterschiedliche Anforderungsniveaus abdecken – von einfach bis herausfordernd.
DataSAIL setzt dabei gleich in mehreren Bereichen neue Maßstäbe. Zum einen ist es das erste Tool, das diese Strategie der datengetriebenen Aufteilung auf beliebige Datentypen überträgt – und nicht nur, wie bisher üblich, auf biologische Daten. Zum anderen kann DataSAIL auch sogenannte Interaktionsdaten automatisiert aufteilen. Dabei handelt es sich um Datensätze, bei denen Beziehungen zwischen zwei verschiedenen Typen, etwa zwischen Medikamenten und Zielproteinen, berücksichtigt werden müssen. Hier achtet das Tool darauf, Ähnlichkeiten auf beiden Seiten angemessen in die Aufteilung einzubeziehen. Darüber hinaus ermöglicht DataSAIL, dass bestimmte Eigenschaften – wie beispielsweise das Verhältnis von weiblichen und männlichen Datenpunkten – in Trainings- und Testdaten ähnlich verteilt bleiben. Dies ist entscheidend, um zu verhindern, dass ein Modell unbeabsichtigt für eine Gruppe bessere Ergebnisse liefert als für eine andere.
In ihren Tests konnten die Forschenden zeigen, dass DataSAIL schwierigere – und damit realistischere – Datensplits erzeugt als bisherige Methoden. Dadurch können KI-Modelle besser auf ihre Leistungsfähigkeit unter echten, herausfordernden Bedingungen geprüft werden. „Mit DataSAIL haben wir ein Werkzeug entwickelt, das es erstmals erlaubt, Testdaten gezielt so auszuwählen, dass die Grenzen eines Modells sichtbar werden“, erklärt Joeres. „Nur wenn wir verstehen, wo ein Modell an seine Grenzen stößt, können wir es wirklich verbessern.“
Kalinina betont die Bedeutung robuster Tests für den praktischen Einsatz von KI: „Verlässliche KI-Modelle entstehen nicht allein durch bessere Trainingsmethoden, sondern auch durch realistische Testszenarien. DataSAIL liefert dafür eine wichtige Grundlage – nicht nur für Anwendungen in der Bioinformatik, sondern in vielen Bereichen, in denen KI eingesetzt wird.“ In Zukunft wollen die Forschenden DataSAIL weiterentwickeln: Das Tool soll schneller werden und noch genauer auf verschiedene Anwendungsszenarien angepasst werden können.
Originalpublikation:
Joeres, R., Blumenthal, D.B. & Kalinina, O.V. Data splitting to avoid information leakage with DataSAIL. Nat Commun 16, 3337 (2025). DOI: 10.1038/s41467-025-58606-8