Themenauswahl
Imputer für erklärbare KI
Da Modelle des maschinellen Lernens immer komplexer werden und zunehmend Verbreitung finden, ist interpretierbares maschinelles Lernen (IML) unerlässlich, um Transparenz, Vertrauen und Verantwortlichkeit zu gewährleisten. Viele IML-Methoden – wie SHAP und andere Shapley-basierte Techniken – stützen sich auf Imputationsstrategien, um den Einfluss einzelner Merkmale zu schätzen. Dazu gehören einfache Baselines, marginale Imputationen, die Merkmale unabhängig voneinander behandeln, und fortgeschrittenere bedingte Imputationen, die Abhängigkeiten zwischen Merkmalen erhalten.
SHAP-IQ (Shapley Interaction Quantification) ist eine Python-Bibliothek, die die Shapley-basierte Attribution auf Merkmalsinteraktionen ausweitet und es Benutzern ermöglicht, nicht nur die individuellen Auswirkungen von Merkmalen zu quantifizieren, sondern auch, wie diese bei der Erstellung von Modellvorhersagen zusammenwirken. SHAP-IQ unterstützt zwar sowohl Basis- als auch marginale Imputationen für tabellarische Daten, seine Anwendbarkeit auf komplexere Bereiche wie Bilder, Text oder Zeitreihen ist jedoch durch den Mangel an robusten, universell einsetzbaren Imputationswerkzeugen eingeschränkt.
Derzeit gibt es nur eine Handvoll Imputatoren für verschiedene Datentypen und Erklärungsmethoden, deren Qualität oft uneinheitlich ist – und kein einheitlicher Imputator unterstützt alle wichtigen Anwendungsfälle. Diese Fragmentierung verlangsamt den Fortschritt und schränkt die Zuverlässigkeit von IML in der Praxis ein.
Um dem entgegenzuwirken, organisieren wir in Zusammenarbeit mit der LMU München einen Hackathon, der sich auf die Entwicklung hochwertiger, erweiterbarer Imputationsmodule für SHAP-IQ konzentriert. Ziel ist es, die Unterstützung für Basis-, marginale und bedingte Imputationen – einschließlich strukturierter Eingaben und Merkmalsgruppierungen – zu verbessern und so die Lücke zwischen Theorie und Praxis zu schließen. Die Teilnehmer werden direkt mit den Entwicklern von SHAP-IQ zusammenarbeiten und zu einem Projekt mit echter Forschungswirkung und starker praktischer Relevanz beitragen.
Schätzung der Lipschitz-Konstante für die Robustheit von Neuronalen Netzwerken gegenüber adversiale Angriffen
Intuitiv misst die Lipschitz-Konstante, wie stark sich die Ausgabe einer Funktion als Reaktion auf Änderungen ihrer Eingabe verändern kann. Im maschinellen Lernen spielen Lipschitz-Konstanten in mehreren Zusammenhängen eine entscheidende Rolle: Sie können zur Quantifizierung der Stabilität und Generalisierung von Lernalgorithmen verwendet werden, indem sie sicherstellen, dass kleine Änderungen in den Eingabedaten keine unverhältnismäßigen Änderungen in den Vorhersagen verursachen; sie dienen als Werkzeug zur Regularisierung, wobei die Durchsetzung einer Lipschitz-Beschränkung das Training stabilisiert; schließlich bietet die Begrenzung der Lipschitz-Konstante eines neuronalen Netzwerks Schutz vor adversarialen Störungen. Dieses Konzept steht daher an einer interessanten Schnittstelle zwischen theoretischer Grundlage und praktischem Nutzen. Seine Verbreitung ist jedoch derzeit durch die Vielzahl unterschiedlicher Approximationsansätze in Verbindung mit einem Mangel an leicht verfügbaren Implementierungen zur Schätzung der Lipschitz-Konstante eines bestimmten Netzwerks begrenzt. In diesem Projekt werden wir ein Python-Paket mit einer solchen gebrauchsfertigen Implementierung eines (oder mehrerer) Algorithmus(en) zur Schätzung der Lipschitz-Konstante entwickeln. Das Paket sollte mit einer Vielzahl gängiger Deep-Learning-Architekturen kompatibel sein, die in branchenüblichen Bibliotheken wie PyTorch implementiert sind.
Invariantes und Faires Repräsentationslernen
Eine Möglichkeit, die Herausforderungen kleiner Datensätze oder kleiner Subpopulationen im Machine Learning zu adressieren, besteht darin, relevantes Vorwissen in die Modellarchitektur oder den Trainingsprozess zu integrieren. Ein prominenter Ansatz hierfür ist das invariante Repräsentationslernen, bei dem das Modell – meist über ein adversariales Trainingsverfahren – dazu gezwungen wird, eine latente Repräsentation zu erlernen, die invariant, also identisch, über verschiedene Werte einer Störvariable hinweg ist. Solche Störvariablen können zum Beispiel das Geschlecht oder die ethnische Zugehörigkeit eines Patienten, technische Aufnahmeparameter oder andere Faktoren sein, die für die jeweilige medizinische Vorhersageaufgabe als irrelevant gelten. Der Entwickler kodiert damit explizit das Vorwissen, dass dieser Faktor für die Vorhersage keine Rolle spielen soll, in den Trainingsprozess.
Allerdings leiden solche adversarialen Ansätze notorisch unter Trainingsinstabilität und Konvergenzproblemen und sind mit grundlegenden Einschränkungen und Nachteilen verbunden. Empirisch zeigen sie zudem oft nur begrenzten Erfolg.
In diesem Projekt wollen wir einen anderen, aber verwandten Ansatz untersuchen, um eine Form von (schwacher) Invarianz im latenten Raum zu erreichen. Die Methode basiert auf dem Triplet Loss, der häufig in kontrastiven Lernansätzen verwendet wird. Sie umgeht viele der Probleme adversarialer Verfahren, wurde jedoch bisher noch nicht im Bereich der medizinischen Bildanalyse evaluiert.
Das Ziel des Hackathons ist ein Proof-of-Concept anhand eines exemplarischen Anwendungsfalls in der Analyse von Thorax-Röntgenbildern: Funktioniert diese Methode (bzw. eine Variation davon) empirisch gut, und führt sie zu genaueren und robusteren Modellen? Die Implementierung erfolgt in PyTorch, wobei ein experimentelles Setup, Datensatz sowie Code für ein Baseline-Modell als Ausgangspunkt bereitgestellt werden. Bei Erfolg können die Ergebnisse des Hackathons in einer gemeinsamen Veröffentlichung der Erkenntnisse (und des Codes) münden.
Anmeldevorraussetzung
Wir gehen davon aus, dass Sie einen Master- oder Doktorgrad in Informatik, Mathematik oder verwandten Fachbereichen anstreben. Sie sollten mit maschinellem Lernen und den damit verbundenen Statistiken vertraut sein und über fundierte theoretische und praktische Grundkenntnisse verfügen. Wenn Sie ein oder zwei ML-Vorlesungen auf Master-Niveau besucht oder bereits an einem praktischen Projekt in diesem Bereich gearbeitet haben, sind Sie hier genau richtig!
Noch Fragen? Wenden Sie sich gerne per E-Mail an Prof. Dr. Klaus Eickel oder Dr. Felix Putze.

Prof. Dr. Klaus Eickel
Medizininformatik Fraunhofer MEVIS & Hochschule Bremerhaven
Mehr Informationen
Kontakt
klaus.eickel@mevis.fraunhofer.de












