Detailseite
Visuelle Erklärungen für statistische Tests und statistische Tests für visuelle Erklärungen mit Anwendung auf die genetische Analyse von Bildgebungsphänotypen
Antragsteller
Professor Dr. Christoph Lippert; Professor Dr. Wojciech Samek
Fachliche Zuordnung
Medizininformatik und medizinische Bioinformatik
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Statistik und Ökonometrie
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Statistik und Ökonometrie
Förderung
Förderung seit 2022
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 459422098
Vor kurzem wurde die Fähigkeit tiefer neuronaler Netze, relevante Informationen aus Daten zu extrahieren, in statistischen Tests auf Unterschiede in der Verteilung zweier Mengen potenziell nicht-tabellarischer Beobachtungen nutzbar gemacht (Kirchler et al., 2020). Während Tests basierend auf Deep Learning hohe Power bei der Detektion von Unterschieden auf Populationsebene zwischen den beiden Beobachtungsmengen (z.B. Bilder) erzielen, sagen sie noch nicht aus, in welchen Merkmalen (z.B. Pixel) sich diese Populationen unterscheiden. Dieser Blackbox-Charakter ist beispielsweise hinderlich in biomedizinischen Anwendungen, bei denen wir Merkmale identifizieren möchten, die mit Trägern und Nichtträgern genetischer Mutationen assoziiert sind. Erklärbare KI-Methoden bieten einen anderen Ansatz zur Identifizierung interessanter Merkmale, indem sie die Vorhersagen überwachter Deep-Learning-Modelle verwenden, um Merkmale der jeweiligen Beobachtungen hervorzuheben, die für die Vorhersage entscheidend waren. Obwohl erklärbare KI-Methoden also Aussagen für einzelne Beobachtungen treffen, liefern sie nur begrenzte Informationen auf Populationsebene.Ein Ziel dieses Projekts ist es, erklärbare KI-Methoden für statistische Tests zu entwickeln, einschließlich des oben erwähnten, auf Deep Learning basierten, Zwei-Stichproben-Tests. Dazu werden wir die Layer-wise Relevance Propagation (Bach et al., 2015) anpassen, um visuelle Erklärungen für Unterschiede im Deep-Learning-Repräsentationsraum auf Populationsebene zu liefern. Diese Methoden werden es ermöglichen, statistische Testergebnisse zu verstehen und zu verifizieren und z.B. Unterschiede zwischen Populationen zu visualisieren. Wir werden diese Erklärungsmethoden auf Deep-Learning-basierte bedingte Unabhängigkeitstests ausweiten, die auf (Un-)Abhängigkeit zwischen einer strukturierten Variablen (z.B. Bild) und einer skalaren Variablen (z.B. genetischer Score) testen, wenn sie auf Kovariaten und Störfaktoren bedingt werden. Wir werden unsere Erklärungsmethoden auf eine genetische Analyse von Bildphänotypen (z.B. MRT- oder Augenfundusbilder) anwenden, um potenziell vererbbare Muster sichtbar zu machen. Ein zweites Ziel ist die Entwicklung statistischer Verfahren, wie beispielsweise statistische Tests, für die Analyse von KI-Erklärungen, die durch Layer-wise Relevance Propagation berechnet wurden. Während die von Samek mitentwickelte Spektrale Relevanzanalyse (Lapuschkin et al., 2019), prototypische Erklärungen aus einer Menge individueller Erklärungs-Heatmaps durch Clustering erzeugt, und somit einen ersten Schritt zur populationsweiten Analyse darstellt, werden wir statistische Methoden nutzen, um Heatmaps zu analysieren. Mit diesen können wir beispielsweise testen, ob ein Modell unterschiedliche Klassifizierungsstrategien auf verschiedene Gruppen anwendet (z.B. Männer und Frauen, Träger/Nicht-Träger genetischer Mutationen), oder ob bestimmte Erklärungsmuster mit dem Genotyp assoziiert sind.
DFG-Verfahren
Forschungsgruppen