Detailseite
Interpretierbare neuronale Netze für die Analyse von Bildern und Videos (XIVA)
Antragstellerin
Dr. Simone Schaub-Meyer
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung seit 2024
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 529680848
Die jüngsten Entwicklungen im Bereich des Deep Learnings haben in vielen Gebieten der Computer Vision zu bedeutenden Fortschritten geführt. Diese Fortschritte werden jedoch meist an der Testgenauigkeit auf einem bestimmten Datensatz gemessen. Dies sagt meist noch nichts darüber aus, wie ein Modell auf seltene Eingaben reagiert oder wenn es in einem vom Trainingdatensatz abweichenden Szenario eingesetzt wird. Das Verhalten und den Entscheidungsprozess eines künstlichen neuronalen Netzes zu verstehen und Rückschlüsse auf die Robustheit und die Verallgemeinerungsfähigkeit zu ziehen, ist das Ziel der erklärbaren künstlichen Intelligenz (XAI). Das Projekt XIVA (eXplainable Image and Video Analysis) addressiert dies speziefisch im Bereich der Bild- und Videoanalyse durch die Entwicklung interpretierbarer Erklärungsmethoden für räumliche und räumlich-zeitliche Sehaufgaben, wie z.B. Bild-/Video-Segmentierung und Bewegungsschätzung, sowie der Nutzung der gewonnen Einsichten zur Verbesserung der Modelle selbst und deren Robustheit. Das Ziel von XAI ist es, Erklärungen zu erhalten, die von einem Menschen interpretierbar sind und gleichzeitig dem tatsächlichen Verhalten eines Modells entsprechen. Diese kann auf zwei Arten erreicht werden: 1) Durch die Bereitstellung von post-hoc Erklärungen eines existierenden Modells, entweder global oder lokal, nachdem es trainiert wurde. 2) Durch den Entwurf inhärent interpretierbarer Modelle, die von vornherein modelltreue Erklärungen liefern. Das Projekt XIVA trägt dazu bei, die Forschung im Bereich XAI für dichte Vorhersageaufgaben voranzutreiben. Dies geht klar über die meisten bestehenden XAI-Methoden hinaus, die sich hauptsächlich auf Klassifizierungsaufgaben konzentrieren. Wir werden dieses Ziel durch die Untersuchung und Entwicklung von Erklärungsmethoden speziell für räumliche und raum-zeitliche Aufgaben angehen, (i) durch die Analyse und Messung der ganzheitlichen Vorhersageleistung von Modellen mit neuartigen, vom Menschen interpretierbaren Metriken, um Erkenntnisse über ihre globalen Stärken und Schwächen zu gewinnen, (ii) durch die Entwicklung lokaler Attributionsmethoden, die räumliche und raum-zeitliche Entscheidungsprozesse verarbeiten und visualisieren können, (iii) indem wir uns auf die Realisierung inhärent interpretierbarer Modelle für dichte Vorhersageaufgaben konzentrieren, die intrinsisch besser geeignet sind, Erklärungen zu liefern und die Robustheit zu erhöhen, und (iv) schließlich, indem wir unsere entwickelten Ansätze mit geeigneten, neuartigen Datensätzen und Benchmarks evaluieren, um die Erklärbarkeit und Robustheit zu bewerten. Die Ausweitung von XAI auf dichte Sehaufgaben ist ein wesentlicher und notwendiger Schritt nach vorn, um das Verständnis für weit verbreitete Modelle in der Bild-und Videoanalyse zu erhöhen und deren Robustheit zu verbessern. Dies ist besonders wichtig für juristische oder sicherheitskritische Anwendungen, wie etwa im medizinischen Bereich oder beim autonomen Fahren.
DFG-Verfahren
Emmy Noether-Nachwuchsgruppen