Detailseite
Entstehung von abstrakten Repräsentationen in kontextualisierten multimodalen Modellen
Antragstellerin
Professorin Dr. Gemma Roig
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Kognitive und systemische Humanneurowissenschaften
Kognitive und systemische Humanneurowissenschaften
Förderung
Förderung seit 2022
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 459426179
Abstrakte Darstellungen in KI-Modellen und im Gehirn können auf verschiedenen Ebenen definiert werden. Auf einer niedrigen Ebene gibt es Repräsentationen, die Abstraktionen von einer Wahrnehmungsvariablen sind (z. B. der Blickwinkel bei visuellen Objekten). Höhere Abstraktionsebenen werden als Repräsentationen definiert, die die Bedeutung unabhängig von der Eingangsmodalität (z. B. Sehen oder Hören) charakterisieren. Solche Repräsentationen können auch durch Kontextinformationen geprägt sein, die zusätzlich zu dem isolierten Konzept wahrgenommen werden. So können sich beispielsweise ein Geräusch und ein visuelles Objekt auf dasselbe Konzept beziehen, und der Kontext, in dem es wahrgenommen wird, kann seine abstrakte Repräsentation bestimmen. Wenn man zum Beispiel das Geräusch eines bellenden Hundes hört oder den Hund selbst sieht, ist beides mit dem "Hundekonzept" verbunden. Auch wenn man jemanden über einen Hund sprechen hört oder eine Hundehütte sieht, kann dies die Vorstellung von einem Hund hervorrufen. In diesem Projekt werden wir uns auf eine höhere Abstraktionsebene konzentrieren, die unabhängig von der Eingabemodalität ist und kontextbezogene Informationen verwendet. Als Grundlage werden wir künstliche neuronale Netze (KNN) verwenden, da es sich dabei um hierarchische Modelle handelt, die ursprünglich vom visuellen Kortex inspiriert wurden. Darüber hinaus sind KNN der Stand der Technik für verschiedene KI-Anwendungen, wie z. B. die Klassifizierung von Objekten in Bildern und die Natürliche Sprachverarbeitung. Wir werden neue multimodale DNNs entwickeln, die die verschiedenen, gleichzeitig auftretenden Eingangsmodalitäten nutzen, und dabei zunächst die rechnerischen Fragen angehen: Wie lernen KI-Modelle, insbesondere KNN-basierte Modelle, abstrakte Konzepte der Semantik, unabhängig von der Eingabemodalität? Welche Rolle spielen kontextuelle Informationen? Welche rechnerischen Vorteile (Dateneffizienz während des Lernens, Robustheit gegenüber Eingabeänderungen und Rauschen) haben multimodale Modelle, die abstrakte Repräsentationen lernen, im Vergleich zu unimodalen Modellen? Dann werden wir die neu entwickelten Modelle anpassen und einsetzen, um die menschlichen Daten zu erklären, die in den anderen Projekten der ARENA-Forschungseinheit gesammelt wurden, um die Beziehungen zwischen den abstrakten Repräsentationen in den Modellen und den menschlichen Daten zu verstehen und somit die Gehirnrepräsentationen mithilfe der Modelle zu charakterisieren. Insgesamt wird die ARENA-Forschungseinheit die Untersuchung abstrakter Repräsentationen in KI-Modellen und im Gehirn mit einer synergetisch engen Zusammenarbeit zwischen allen Projekten ermöglichen, um Wissen in KI, Neurowissenschaften und kognitiven Neurowissenschaften zu überbrücken.
DFG-Verfahren
Forschungsgruppen