Detailseite
Lernen konvexer Datenräume für die Generierung synthetischer klinischer tabularer Daten
Antragsteller
Professor Dr. Olaf Wolkenhauer
Fachliche Zuordnung
Medizininformatik und medizinische Bioinformatik
Förderung
Förderung seit 2022
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 515800538
Die Generierung synthetischer Daten gewinnt in der biomedizinischen Forschung zunehmend an Bedeutung: Personalisierung, Unterrepräsentation von Gruppen in klinischen Studien, Datenschutz, der die gemeinsame Nutzung von Daten durch verschiedene Einrichtungen behindert usw. Die Erzeugung synthetischer Daten mit Hilfe tiefer generativer Netze für medizinische Bilder ist ein boomendes Forschungsgebiet. Bei Bilddatensätzen besteht ein Vorteil, weil man die Qualität der Bilder leicht beurteilen kann. In den biomedizinischen Wissenschaften sind jedoch tabellarische Datensätze eine sehr verbreitete Art der Speicherung von Patientendaten, und für solche Daten ist der Vorteil der visuellen Wahrnehmung begrenzt. Seit 2017 konzentrieren sich Forscher auf die Entwicklung tiefer generativer Modelle für tabellarische Datensätze. In den letzten drei Jahren haben wir Expertise in der Generierung tabellarischer synthetischer Daten entwickelt, um das Problem der unausgewogenen Klassifizierung zu lösen. Wir haben mehrere Algorithmen entwickelt und ihre Anwendbarkeit auf biologische Probleme wie die Annotation seltener Zellen aus Einzelzell-Transkriptomikdaten getestet. Aus unseren Studien ging die Idee des „convex sapce learning“ hervor, dessen theoretische Grundlagen ebenfalls in unseren Studien erforscht wurden. Mit unserem neuesten konvexen Lernmodell ConvGeN konnten wir die Klassifizierung von tabellarischen, unausgewogenen Datensätzen durch die Erzeugung synthetischer Proben verbessern, verglichen mit den modernsten tiefen generativen Algorithmen, die für tabellarische Datensätze entwickelt wurden. Synthetische Stichproben, die mit ConvGeN generiert werden, können sich merkmalsweisen statistischen Verteilungen besser annähern als bestehende tief generative Algorithmen für tabellarische Datensätze, da die synthetischen Stichproben von ConvGeN merkmalsweise Mittelwerte in tabellarischen Daten fixieren, während sie geeignete merkmalsweise Momente höherer Ordnung in einer nicht-linearen iterativen Weise lernen. Wir möchten hier unser Modell ConvGeN so erweitern, dass es synthetische Tabellendaten außerhalb des Kontextes von Datenungleichgewichten erzeugen kann. Darüber hinaus schlagen wir vor, die potenzielle Verwendung der synthetischen Daten, die mit Hilfe des konvexen Raumlernens erzeugt wurden, für verschiedene Anwendungen des maschinellen Lernens im klinischen Bereich zu untersuchen, z.B. Patientenstratifizierung, Klassifizierung, Regressionsprobleme usw. Ziel ist es, festzustellen, ob ein gegebener Arbeitsablauf des maschinellen Lernens, der die Erzeugung synthetischer Daten einschließt, eine ähnlich gute Leistung erbringen kann wie die Verwendung echter Daten, z. B. bei der Patientenstratifizierung. Schließlich schlagen wir vor, den entwickelten Algorithmus für die Generierung synthetischer Proben in realen klinischen Problemen einzusetzen, um Probleme wie die Wahrung der Privatsphäre in Zusammenarbeit mit unseren klinischen Partnern zu lösen.
DFG-Verfahren
Sachbeihilfen