Detailseite
Diffusionsbasierte tiefe generative Modelle für die Sprachverarbeitung
Antragsteller
Professor Dr.-Ing. Timo Gerkmann
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung seit 2024
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 545210893
In jüngster Zeit hat ein neuartiger und sehr spannender generativer Ansatz des maschinellen Lernens zunehmendes Interesse in den Bereichen maschinelles Lernen, Computer Vision und Sprachverarbeitung geweckt: Diffusionsbasierte generative Modelle, auch einfach Diffusionsmodelle genannt. Diese Modelle basieren auf der Idee, Daten allmählich in Rauschen umzuwandeln (Vorwärtsdiffusionsprozess) und ein neuronales Netz zu trainieren, das lernt, diesen Prozess für verschiedene Rauschstufen umzukehren (Rückwärtsdiffusionsprozess). Die Vorwärts- und Rückwärtsdiffusionsprozesse wurden entweder mit Markov-Ketten oder stochastischen Differentialgleichungen (SDEs) modelliert. Wir haben kürzlich vorgeschlagen, SDE-basierte Diffusionsmodelle für die Sprachanhebung zu verwenden, indem wir einen Driftterm integriert haben, der es ermöglicht, während des Trainings auch Aufnahmen von echten Umgebungsgeräuschen zu berücksichtigen. Wir haben gezeigt, dass dieser generative Ansatz sehr leistungsfähig ist und konkurrierende diskriminative Ansätze in Cross-Corpora-Evaluierungen übertrifft, was eine sehr gute Generalisierbarkeit unterstreicht. Es gibt jedoch noch viele offene Fragen, die wir in diesem Projekt angehen wollen. Unser Ziel ist es, Diffusionsmodelle durch eine Reduzierung des Speicher- und Rechenaufwands echtzeitfähig zu machen, und zwar mit nur geringer Latenz. Darüber hinaus werden wir neue Methoden untersuchen, um die Robustheit von Diffusionsmodellen in schwierigen akustischen Szenarien zu erhöhen.
DFG-Verfahren
Sachbeihilfen