Detailseite
Projekt Druckansicht

Diffusionsbasierte tiefe generative Modelle für die Sprachverarbeitung

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung seit 2024
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 545210893
 
In jüngster Zeit hat ein neuartiger und sehr spannender generativer Ansatz des maschinellen Lernens zunehmendes Interesse in den Bereichen maschinelles Lernen, Computer Vision und Sprachverarbeitung geweckt: Diffusionsbasierte generative Modelle, auch einfach Diffusionsmodelle genannt. Diese Modelle basieren auf der Idee, Daten allmählich in Rauschen umzuwandeln (Vorwärtsdiffusionsprozess) und ein neuronales Netz zu trainieren, das lernt, diesen Prozess für verschiedene Rauschstufen umzukehren (Rückwärtsdiffusionsprozess). Die Vorwärts- und Rückwärtsdiffusionsprozesse wurden entweder mit Markov-Ketten oder stochastischen Differentialgleichungen (SDEs) modelliert. Wir haben kürzlich vorgeschlagen, SDE-basierte Diffusionsmodelle für die Sprachanhebung zu verwenden, indem wir einen Driftterm integriert haben, der es ermöglicht, während des Trainings auch Aufnahmen von echten Umgebungsgeräuschen zu berücksichtigen. Wir haben gezeigt, dass dieser generative Ansatz sehr leistungsfähig ist und konkurrierende diskriminative Ansätze in Cross-Corpora-Evaluierungen übertrifft, was eine sehr gute Generalisierbarkeit unterstreicht. Es gibt jedoch noch viele offene Fragen, die wir in diesem Projekt angehen wollen. Unser Ziel ist es, Diffusionsmodelle durch eine Reduzierung des Speicher- und Rechenaufwands echtzeitfähig zu machen, und zwar mit nur geringer Latenz. Darüber hinaus werden wir neue Methoden untersuchen, um die Robustheit von Diffusionsmodellen in schwierigen akustischen Szenarien zu erhöhen.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung