Automatische Transkription von Gesprächssituationen

Antragsteller Professor Dr.-Ing. Reinhold Häb-Umbach; Privatdozent Dr. Ralf Schlüter

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Kommunikationstechnik und -netze, Hochfrequenztechnik und photonische Systeme, Signalverarbeitung und maschinelles Lernen für die Informationstechnik

Förderung Förderung von 2021 bis 2024

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 448568305

Projektbeschreibung

Das Projekt befasst sich mit der maschinenlesbaren Verschriftung von Gesprächssituationen unter Verwendung von Raummikrofonen, seien es professionelle Besprechungen oder lockere Treffen unter Freunden. Derzeitige technische Lösungen erreichen bei weitem nicht die Erkennungsleistung eines Menschen. Dies hat vornehmlich drei Gründe: Zum einen ist die Signalqualität aufgrund von Raumhall und anderen häufig nichtstationären Geräuschquellen im Raum schlecht. Weiterhin fallen sich gerade bei informellen Gesprächssituationen die Personen häufig ins Wort, und in einem signifikanten Anteil der Zeit sprechen mehr als ein Sprecher gleichzeitig. Schließlich ist es die Dynamik einer Gesprächssituation, die Probleme bereitet, da sich Segmente von Stille, Aktivität von einem oder gleichzeitig mehreren Sprechern abwechseln. Ein Transkriptionssystem sollte auf beliebig langen Eingangssignalen arbeiten können, Situationen mit keinem, einem oder mehreren Sprechern korrekt behandeln können und die Verschriftung der Äußerungen unterschiedlicher Sprecher konsistent separaten Ausgaben zuordnen können. Existierende Lösungen bestehen aus mehr oder weniger unabhängig entwickelten Komponenten für die Segmentierung der Daten in homogene Blöcke, für die Sprechertrennung und schließlich für die Erkennung. Wir sind überzeugt, dass eine signifikante Leistungssteigerung möglich ist, wenn diese Aufgaben unter einem einheitlichen Optimierungskriterium gemeinsam betrachtet werden. Ziel dieses Projektes ist es, eine solche kohärente Formulierung zu entwickeln. Wir entwickeln Verfahren zur Verschriftung von Gesprächen, bei denen die Anzahl der aktiven Sprecher und das Maß an Sprecherüberlapp vorab unbekannt und zeitveränderlich sind. Die Algorithmen zur Bestimmung, wer wann spricht, zur Sprechertrennung und Signalverbesserung, und schließlich zur Erkennung werden unter einer einheitlichen Zielfunktion hergeleitet, um schließlich ein gemeinsames "Ende-zu-Ende" Training aller Komponenten zu ermöglichen. Wir streben auch eine "Ende-zu-Ende" Erkennung an, um vorläufige Entscheidungen, bei denen nicht alle Wissensquellen berücksichtigt wurden, zu vermeiden. Dabei werden unterschiedliche (gänzlich neuronale, hybride, kaskadierte, integrierte) Architekturen betrachtet. Die entwickelten Verfahren werden bezüglich der erreichbaren Erkennungsgenauigkeit, aber auch bezüglich der Interpretierbarkeit der Teilkomponenten und der Handhabbarkeit bewertet.

DFG-Verfahren Sachbeihilfen

Servicenavigation

Hauptnavigation

Automatische Transkription von Gesprächssituationen

Zusatzinformationen

Servicenavigation

Hauptnavigation

Automatische Transkription von Gesprächssituationen

Zusatzinformationen

Textvergrößerung und Kontrastanpassung