Detailseite
Projekt Druckansicht

Wahrnehmung sozialer Merkmale von synthetischen Sprechern

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen
Förderung Förderung von 2019 bis 2023
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 423651352
 
Sprachsignale induzieren bei Hörern automatisch die Wahrnehmung sozialer Merkmale der Sprecher. Durch Anwendung akustischer Analysen und Signalmanipulationen ist bereits ein guter Forschungsstand zu akustischen Korrelaten sozialer Zuschreibungen erreicht worden, bspw. zu spektralen und prosodischen Parametern, wie auch zu Wahrnehmungsdimensionen von natürlicher Sprache. Allerdings fehlen vergleichbare Ergebnisse für synthetisierte Sprache, die mit dem Auftreten moderner Sprachsynthese-Paradigmen eine sehr hohe Qualität erreicht. Deshalb lautet die primäre Forschungsfrage: „Welche akustischen Merkmale synthetischer Sprache beeinflussen die Wahrnehmung sozialer Sprechermerkmale?“Um diese Frage zu beantworten werden in diesem Forschungsvorhaben zwei grundlegende soziale Zuschreibungen, Kompetenz und Wohlwollen, für Text-To-Speech (TTS) Synthesen in zwei potentiellen Anwendungsbereichen untersucht: Stimuli aus dem Gesundheitsbereich und dem Kundenservice. Resultate werden mit bestehenden Ergebnissen für natürliche Sprache aus Vorgängerprojekten verglichen. Es wird überprüft, ob Kompetenz und Wohlwollen auch als grundlegende soziale Zuschreibungen hervortreten, oder ob andere Dimensionen relevanter sind. Ähnlichkeiten und Unterschiede in akustischen Parametern und Ihren Systematiken werden identifiziert. Als Zwischenergebnis wird ein akustisches Vorhersagemodell für die identifizierten sozialen Dimensionen von synthetische Sprache entwickelt.Zur auditiven Analyse von Sprechereigenschaften werden zunächst Sprachstimuli mittels aktueller Synthesesysteme erzeugt, und die synthetisierten Signale systematisch manipuliert. Diese Stimuli werden dann in einem Crowdsourcing-Verfahren durch Hörer bewertet. Auf Basis der Ergebnisse werden Ansätze vorgeschlagen, wie Sprechereigenschaften durch aktuelle Sprachsyntheseverfahren (basierend auf Hidden-Markov-Modellen oder tiefen neuronalen Netzen) direkt induziert werden können, ohne die synthetisierten Signale nachträglich zu manipulieren. Daraus ergibt sich die zweite Forschungsfrage: "Welche Modifikationen des Syntheseverfahrens führen zu positiven Sprecherzuschreibungen?" Zur Beantwortung dieser Frage werden auch aktuelle Verfahren der Sprechertransformation angewendet.Die Ergebnisse des Forschungsvorhabens liefern neben ihrem grundlegenden Erkenntnisgewinn auch praktische Hinweise für die Entwickler von Sprachsynthesen, wie synthetisierte Stimmen für bestimmte Domänen effizient verbessert werden können.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung