Phonetische Konvergenz in der Mensch-Maschine-Kommunikation
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Zusammenfassung der Projektergebnisse
Ziel des Projekts war die Analyse, Quantifizierung, Modellierung und Evaluierung der phonetischen Konvergenz in der Mensch-Maschine-Kommunikation. Phonetische Konvergenz ist definiert als eine Zunahme der segmentalen und suprasegmentalen Ähnlichkeit zwischen Äußerungen zweier Konversationspartner, vermutlich basierend auf spontaner phonetischer Übernahme lautsprachlicher Charakteristika des Konversationspartners. Das Projekt baut auf der aktuellen Forschung zur Konvergenz in der sprachlichen Kommunikation auf und entwickelt ein quantitatives Modell der phonetischen Konvergenz in der lautsprachlichen Mensch-Maschine-Kommunikation und ihrer Anwendung in simulierten Sprachdialogsystemen und hier speziell deren Sprachsynthesekomponente. Daraus ergeben sich Implikationen für das Design von konversationellen Schnittstellen in der Sprachtechnologie. Die Ergebnisse der experimentellen Projektarbeiten zeigen, dass Probanden Muster der phonetischen Konvergenz aufweisen, wenn sie mit synthetischen Stimmen interagieren. Die Konvergenzmuster entsprechen quantitativ und qualitativ denjenigen, die in Konversationen zwischen Menschen beobachtet werden. Im Projekt wurde ein adaptives Dialogsystem implementiert und evaluiert, dessen Sprachausgabe konvergierendes Verhalten simuliert, wie es in menschlichen Konversationen beobachtet wurde. Ein besseres Verständnis der sprachlichen Konvergenzphänomene auf akustisch-prosodischer, temporaler und spektraler Ebene kann die Leistungsfähigkeit aktueller Sprachdialogsysteme weiter verbessern und zu einer geschmeidigeren Mensch-Maschine-Kommunikation führen.
Projektbezogene Publikationen (Auswahl)
-
A Computational Model for Phonetically Responsive Spoken Dialogue Systems. Interspeech 2017, 884-888. ISCA.
Raveh, Eran; Steiner, Ingmar & Möbius, Bernd
-
Shadowing Synthesized Speech — Segmental Analysis of Phonetic Convergence. Interspeech 2017, 3797-3801. ISCA.
Gessinger, Iona; Raveh, Eran; Le Maguer, Sébastien; Möbius, Bernd & Steiner, Ingmar
-
Convergence of Pitch Accents in a Shadowing Task. Speech Prosody 2018, 225-229. ISCA.
Gessinger, Iona; Schweitzer, Antje; Andreeva, Bistra; Raveh, Eran; Möbius, Bernd & Steiner, Ingmar
-
Studying Mutual Phonetic Influence with a Web-Based Spoken Dialogue System. Lecture Notes in Computer Science, 552-562. Springer International Publishing.
Raveh, Eran; Steiner, Ingmar; Gessinger, Iona & Möbius, Bernd
-
A Wizard-of-Oz experiment to study phonetic accommodation in human-computer interaction. In: 19th International Congress of Phonetic Sciences, S. 1475–1479
I. Gessinger, B. Möbius, N. Fakhar, E. Raveh & I. Steiner
-
Comparing phonetic changes in computer-directed and human-directed speech. In: Elektronische Sprachsignalverarbeitung 2019, Tagungsband der 30. Konferenz (Dresden), S. 42–49
E. Raveh, I. Steiner, I. Siegert, I. Gessinger & B. Möbius
-
Three’s a Crowd? Effects of a Second Human on Vocal Accommodation with a Voice Assistant. Interspeech 2019, 4005-4009. ISCA.
Raveh, Eran; Siegert, Ingo; Steiner, Ingmar; Gessinger, Iona & Möbius, Bernd
-
Differences in Gradient Emotion Perception: Human vs. Alexa Voices. Interspeech 2020, 1818-1822. ISCA.
Cohn, Michelle; Raveh, Eran; Predeck, Kristin; Gessinger, Iona; Möbius, Bernd & Zellou, Georgia
-
Phonetic Accommodation of L2 German Speakers to the Virtual Language Learning Tutor Mirabella. Interspeech 2020, 4118-4122. ISCA.
Gessinger, Iona; Möbius, Bernd; Andreeva, Bistra; Raveh, Eran & Steiner, Ingmar
-
Phonetic accommodation in interaction with a virtual language learning tutor: A Wizard-of-Oz study. Journal of Phonetics, 86, 101029.
Gessinger, Iona; Möbius, Bernd; Le Maguer, Sébastien; Raveh, Eran & Steiner, Ingmar
-
Phonetic accommodation to natural and synthetic voices: Behavior of groups and individuals in speech shadowing. Speech Communication, 127, 43-63.
Gessinger, Iona; Raveh, Eran; Steiner, Ingmar & Möbius, Bernd
-
Cross-Cultural Comparison of Gradient Emotion Perception: Human vs. Alexa TTS Voices. Interspeech 2022, 4970-4974. ISCA.
Gessinger, Iona; Cohn, Michelle; Zellou, Georgia & Möbius, Bernd
