Detailseite
Silent Paralinguistics
Antragstellerinnen / Antragsteller
Professor Dr.-Ing. Björn Schuller; Professorin Dr.-Ing. Tanja Schultz
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung seit 2023
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 514018165
Sprache ist eine natürliche menschliche Fähigkeit, die uns zu einer sozialen Spezies macht. Gesichtsmasken verbergen die Lippen beim Sprechen und erschweren damit nicht nur die Wahrnehmung, sondern vermindern auch die Hörleistung und das Selbstvertrauen der Zuhörer. Besonders betroffen sind Hörgeschädigte und Nicht-Muttersprachlerinnen. Masken behindern außerdem die Paralinguistik der zwischenmenschlichen Kommunikation, also die Art und Weise, wie etwas gesagt wird. Mittels Computational Paralinguistics kann Paralinguistik aus hörbarer Sprache automatisch erkannt werden. Silent Speech Interfaces (SSIs) ermöglichen Kommunikation auch dann, wenn das Sprachsignal beeinträchtigt oder nicht verfügbar ist. SSIs erzeugen hörbare Sprache für lautlose oder stumme Sprecherinnen aus Biosignalen, die aus der Sprachproduktion selbst resultieren. Diese sprachbezogenen Biosignale umfassen Signale von Artikulatoren, Artikulationsmuskeln, Nervenbahnen und dem Gehirn selbst. Für SSIs wurde Oberflächen-Elektromyographie (EMG) erfolgreich eingesetzt, die Aktivitäten der Artikulationsmuskeln aufgezeichnet. EMG-basierte SSIs wandelt lautlose Sprache in Text oder direkt in hörbare Sprache um. Trotz großer Fortschritte bleibt das Fehlen paralinguistischer Informationen jedoch ein großes Problem für SSI-Benutzerinnen. In diesem Projekt werden Silent Speech Interfaces mit Computational Paralinguistics verknüpft, und damit der Grundstein der Silent Paralinguistics (SP) gelegt. SP zielt darauf ab, aus lautloser Sprache Sprecherzustände und -eigenschaften abzuleiten und diese Informationen anschließend für eine natürlichere SSI-basierte zwischenmenschliche Konversation einzusetzen. Wir werden Höflichkeit und Frustration als Sprecherzustände sowie Identität und Persönlichkeit als Sprechereigenschaften untersuchen. Als Grundlage für die Entwicklung von SP-Methoden werden wir Sprachdaten von 100 Teilnehmern aufzeichnen und annotieren. Durch geeignete Spieleszenarien werden die Teilnehmer dazu gebracht, höflich oder frustriert zu sprechen. Anhand dieser Daten soll untersucht werden, wie gut Zustände und Eigenschaften aus EMG-Signalen lautloser Sprache vorhergesagt werden können. Dazu implementieren und vergleichen wir zwei Ansätze: direkte SP, die Zustände und Eigenschaften direkt aus EMG-Merkmalen vorhersagt, und indirekte SP, die zuerst EMG in akustische Merkmale umwandelt und dann Zustände und Eigenschaften aus den akustischen Merkmalen vorhersagt. Außerdem integrieren wir paralinguistische Vorhersagen in SSI, um das Sprachsignal mit paralinguistischen Informationen anzureichern. Tiefe generative Modelle für die EMG-zu-Sprache-Konvertierung werden so konditioniert, dass die generierten akustischen Sprachsignale die beabsichtigte affektive Bedeutung widerspiegeln. Ein EMG-SSI-Prototyp wird etabliert, um abschließend zu validieren, ob das SP-aufgewertete Sprachsignal die Benutzbarkeit der Sprachkommunikation in Bezug auf Natürlichkeit und Benutzerakzeptanz verbessert.
DFG-Verfahren
Sachbeihilfen