Untersuchung der Geräuscherzeugung im dreidimensionalen, zeitlich veränderlichen Vokaltrakt

Antragsteller Professor Dr. Peter Birkholz

Fachliche Zuordnung Angewandte Sprachwissenschaften, Computerlinguistik
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing

Förderung Förderung seit 2025

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 572918001

Projektbeschreibung

Eines der Hauptprobleme bei der physikalisch basierten Sprachsynthese ist die Erzeugung realistischer Reibegeräusche, die entstehen, wenn Luft durch eine kritische Enge im Vokaltrakt strömt und turbulent wird. Die Gleichungen, die die aeroakustische Geräuscherzeugung beschreiben sind zwar gut bekannt, ihre dreidimensionale numerische Simulation ist jedoch für viele praktische Anwendungen zu langsam. Daher leiten die meisten praktischen Rauschquellenmodelle die akustischen Eigenschaften der Rauschquellen auf der Grundlage von wenigen relevanten eindimensionalen aerodynamischen und artikulatorischen Größen ab, z.B. dem Volumenstrom durch die Engstelle, dem Druckabfall über der Engstelle, und ihrer Querschnittsfläche. Diese Quellenmodelle gehen in der Regel davon aus, dass sich die aerodynamischen und artikulatorischen Größen quasi ohne Verzögerung auf die Geräuscheigenschaften auswirken. Einige Studien zeigen jedoch, dass diese Annahme nicht mehr gilt, wenn sich die artikulatorischen Randbedingungen schnell ändern, z. B. wenn die Phonation den Luftstrom bei stimmhaften Frikativen moduliert, oder unmittelbar nach der Verschlusslösung von Plosiven. Das vorgeschlagene Projekt zielt darauf ab, ein dynamisches Rauschquellenmodell zu entwickeln, das die Auswirkungen sich schnell ändernder Randbedingungen auf das erzeugte Reibegeräusch berücksichtigt. Darüber hinaus sollen die Auswirkungen anderer relevanter Faktoren auf das erzeugte Rauschen untersucht werden, z. B. der Querschnittsform der kritischen Engstelle, und der weichen Vokaltraktwände. Um diese Abhängigkeiten zu untersuchen, konstruieren wir ein mechatronisches Vokaltraktmodell und verwenden es für die Erzeugung einer großen Anzahl von Vokal-Konsonant-Vokal-Äußerungen. Das erlaubt es uns, die erzeugten Reibegeräusche während der Konsonanten mit den zeitveränderlichen artikulatorischen und aerodynamischen Bedingungen in Beziehung zu setzen. Das neue Rauschquellenmodell wird als Teil des artikulatorischen Sprachsynthesizers VocalTractLab implementiert und perzeptiv evaluiert.

DFG-Verfahren Sachbeihilfen

Servicenavigation

Hauptnavigation

Untersuchung der Geräuscherzeugung im dreidimensionalen, zeitlich veränderlichen Vokaltrakt

Zusatzinformationen

Servicenavigation

Hauptnavigation

Untersuchung der Geräuscherzeugung im dreidimensionalen, zeitlich veränderlichen Vokaltrakt

Zusatzinformationen

Textvergrößerung und Kontrastanpassung