Detailseite
Untersuchung der Geräuscherzeugung im dreidimensionalen, zeitlich veränderlichen Vokaltrakt
Antragsteller
Professor Dr. Peter Birkholz
Fachliche Zuordnung
Angewandte Sprachwissenschaften, Computerlinguistik
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung seit 2025
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 572918001
Eines der Hauptprobleme bei der physikalisch basierten Sprachsynthese ist die Erzeugung realistischer Reibegeräusche, die entstehen, wenn Luft durch eine kritische Enge im Vokaltrakt strömt und turbulent wird. Die Gleichungen, die die aeroakustische Geräuscherzeugung beschreiben sind zwar gut bekannt, ihre dreidimensionale numerische Simulation ist jedoch für viele praktische Anwendungen zu langsam. Daher leiten die meisten praktischen Rauschquellenmodelle die akustischen Eigenschaften der Rauschquellen auf der Grundlage von wenigen relevanten eindimensionalen aerodynamischen und artikulatorischen Größen ab, z.B. dem Volumenstrom durch die Engstelle, dem Druckabfall über der Engstelle, und ihrer Querschnittsfläche. Diese Quellenmodelle gehen in der Regel davon aus, dass sich die aerodynamischen und artikulatorischen Größen quasi ohne Verzögerung auf die Geräuscheigenschaften auswirken. Einige Studien zeigen jedoch, dass diese Annahme nicht mehr gilt, wenn sich die artikulatorischen Randbedingungen schnell ändern, z. B. wenn die Phonation den Luftstrom bei stimmhaften Frikativen moduliert, oder unmittelbar nach der Verschlusslösung von Plosiven. Das vorgeschlagene Projekt zielt darauf ab, ein dynamisches Rauschquellenmodell zu entwickeln, das die Auswirkungen sich schnell ändernder Randbedingungen auf das erzeugte Reibegeräusch berücksichtigt. Darüber hinaus sollen die Auswirkungen anderer relevanter Faktoren auf das erzeugte Rauschen untersucht werden, z. B. der Querschnittsform der kritischen Engstelle, und der weichen Vokaltraktwände. Um diese Abhängigkeiten zu untersuchen, konstruieren wir ein mechatronisches Vokaltraktmodell und verwenden es für die Erzeugung einer großen Anzahl von Vokal-Konsonant-Vokal-Äußerungen. Das erlaubt es uns, die erzeugten Reibegeräusche während der Konsonanten mit den zeitveränderlichen artikulatorischen und aerodynamischen Bedingungen in Beziehung zu setzen. Das neue Rauschquellenmodell wird als Teil des artikulatorischen Sprachsynthesizers VocalTractLab implementiert und perzeptiv evaluiert.
DFG-Verfahren
Sachbeihilfen
