Instrumentelle Schätzung der Qualität synthetisierter Sprachsignale
Zusammenfassung der Projektergebnisse
Das Verständnis für die Wahrnehmung synthetischer Sprache ist durch die Untersuchungen des Projekts maßgeblich erweitert worden. Zum einen wurde der perzeptive Raum, der durch aktuell erhältliche TTS-Systeme aufgespannt wird, durch 5 universelle Wahrnehmungsdimensionen beschrieben. Durch die Interpretation dieser Dimensionen konnte eine besonders hohe Bedeutung prosodischer und suprasegmentaler Charakteristika für die Gesamtqualität heutiger Sprachsynthese nachgewiesen werden. Zum anderen wurden nicht-intrusive Qualitätsschätzmodelle entwickelt, die erstmals in der Lage sind, für allgemeine TTS-Signale verlässliche Qualitätsprognosen zu liefern. Zu diesem Zweck wurde eine breite Datenbasis zusammengetragen, die aus mehr als 10 auditiven Testdatenbanken besteht. Hervorzuheben ist, dass diese Tests von unterschiedlichen Laboren unter Verwendung unterschiedlicher Testprotokolle sowie mit unterschiedlichen Stimuli und Testhörern durchgeführt worden sind. Die Messbarkeit der ermittelten Qualitätsaspekte mittels physikalischer Signalkennwerte wurde anhand dieser Datenbasis erstmals gezeigt. Um für die darauf aufgebauten Schätzer eine hohe Zuverlässigkeit sicherzustellen, haben sich nichtlineare bzw. regularisierte Modellstrukturen als notwendig erwiesen. Dazu ist ein generisches Verfahren zur Schätzung qualitäts-indikativer Messparameter entwickelt und erfolgreich getestet worden, das durch Festlegung von perzeptiv regulären Parameterbereichen eine Modellreferenz zur vollständigen Qualitätsdiagnostik bereitstellt. Das vorgestellte Verfahren ist somit ein Beitrag zur allgemeinen Entwicklungsmethodik nicht-intrusiver Qualitätsschätzer. Die Ergebnisse wurden der Öffentlichkeit in zahlreichen Publikationen vorgestellt. Darüberhinaus werden die im Projekt entwickelten Modelle den interessierten Nutzergruppen durch eine einfach zu bedienenden GUI-Anwendung zugänglich gemacht. Die Ergebnisse wurden auch der internationalen Standardisierung (ITU-T) zur Verfügung gestellt und mündeten in der Überarbeitung der Empfehlung ITU-T Rec. P.85. Die Projektmitarbeiter sind somit überzeugt, durch ihre Arbeit einen nachhaltigen Beitrag zur Weiterentwickling objektiver Qualitätsmessung für synthetische Sprache geleistet zu haben.
Projektbezogene Publikationen (Auswahl)
-
(2011): An Evaluation Protocol for the Subjective Assessment of Text-to-Speech in Audiobook Reading Tasks. Proc. Blizzard Workshop 2011, Turin, Italien
Hinterleitner, F., Neitzel, G., Möller, S., Norrenbrock, C.
-
(2011): Aperiodicity Analysis for Quality Estimation of Text-to- Speech Signals. In: Proc. Interspeech 2011, Florenz, Italien, S.2193-2196
Norrenbrock, C., Heute, U., Hinterleitner, F., Möller, S.
-
(2011): Perceptual Quality Dimensions of Text-to-Speech Systems. Proc. Interspeech 2011, Florenz, Italien, S. 2177-2180
Hinterleitner, F., Möller, S., Norrenbrock, C., Heute, U.
-
(2012): Instrumental Assessment of Prosodic Quality for Text-to- Speech Signals. IEEE Signal Processing Letters, vol. 19, no. 5, S. 255-258
Norrenbrock, C., Heute, U., Hinterleitner, F., Möller, S.
-
(2012): Quality Analysis of Macroprosodic F0 Dynamics in Textto-Speech Signals, Proc. Interspeech, Portland, OR, USA
Norrenbrock, C., Hinterleitner, F., Heute, U., Möller, S.
-
(2012): What makes this voice sound so bad? A Multidimensional Analysis of State-of-the-Art Text-to-Speech Systems. Proc. Spoken Language Technology Workshop 2012, Miami, USA, S. 240 – 245
Hinterleitner, F., Norrenbrock, C., Möller, S., Heute, U.
-
(2013): Is Intelligibility Still the Main Problem? A Review of Perceptual Quality Dimensions of Synthetic Speech, Proc. Speech Synthesis Workshop, Barcelona, Spanien, S. 167 – 171
Hinterleitner, F., Norrenbrock, C., Möller, S.
-
(2013): Predicting the Quality of Text-to-Speech Systems from a Large-Scale Feature Set. Proc. Interspeech 2013, Lyon, Frankreich S. 383 – 387
Hinterleitner, F., Norrenbrock, C., Möller, S., Heute, U.
-
(2013): Quality Estimation Based on Regular Perception, Proc. Fourth International Workshop on Perceptual Quality of Systems (PQS), Wien, Österreich, 2013
Norrenbrock, C., Hinterleitner, F., Heute, U., Möller, S.