Parametrisation of prosody and voice quality for concatenatice speech synthesis in view of emotion expression
Zusammenfassung der Projektergebnisse
Das Projekt PAVOQUE hat Möglichkeiten untersucht und vorgestellt, wie die künstliche Erzeugung gesprochener Sprache (Sprachsynthese) mit verschiedenen Sprechstilen (fröhlich, lustlos, usw.) erreicht werden kann, ohne dass das Ergebnis mit der hinzugewonnenen Flexibilität zugleich unnatürlicher klingt. Als Grundlage für die Sprachsynthese sowie als Referenz wurde zunächst eine umfangreiche Sammlung von deutschen Sätzen in verschiedenen Sprechstilen aufgenommen und phonetisch annotiert. Mit diesen Daten wurde die am DFKI entstandene und frei verfügbare Sprachsynthese-Software MARY um wesentliche Bestandteile erweitert, die es etwa erlauben, eine solche stilistisch gemischte Datenbank für die Sprachsynthese nutzbar zu machen und daraus gezielt zum jeweils gewünschten Sprechstil passende Einheiten auszuwählen, zusammenzufügen und anschließend nach Bedarf Parameter wie Stimmtonhöhe oder Stimmqualität anzupassen, um den gewünschten Eindruck beim Hörer zu verstärken. In mehreren Hörtests wurde empirisch untersucht, welche Auswirkungen symbolische Kriterien bei der Einheitenauswahl sowie Nachbearbeitung des akustischen Signals auf die Natürlichkeit und den wahrgenommenen Sprechstil der Sprachsynthese haben. Die Ergebnisse weisen darauf hin, dass eine auf den jeweils gewünschten Sprechstil zugeschnittene Kombination von Auswahl und Modifikation der Spracheinheiten am erfolgreichsten sein kann. Neben diesen grundlegenden Erkenntnissen stellen auch die angefertigten Aufnahmen selbst eine wertvolle Datensammlung zur weiteren Erforschung von phonetischen Korrelaten expressiver Sprechweise dar. Abschließend muss hervorgehoben werden, dass die Sprachsynthese-Software MARY im Rahmen dieses Projekts entscheidend weiterentwickelt wurde und in zunehmenden Maße von Forschern, Entwicklern und Anwendern auf der ganzen Welt genutzt wird. Die Projektergebnisse tragen letzlich dazu bei, dass Computerstimmen in der Zukunft immer natürlicher klingen können. Dies ist ein Beitrag dazu, dass es gerade auch für menschliche Benutzer in Zukunft einfacher und „normaler“ sein wird, sich mit komplexen technischen Systemen zu „unterhalten“. Bis dahin ist es jedoch noch ein weiter Weg. Zwar ist im Projekt ein gewisses Maß an Flexibilität und Natürlichkeit erreicht worden, aber es bedarf weiterer Forschung an Sprachkodierungsund -modifikationsverfahren. Interessante Ansätze wie die Auswahl von Syntheseeinheiten auf Basis von akustischen Maßen müssten weiter verfolgt werden, bevor ein praktisch einsetzbares Qualitätsniveau erreicht ist. Auch im Bereich der Intonationsmodellierung, also der Vorhersage der Sprachmelodie auf Basis des geschriebenen Texts, besteht weiterer Verbesserungsbedarf. Verbesserte Modelle, die hierfür entwickelt werden, müssen insbesondere in der Lage sein, die emotionstypischen extremen Tonhöhenschwankungen angemessen zu beschreiben.
Projektbezogene Publikationen (Auswahl)
-
(2006). „OpenMary – Open Source Unit Selection as the Basis for Research on Expressive Synthesis“. In: Blizzard Challenge. Pittsburgh, PA
Marc Schröder, Anna Hunecke und Sacha Krstulović
-
(2008). „A Comparison of Voice Conversion Methods for Transforming Voice Quality in Emotional Speech Synthesis“. In: Interspeech. ISCA. Brisbane, S. 2282–2285
Oytun Türk und Marc Schröder
-
(2008). „The MARY TTS Entry in the Blizzard Challenge 2008“. In: Blizzard Challenge. Brisbane
Marc Schröder, Marcela Charfuelan, Sathish Chandra Pammi und Oytun Türk
-
(2009). „Multilingual MARY TTS Participation in the Blizzard Challenge 2009“. In: Blizzard Challenge. Edinburgh
Marc Schröder, Sathish Chandra Pammi und Oytun Türk
-
(2010). „Evaluation of Expressive Speech Synthesis with Voice Conversion and Copy Resynthesis Techniques“. In: IEEE Transactions on Audio, Speech, and Language Processing 18.5, S. 965–973
Oytun Türk und Marc Schröder
-
(2010). „Symbolic vs. Acoustics-Based Style Control for Expressive Unit Selection“. In: Seventh ISCA Tutorial and Research Workshop on Speech Synthesis (SSW7). ISCA. Kyoto, S. 114–119
Ingmar Steiner, Marc Schröder, Marcela Charfuelan und Annette Klepp