Detailseite
Projekt Druckansicht

Parametrisation of prosody and voice quality for concatenatice speech synthesis in view of emotion expression

Antragsteller Dr. Marc Schröder
Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2006 bis 2011
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 24430698
 
Erstellungsjahr 2010

Zusammenfassung der Projektergebnisse

Das Projekt PAVOQUE hat Möglichkeiten untersucht und vorgestellt, wie die künstliche Erzeugung gesprochener Sprache (Sprachsynthese) mit verschiedenen Sprechstilen (fröhlich, lustlos, usw.) erreicht werden kann, ohne dass das Ergebnis mit der hinzugewonnenen Flexibilität zugleich unnatürlicher klingt. Als Grundlage für die Sprachsynthese sowie als Referenz wurde zunächst eine umfangreiche Sammlung von deutschen Sätzen in verschiedenen Sprechstilen aufgenommen und phonetisch annotiert. Mit diesen Daten wurde die am DFKI entstandene und frei verfügbare Sprachsynthese-Software MARY um wesentliche Bestandteile erweitert, die es etwa erlauben, eine solche stilistisch gemischte Datenbank für die Sprachsynthese nutzbar zu machen und daraus gezielt zum jeweils gewünschten Sprechstil passende Einheiten auszuwählen, zusammenzufügen und anschließend nach Bedarf Parameter wie Stimmtonhöhe oder Stimmqualität anzupassen, um den gewünschten Eindruck beim Hörer zu verstärken. In mehreren Hörtests wurde empirisch untersucht, welche Auswirkungen symbolische Kriterien bei der Einheitenauswahl sowie Nachbearbeitung des akustischen Signals auf die Natürlichkeit und den wahrgenommenen Sprechstil der Sprachsynthese haben. Die Ergebnisse weisen darauf hin, dass eine auf den jeweils gewünschten Sprechstil zugeschnittene Kombination von Auswahl und Modifikation der Spracheinheiten am erfolgreichsten sein kann. Neben diesen grundlegenden Erkenntnissen stellen auch die angefertigten Aufnahmen selbst eine wertvolle Datensammlung zur weiteren Erforschung von phonetischen Korrelaten expressiver Sprechweise dar. Abschließend muss hervorgehoben werden, dass die Sprachsynthese-Software MARY im Rahmen dieses Projekts entscheidend weiterentwickelt wurde und in zunehmenden Maße von Forschern, Entwicklern und Anwendern auf der ganzen Welt genutzt wird. Die Projektergebnisse tragen letzlich dazu bei, dass Computerstimmen in der Zukunft immer natürlicher klingen können. Dies ist ein Beitrag dazu, dass es gerade auch für menschliche Benutzer in Zukunft einfacher und „normaler“ sein wird, sich mit komplexen technischen Systemen zu „unterhalten“. Bis dahin ist es jedoch noch ein weiter Weg. Zwar ist im Projekt ein gewisses Maß an Flexibilität und Natürlichkeit erreicht worden, aber es bedarf weiterer Forschung an Sprachkodierungsund -modifikationsverfahren. Interessante Ansätze wie die Auswahl von Syntheseeinheiten auf Basis von akustischen Maßen müssten weiter verfolgt werden, bevor ein praktisch einsetzbares Qualitätsniveau erreicht ist. Auch im Bereich der Intonationsmodellierung, also der Vorhersage der Sprachmelodie auf Basis des geschriebenen Texts, besteht weiterer Verbesserungsbedarf. Verbesserte Modelle, die hierfür entwickelt werden, müssen insbesondere in der Lage sein, die emotionstypischen extremen Tonhöhenschwankungen angemessen zu beschreiben.

Projektbezogene Publikationen (Auswahl)

  • (2006). „OpenMary – Open Source Unit Selection as the Basis for Research on Expressive Synthesis“. In: Blizzard Challenge. Pittsburgh, PA
    Marc Schröder, Anna Hunecke und Sacha Krstulović
  • (2008). „A Comparison of Voice Conversion Methods for Transforming Voice Quality in Emotional Speech Synthesis“. In: Interspeech. ISCA. Brisbane, S. 2282–2285
    Oytun Türk und Marc Schröder
  • (2008). „The MARY TTS Entry in the Blizzard Challenge 2008“. In: Blizzard Challenge. Brisbane
    Marc Schröder, Marcela Charfuelan, Sathish Chandra Pammi und Oytun Türk
  • (2009). „Multilingual MARY TTS Participation in the Blizzard Challenge 2009“. In: Blizzard Challenge. Edinburgh
    Marc Schröder, Sathish Chandra Pammi und Oytun Türk
  • (2010). „Evaluation of Expressive Speech Synthesis with Voice Conversion and Copy Resynthesis Techniques“. In: IEEE Transactions on Audio, Speech, and Language Processing 18.5, S. 965–973
    Oytun Türk und Marc Schröder
  • (2010). „Symbolic vs. Acoustics-Based Style Control for Expressive Unit Selection“. In: Seventh ISCA Tutorial and Research Workshop on Speech Synthesis (SSW7). ISCA. Kyoto, S. 114–119
    Ingmar Steiner, Marc Schröder, Marcela Charfuelan und Annette Klepp
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung