Detailseite
Projekt Druckansicht

Analyse, Modellierung und Synthese sichtbarer Sprechbewegungen bei unterschiedlichen Sprechgeschwindigkeiten

Antragsteller Dr. Sascha Fagel
Fachliche Zuordnung Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen
Förderung Förderung von 2007 bis 2010
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 40177908
 
Erstellungsjahr 2010

Zusammenfassung der Projektergebnisse

Ein Messsystem zur Aufzeichnung zeitlich hochaufgelöster Videos aus unterschiedlichen Perspektiven mittels vier synchronisierter Kameras (DragonflyExpress, Point Grey Research), dazu synchronen Audioaufnahmen sowie eine semi-automatische Analysesoftware (CLIC'N'TRAK) zur Gewinnung von Bewegungsdaten wurden entwickelt. Das System wurde in einer Untersuchung neutraler und gelächelter Sprechweise getestet. Grundgedanke hierbei war die Erkenntnis, dass beim Lächeln eine Spreizung der Lippen auftritt, gerundete Vokale jedoch eine verringerte Lippenspreizung zur Realisierung benötigen, somit bei gelächelter Sprechweise also ein Konflikt zwischen phonetischartikulatorischen und expressiven Konfigurationen besteht. Als ein Ergebnis der Untersuchung konnten unterschiedliche Artikulationsstrategien bei neutraler und gelächelter Sprechweise sowie unvollständige Kompensation nachgewiesen werden. Eine audiovisuelle Sprachdatenbank mit Äußerungen eines Sprechers in den Sprechgeschwindigkeiten langsam, normal und schnell wurde erstellt. Die Korpora bestehen aus 100 phonetisch ausbalancierten Sätzen, den 25 Sätzen zur Messung der Sprachqualität von J. Sotscheck, sowie den konsonantischen Visemen des Deutschen in den Kontexten {/a/, /i/, /u/} und den vokalischen Visemen des Deutschen. Alle Korpora wurden in den Sprechgeschwindigkeiten langsam, normal und schnell eingesprochen. Eine perzeptive Evaluation der Sprachdaten mit 12 Versuchspersonen ergab eine Erkennungsleistung von 97% im Mittel, wobei kein einzelner Stimulus auffallend selten der intendierten Sprechgeschwindigkeit zugeordnet wurde. Eine manuelle Feinkorrektur der Bewegungsdaten erfolgt im Juli/August 2010. Anschließend wird die Sprachdatenbank kostenfrei der Öffentlichkeit zur Verfügung gestellt. Mit den Audiodaten und ebenfalls mit den (unbereinigten) Bewegungsdaten der Aufnahmen des phonetisch ausbalancierten Korpus wurden Hidden Markov Modelle für langsame, normale sowie schnelle Sprechgeschwindigkeit trainiert. Für beide Datenarten wurden hiermit die Sätze zur Sprachgütemessung in den unterschiedlichen Sprechgeschwindigkeiten synthetisiert. Evaluation und Publikation der Ergebnisse werden zurzeit vorbereitet. Die Initiative zur einheitlichen vergleichenden Evaluation von audiovisuellen Sprachsynthesesystemen, LIPS Challenge, wurde ins Leben gerufen. Begleitend zu internationalen Konferenzen wurden zwei Evaluationsexperimente mit insgesamt 16 teilnehmenden Systemen durchgeführt. Aus der Initiative entstand eine Sonderausgabe der Zeitschrift EURASIP Journal on Audio, Speech, and Music Processing (Hindawi Publishing).

Projektbezogene Publikationen (Auswahl)

  • 2008 LIPS2008: Visual Speech Synthesis Challenge, Proceedings of INTERSPEECH, Brisbane
    Theobald, B.-J., Fagel, S., Bailly, G., Elisei, F.
  • 2008. A 3-D Virtual Head as a Tool for Speech Therapy for Children, Proceedings of INTERSPEECH, Brisbane
    Fagel, S., Madany, K.
  • 2008. A Comparison of German Talking Heads in a Smart Home Environment, Proceedings of the AVSP, Togalooma
    Fagel, S., Kuehnel, C., Weiss, B., Wechsung, I., Moeller, S.
  • 2008. Avatars in Assistive Homes for the Elderly: A User-Friendly Way of Interaction? Lecture Notes in Computer Science, Springer
    Morandell, M., Hochgatterer, A., Fagel, S., Wassertheurer, S.
  • 2008. Ein virtueller Kopf für die Sprechtherapie. L.O.G.O.S. interdisziplinär, Elsevier
    Madany, K., Fagel, S.
  • 2008. Evaluating Talking Heads for Smart Home Systems. Proceedings of ICMI, Chania
    Kuehnel, C., Weiss, B., Wechsung, I., Fagel, S., Moeller, S.
  • 2008. From 3-D Speaker Cloning to Text-to- Audiovisual-Speech, Proceedings of INTERSPEECH, Brisbane
    Fagel, S., Elisei, F., Bailly, G.
  • 2008. German Text-to-Audiovisual-Speech by 3-D Speaker Cloning, Proceedings of the AVSP, Togalooma
    Fagel, S., Bailly, G.
  • 2008. Guided Non-Linear Model Estimation (gnoME), Proceedings of the AVSP, Togalooma
    Fagel, S., Madany, K.
  • 2008. MASSY Speaks English: Adaptation and Evaluation of a Talking Head. Proceedings of INTERSPEECH, Brisbane
    Fagel, S.
  • 2008. Objective and Perceptual Evaluation of Parameterizations of 3D Motion Captured Speech Data, Proceedings of the AVSP, Togalooma
    Madany, K., Fagel, S.
  • 2009. Comparison of Different Talking Heads in Non-Interactive Settings, Proceedings of HCII, San Diego
    Weiss, B., Kühnel, C., Wechsung, I., Möller, S., Fagel, S.
  • 2009. Effects of Smiled Speech on Lips, Larynx and Acoustics. Proceedings of AVSP, Norwich
    Fagel, S.
  • 2009. Web-based evaluation of talking heads: How valid is it? Proceedings of the 9th International Conference on Intelligent Virtual Agents
    Weiss, B., Kühnel, C., Wechsung, I., Möller, S., Fagel, S.
  • 2010. Animating Virtual Speakers or Singers from Audio: Lip-Synching Facial Animation. In G. Bailly, S. Fagel, B.-J. Theobald (eds.): EURASIP Journal on Audio, Speech, and Music Processing, Hindawi Publishing, New York
    Fagel, S., Bailly, G., Theobald, B.-J.
  • Effects of Smiling on Articulation: Lips, Larynx and Acoustics. In A. Esposito et al. (Eds.): COST 2102 - Lecture Notes in Computer Science 5967, pp. 294-303, Springer, Heidelberg
    Fagel, S.
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung