Bandbreitenerweiterung von Telefonsprachdatenbanken zum Training breitbandiger automatischer Spracherkenner

Applicant Professor Dr.-Ing. Tim Fingscheidt

Subject Area Image and Language Processing, Computer Graphics and Visualisation, Human Computer Interaction, Ubiquitous and Wearable Computing
Electronic Semiconductors, Components and Circuits, Integrated Systems, Sensor Technology, Theoretical Electrical Engineering

Term from 2012 to 2015

Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 215637315

Final Report Year 2014

Final Report Abstract

Dieses DFG-Erkenntnistransferprojekt wurde durch die Technische Universität Braunschweig beantragt, um wissenschaftliche Grundlagen zur künstlichen Sprachbandbreitenerweiterung in die Anwendung zu bringen, die in der vorausgehenden DFG-Einzelförderung erforscht wurden. Als Anwendungspartner fungierte die European Media Laboratory GmbH, die sich mit der Entwicklung von Systemen zur automatischen Spracherkennung befasst. Gegenstand dieses bidirektionalen Transfervorhabens war eine Synergie aus beiden Kompetenzfeldern: Die künstliche Erweiterung der akustischen Bandbreite von schmalbandigen Telefonsprachdaten zum Training breitbandiger automatischer Spracherkenner. Die Erkennungsrate von automatischen Spracherkennern steigt mit der akustischen Bandbreite. Sprachqualität und -verständlichkeit beim Telefonieren proﬁtiert vom aufkommenden breitbandigen Sprachservice HD Voice. Daher müssen zukünftige Telefonsprachdialogsysteme für HD Voice ausgelegt sein, um natürlichsprachige Konversationen mit großem Vokabular zu ermöglichen. Das Training der dafür erforderlichen akustischen Modelle erfordert jedoch breitbandige Telefonsprachdaten in sehr großem Umfang. Der im Vorgängerprojekt zu Untersuchungszwecken akquirierte WTIMIT-Korpus ist bislang die einzige breitbandige Telefonsprachdatenbank, aber mit 5.5 h an Sprachmaterial viel zu klein. Andere Sprachdatenbanken enthalten nur schmalbandige Telefonsprache oder Breitband-Studioaufnahmen ohne realistische Telefonübertragungscharakteristik. Da eine erneute Akquise von breitbandigen Telefonsprachdaten sehr zeit- und kostenintensiv ist, insbesondere für seltene kleinere Sprachen, stellt die künstliche Bandbreitenerweiterung herkömmlicher Telefonsprachdatenbanken eine preiswerte und aufwandsarme Alternative dar. Im Rahmen dieses Transfervorhabens wurde die Technologie zur Datenbankerweiterung in die Anwendung gebracht. Dazu hat der Anwendungspartner seine vollständige Trainings- und Testprozesskette der automatischen Spracherkennung zur Verfügung gestellt. Damit konnten praxisnahe Untersuchungen im Gesamtsystem durchgeführt werden. Durch umfangreiche Optimierungen der Trainings- und Testtools zur künstlichen Bandbreitenerweiterung konnte die Performanz noch einmal signiﬁkant gesteigert werden. Im Vergleich zur Erkennungsreferenz, die mit einer begrenzten Trainingsdatenmenge an Breitbandsprache auskommen musste, wurde durch Hinzufügen bandbreitenerweiterter Trainingssprachdaten eine Verbesserung der Wortfehlerrate um ca. 9% relativ nachgewiesen. Im Gegensatz zum bisherigen Stand der Technik, der mittels einer erkennerspeziﬁschen Lösung ein vergleichbares Ergebnis erzielt, kann die hier dargestellte Lösung von potentiellen Anwendern ohne Modiﬁkation am Erkenner eingesetzt werden.

Publications

“On Improving Telephone Speech Intelligibility for Hearing Impaired Persons,” in Proc. of ITG-Fachtagung Sprachkommunikation, Braunschweig, Germany, Sep. 2012, pp. 275–278
P. Bauer, R.-L. Fischer, M. Bellanova, H. Puder, and T. Fingscheidt
“A Phonetic Reference Paradigm for Instrumental Speech Quality Assessment of Artiﬁcial Speech Bandwidth Extension,” in Proc. of International Workshop on Perceptual Quality of Systems (PQS), Vienna, Austria, Sep. 2013, pp. 36–39
T. Fingscheidt and P. Bauer
“Impact of Hearing Impairment on Fricative Intelligibility for Artiﬁcially Bandwidth-Extended Telephone Speech in Noise,” in Proc. of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Vancouver, BC, Canada, May 2013, pp. 7039–7043
P. Bauer, J. Jones, and T. Fingscheidt
“Speech Quality Prediction for Artiﬁcial Bandwidth Extension Algorithms,” in Proc. of Annual Conference of the International Speech Communication Association (INTERSPEECH), Lyon, France, Aug. 2013
S. Möller, E. Kelaidi, F. Köster, N. Côté, P. Bauer, T. Fingscheidt, T. Schlien, H. Pulakka, and P. Alku
“Automatic Recognition of Wideband Telephone Speech with Limited Amount of Matched Training Data,” in Proc. of European Signal Processing Conference (EUSIPCO), Lisbon, Portugal, Sep. 2014
P. Bauer, J. Abel, V. Fischer, and T. Fingscheidt
“HMM-Based Artiﬁcial Bandwidth Extension Supported by Neural Networks,” in Proc. of International Workshop on Acoustic Signal Enhancement (IWAENC), Antibes - Juan les Pins, France, Sep. 2014
Bauer, Patrick; Abel, Johannes & Fingscheidt, Tim
“On Speech Quality Assessment of Artiﬁcial Bandwidth Extension,” in Proc. of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Florence, Italy, May 2014
Bauer, Patrick; Guillaumea, Cyril; Tirry, Wouter & Fingscheidt, Tim

Servicenavigation

Hauptnavigation

Bandbreitenerweiterung von Telefonsprachdatenbanken zum Training breitbandiger automatischer Spracherkenner

Final Report Abstract

Publications

Additional Information

Servicenavigation

Hauptnavigation

Bandbreitenerweiterung von Telefonsprachdatenbanken zum Training breitbandiger automatischer Spracherkenner

Final Report Abstract

Publications

Additional Information

Textvergrößerung und Kontrastanpassung