Detailseite
Bandbreitenerweiterung von Telefonsprachdatenbanken zum Training breitbandiger automatischer Spracherkenner
Antragsteller
Professor Dr.-Ing. Tim Fingscheidt
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Elektronische Halbleiter, Bauelemente und Schaltungen, Integrierte Systeme, Sensorik, Theoretische Elektrotechnik
Elektronische Halbleiter, Bauelemente und Schaltungen, Integrierte Systeme, Sensorik, Theoretische Elektrotechnik
Förderung
Förderung von 2012 bis 2015
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 215637315
In der vorangegangenen Einzelförderung ist es mittels eines erweiterten Bayes’schen Ansatzes gelungen, schmalbandige Telefonsprache (Bandbreite 300 ... 3400 Hz) auf Breitbandsprache (50 ... 7000 Hz) unter Nutzung phonetischer Annotationen künstlich zu erweitern. Nutzt man die Annotationen im Trainingsprozess, sind gute Qualitätsverbesserungen erzielt worden. Mittlerweile wird dieses Verfahren in drei Industrieprojekten für Freisprechsysteme weiterentwickelt. Nutzt man Annotationen jedoch auch im Zuge der eigentlichen Bandbreitenerweiterung (Test), dann wird eine außerordentlich hohe Sprachqualität erzielt. Solche im Offline-Modus erzeugten breitbandigen Sprachdaten sollen im geplanten Vorhaben im Training breitbandiger Spracherkenner genutzt werden: Zum einen sollen sie zur Erhöhung der Erkennungsrobustheit den bereits vorhandenen breitbandigen Trainings-Sprachdaten hinzugefügt werden. Zum anderen könnten auch neue Sprachen schneller erschlossen werden, da Telefonsprachdaten vorhanden sind oder zumindest aufwandsarm akquiriert werden können. Im Zuge des Vorhabens erhielte der wissenschaftliche Partner Zugang zu wertvollen Sprachdatensammlungen, mittels denen ein Proof of Concept des wissenschaftlichen Ansatzes überhaupt nur möglich ist. Algorithmische Weiterentwicklungen werden statt auf Sprachqualität eher auf die geeignete Erzeugung einer geeigneten Variabilität in den bandbreitenerweiterten Sprachdaten abzielen müssen, damit verbesserte Erkennungsergebnisse erzielt werden.
DFG-Verfahren
Sachbeihilfen (Transferprojekt)
Beteiligte Institution
European Media Lab GmbH