Detailseite
Projekt Druckansicht

Qualitätsattribute und Gesamtqualität übertragener Sprache

Fachliche Zuordnung Elektronische Halbleiter, Bauelemente und Schaltungen, Integrierte Systeme, Sensorik, Theoretische Elektrotechnik
Akustik
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2016 bis 2019
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 289919134
 
Erstellungsjahr 2019

Zusammenfassung der Projektergebnisse

Die wahrgenommene Gesamtqualität eines Sprachübertragungssystems ist für die Netzwerkbetreiber einer der wichtigsten „Key Quality Indicator (KQI)“. Jedoch gibt dieser einzelne Indikator nur wenig Aufschluss über den eigentlichen Grund einer Qualitätsminderung des Systems. Dieses Projekt beschäftigte sich daher mit der diagnostischen Qualitätsanalyse übertragener Sprache. Dazu wird die durch einen „Mean Opinion Score (MOS)“ beschriebene Gesamtqualität in perzeptive Qualitätsdimensionen aufgeschlüsselt. In früheren Arbeiten, auf welche dieses Projekt unter anderem aufbaute, konnte bereits gezeigt werden, dass Sprachqualität auf Basis der folgenden vier perzeptiven Qualitätsdimensionen modelliert werden kann: „Noisiness“, „Coloration“, „Discontinuity“ und „Suboptimal Loudness“. Diese Dimensionen werden subjektiv in auditiven Hörexperimenten von Probanden bewertet, können aber auch mittels eines instrumentellen Modells geschätzt werden. Ziel einer solchermaßen ursachendifferenzierten Qualitätsanalyse ist es, verminderte Sprachqualität direkt auf technische Ursachen in Netzwerken und Endgeräten zurückführen zu können (Root-Cause Analyse). Dominierende Forschungsfragen dieses Projektes waren die instrumentelle und robuste Schätzung der perzeptiven Qualitätsdimensionen und der technischen Ursachen, sowie die Bestimmung eines Zusammenhangs zwischen Qualitätsdimensionen, technischen Ursachen und Gesamtqualität. In diesem Kontext hervorzuheben sind die im Folgenden dargestellten erzielten Ergebnisse: Im Rahmen der referenzbasierten Schätzung der Qualitätsdimensionen liegt durch das Projekt insbesondere für die Dimension „Noisiness“ ein neuer robuster Schätzer vor. Durch ein signalamplitudenunabhängiges Verfahren befindet sich die Genauigkeit der Schätzung mit einem maximalen „epsilon-insensitive Root Mean Square Error“ (RMSE*) von 0,22 im von der International Telecommunication Union (ITU-T) geforderten Bereich. Zusätzlich liegen durch das Projekt ebenfalls vielversprechende Ergebnisse für die referenzfreie Schätzung aller vier Qualitätsdimensionen sowie der Gesamtqualität vor. Durch die Wahl eines Ansatzes mittels neuronaler Netze bewegt sich die Genauigkeit für die vorliegenden Datenbanken bereits im von der ITU-T geforderten Bereich. Als technische Ursachen wurden im beschriebenen Projekt hauptsächlich Paketverluste und Sprachkodierungseffekte betrachtet, die für die Transferpartner als besonders relevant erachtet wurden. Durch einen im Rahmen des Projektes entwickelten Algorithmus können Paketverluste mit einer Trefferquote von 93 % detektiert werden, drei Bitratenklassen des AMR-WB-Codec im Gegenzug mit 95 %. Darüber hinaus ist ein Gesamtmodell mit aufeinander abgestimmten Detektoren verfügbar, sodass die Einzelstörungen verlässlich voneinander separiert werden können. Mit diesem Gesamtmodell ist es ebenfalls möglich, den Anteil der jeweiligen technischen Ursache am Gesamtqualitätsverlust abzuschätzen. Diese und alle weiteren signifikanten Ergebnisse des Projektes sind auf internationalen Konferenzen mit wissenschaftlicher Qualitätssicherung publiziert. Sofern relevant liegen die Ergebnisse ebenfalls den Projektpartnern und der ITU-T als Beiträge zur Standardisierung von P.AMD und P.TCA vor. Darüber hinaus ist ein Teil der Ergebnisse als Implementierung frei im Internet verfügbar.

Projektbezogene Publikationen (Auswahl)

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung