Detailseite
Qualitätsvorhersage für mittels maschinellem Lernen verarbeiteter oder erzeugter Sprache
Antragsteller
Professor Dr.-Ing. Sebastian Möller
Fachliche Zuordnung
Kommunikationstechnik und -netze, Hochfrequenztechnik und photonische Systeme, Signalverarbeitung und maschinelles Lernen für die Informationstechnik
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Künstliche Intelligenz und Maschinelle Lernverfahren
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Künstliche Intelligenz und Maschinelle Lernverfahren
Förderung
Förderung seit 2025
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 558877568
Sprache wird in zunehmendem Maße durch Algorithmen verarbeitet und erzeugt, die auf maschinellem Lernen (ML) beruhen. Solche Algorithmen erzielen häufig bessere Ergebnisse als traditionelle Algorithmen, wenn die Kodierung, Sprachverbesserung, Sprechertransformation und Anonymisierung, sowie die Synthese Ziel der Verarbeitung sind. Die dabei verwendeten Algorithmen werden normalerweise über Hilfsmaße optimiert, die die Performanz der Aufgabenerfüllung widerspiegeln; dabei wird die vom Menschen wahrgenommene Sprachqualität meist außer Acht gelassen. Grund hierfür ist das Fehlen von Modellen, die menschlich wahrgenommene Sprachqualität zuverlässig und valide schätzen können. Das hier beschriebene Forschungsprojekt möchte diese Forschungslücke füllen. Hierzu soll ein Open-Source-Modell entwickelt werden, welches wahrgenommene Sprachqualität und die ihr zugrunde liegenden perzeptiven Merkmale für eine breite Klasse ML-basierter Algorithmen vorhersagt. Zunächst wird eine Datenbank erstellt, welche repräsentativ perzeptive Effekte ML-basierter Algorithmen auf deutschen und englischen Sprachdaten generiert. Für diese Datenbank werden in einem ersten Schritt perzeptive Dimensionen mit der Methode des Semantischen Differentials in Experten- sowie Crowdsourcing-basierten Hörversuchen identifiziert. In einem zweiten Schritt werden alle Sprachdateien der Datenbank bezüglich der identifizierten Qualitätsdimensionen sowie der Gesamtqualität bewertet; hierzu werden neue Crowdsourcing-Hörversuche durchgeführt. Die Bewertungen sind die Zielgrößen für das zu entwickelnde Vorhersagemodell. Hierzu werden verschiedene vortrainierte generative Modelle in verschiedenen Architekturen analysiert, welche nachjustiert und mittels Transferlernen an die neue Vorhersageaufgabe angepasst werden. Die Generalisierbarkeit des entwickelten Modells wird abschließend auf einer neuen Datenbank getestet, welche Algorithmen enthält, die zum Projektstart noch nicht verfügbar waren. Die im Projekt erstellten Datenbanken und Modelle werden quelloffen der wissenschaftlichen Gemeinschaft sowie der internationalen Standardisierung zur Verfügung gestellt.
DFG-Verfahren
Sachbeihilfen
