Die automatische zeitliche Vermessung sprachlicher Äußerungen im Deutschen, Englischen und Niederländischen: Entwicklung einer Software für experimentelle Psycholinguisten
Zusammenfassung der Projektergebnisse
Ziel des Projektes war die Weiterentwicklung und Evaluierung eines Tools zur automatischen zeitlichen Segmentierung von sprachlichen Äußerungen. In den meisten Sprachproduktionsstudien dienen die Latenz, mit der die Teilnehmer sprachlich auf einen Stimulus reagieren, und/oder die zeitliche Struktur ihrer Äußerungen (Beginn und Ende einzelner Wörter) als abhängige Variablen. Dabei ging es sowohl um die Erfassung des Äußerungsonsets als auch um die Erfassung eines Wortonsets und -offsets innerhalb der Äußerung. Untersuchte Sprachen waren Deutsch, Englisch und Niederländisch. In Abgrenzung zu anderen Vermessungstools wurde dabei auf einen HMM-basierten Spracherkenner zurückgegriffen, um zusätzlich zur Onset-Segmentierung eine Binnensegmentierung zu ermöglichen. Zur Evaluation wurden Korpora von Einzelwort- und Mehrwortäußerungen auf Deutsch, Englisch und Niederländisch aufgenommen und manuell zeitlich annotiert. Darüber hinaus wurden vorhandene Korpora semi-spontansprachlicher Daten zeitlich annotiert. In einem ersten Schritt entwickelten wir AUDIOMAX weiter, das auf esmeralda beruhte. Die Ergebnisse für die Einzelwort- und Mehrwortäußerungen zeigten, dass längere Stillezeiten in der zu alinierenden Sprachdatei zu massiven Problemen bei der Alinierungsgenauigkeit des Tools führten. Dies ist auf prinzipielle Probleme der akustischen Modellierung von Stille, die im Wesentlichen Rauschen darstellt, durch ein statistisches Spracherkennungsmodell zurückzuführen. Daher gaben wir die ursprüngliche Architektur von AUDIOMAX auf und entwickelten im zweiten Teil der Projektlaufzeit einen in wesentlichen Teilen alternativen Ansatz zur Implementierung der Voice-Key Funktionalität des Programms, indem wir der forcierten Alinierung eine Voice-Activity-Detection (VAD) vorschalteten, die Sprachon- und -offsets histogramm-basiert detektiert, also Kontraste betrachtet. Des Weiteren trafen wir die Entscheidung, statt esmeralda MAUS zu verwenden, eine auf kontinuierlichen HMMs basierte Spracherkennungsumgebung. Die Evaluation der verschiedenen Korpora mit diesem erweiterten System zeigt prinzipiell eine Alinierungsgenauigkeit des Tools die vergleichbar zu der manueller Segmentierungen ist, wenn man Daten mit guter Aufnahmequalität betrachtet. Insgesamt konnten zwei relevante Einflußfaktoren auf die Alinierungsgenauigkeit der automatischen Segmentierung identifiziert werden: (1) die Aufnahmequalität und (2) die Äußerungsdauer. Mit abnehmender Aufnahmequalität nimmt die Genauigkeit des Tools im Vergleich zu manuellen Segmentierungen ab. Mit zunehmender Länge der Äußerung nimmt die Alinierungsgenauigkeit ab, wobei Alinierungen zum Ende von Äußerungen ungenauer sind als zu Beginn. Basierend auf diesen Beobachtungen bietet das Tool daher neben einer Unterstützung der Verarbeitung größerer Datenmengen von Sprachäußerungen aus psycholinguistischen Experimenten auch Unterstützung für (1) eine schnelle Überprüfbarkeit der Alinierungsergebnisse durch eine Visualisierung auch von Zwischenergebnissen in Praat sowie für (2) die Evaluation der Alinierungsgenauigkeit bei Vorlage einer annotierten Teilstichprobe.
Projektbezogene Publikationen (Auswahl)
- (2018) AlignTool: The automatic temporal alignment of spoken utterances in German, Dutch, and British English for psycholinguistic purposes. Behavior research methods 50 (2) 466–489
Schillingmann, L., Ernst, J., Keite, V., Wrede, B., Meyer, A. S., & Belke, E.
(Siehe online unter https://doi.org/10.3758/s13428-017-1002-7) - International Workshop on Language Production 2014, Geneva: AUDIOMAX: A software using an automatic speech recognition system for fast and accurate temporal analyses of word onsets in spoken utterances
D. Katzberg, E. Belke, B. Wrede, J. Ernst, Th. Berwe, A.S. Meyer