Erfassung von Schläfrigkeit in funkverkehrgestützter Kommunikation: Sprachsignal-gestützte Mustererkennungsanalyse phonetisch-linguistischer Merkmale zum Aufbau eines automatisierten Schläfrigkeits-Detektionssystems
Allgemeine, Kognitive und Mathematische Psychologie
Zusammenfassung der Projektergebnisse
Ziel des Forschungsvorhabens war die Identifikation schläfrigkeitsinduzierter phonetisch-linguistischer Veränderungen der Sprache und die Entwicklung eines darauf aufbauenden, automatisierten Schläfrigkeitsmessverfahrens. Zu diesem Zweck wurde ein schlafdeprivationsbasiertes Sprachkorpus aufgezeichnet. Aufbauend auf Fortschritten der mustererkennungsbasierten Sprachemotionserkennung konnte ferner ein hybrides brute-force und theoriegeleitetes Kennzahlenset extrahiert werden. Die Kernergebnisse des Projekts sind im Kontext der akustischen Schläfrigkeitserkennung: (a) Ersetzen artifizieller durch realitätsnahe Validitätsschätzungen; (b) Geschlechtsspezifische Detektionsraten-Unterschiede (c) Identifikation von akustischen Schläfrigkeitskorrelaten; (d) Multivariate Regressionsergebnisse akustischer Merkmale; (e) Schläfrigkeitsskalierte Referenzwerte: Unimodale vs. multimodale Annotation; (f) Entwicklung eines hybriden Forschungsparadigma. Unabhängig von den bislang generierten Erkenntnissen stellt der Aufbau eines realitätsnahen, moderate Schläfrigkeitsintensitäten berücksichtigenden Korpus das wichtigste forschungsinfrastrukturelle Kernergebnis des Projekts dar. Aus der Perspektive der forschungsstrategischen Wertschöpfung des Projekts kann man die Entwicklung eines hybriden, theorie- und datengeleitete Zugänge integrierenden Ansatzes betonen. Die Integration von Interpretations-orientierten phonetischen mit Performanz-orientierten brute-force Ansätzen eröffnet in Zukunft den Feldern der Stimm-, Video- und Biosignalforschung ein versöhnliches drittes Paradigma. Die Detektion von kritischen Schläfrigkeitszuständen stellt aus der Perspektive von Unfallprävention, Komfortsteigerung und Optimierung von Arbeitsleistung sowohl im betrieblichen als auch privaten Umfeld eine wertvolle Bereicherung dar. Zentrale Einsatzfelder sprachlicher Schläfrigkeitsdetektion liegen in kommunikationsintensiven Tätigkeiten (z.B. bei Fluglotsen oder bei Telefon- und Funkverkehr-gestützten Arbeitsplätzen im Allgemeinen), bei der auf eine bereits vorhandene Kommunikationsinfrastruktur zurückgegriffen werden kann. Ferner ist der Einsatz auch in sprachgesteuerter Human-Computer-Interaction z.B. im Rahmen von Assisted Living Anwendungen denkbar, um empathischere, auf die aktuelle schläfrigkeitsinduzierte Bedürfnislage abgestimmte Dialogführung zu ermöglichen. Schließlich ist die schläfrigkeitsforschungbezogene wissenschaftliche Nutzung von Sprachdaten, die über mobile Endgeräte aus Telefonaten (oder Hintergrundgesprächen) zugänglich werden, eine denkbare Anwendungssituation, um langfristig Aussagen zu Determinanten von Schläfrigkeit in privaten Alltagssituationen treffen zu können. Vor dem Hintergrund dieser Anwendungsfelder könnten zukünftige Forschungsbemühungen aufbauend auf dem realitätsnahen Schläfrigkeitskorpus und den gewonnenen Annotations-Erkenntnissen ein automatisiertes Schläfrigkeitsmessverfahren zur kontinuierlichen Überwachung des Schläfrigkeitszustandes entwickeln. Wenn Detektionsraten verbessert werden sollen, bietet sich die Anreicherung mit videobasierten Ansätzen an. Diesen Ansatz unterstreichen die Ergebnisse des Projekts, die die höchste Reliabilität und Validität für Systeme zeigen, die Video- und Audio- Informationen kombinieren. Zudem ist die Bereicherung um peripherphysiologische Daten wie Herzratenvariabilitäten ein vielversprechender, weil mit robuster Sensorik erfassbarer Ansatz einer multimodalen Schläfrigkeitserkennung. Die folgenden Ergebnisse sind eher überraschend: bessere Detektionsraten für männliche Probanden und die Bedeutung von Expertise und Kontextinformation bei der Annotation von Schläfrigkeit von naiven Ratern, Experten und Versuchsleitern. Des Weiteren konnte eine Vielzahl von bisher unberücksichtigten Korrelaten auf der Ebene der Artikulations- und Stimmqualitäts-bezogenen akustischen Merkmalen identifiziert werden. Überraschend sind darüber hinaus auch die moderaten, nach unten korrigierten Detektionsraten von reinen Audio-basierten Systemen, die bislang durch die Nutzung von wenig realitätsnahen Schläfrigkeitsdaten maskiert wurden. Für zukünftige Applikationsszenarien von Schläfrigkeitsmesssystemen deutet sich daraus abgeleitet an, dass erst multimodale Audio-Video-Physiologie-Systeme die Anforderungen an hohe Messgenauigkeiten erfüllen können. (a) TV-Beiträge: ARD-Mittagsmagazin, 04.12.2013; WDR Lokalzeit Bergisches Land, 18.11.2013; WDR "daheim+unterwegs", 21.05.13; WDR-Aktuelle Stunde, 26.10.13; WDR Lokalzeit, 20.04.13; WDR Lokalzeit, Bergisches Land, 26.10.12; ARD "W wie Wissen", 13.10.13; Lokalzeit Ruhr, „Mittagsschläfchen am Arbeitsplatz“, 18.02.2014; ZDF-Info "Cyber Emotions - Im Netz der Gefühle", 30.09.13; WDR-Lokalzeit aus Dortmund: "Gesundheitsförderung in der Arbeitspause", 10.12.2013, WDR-Lokalzeit, "Ein Schläfchen im Büro, 03.12.2013 (b) Rundfunk-Beiträge: Deutsche Welle, 05.11.13, „Voice analysis: an 'objective' diagnostic tool based on flawed algorithms?“; Radio Wuppertal, 20.02.14; Radio RSG, Thema Schlaf, 28.05.2014; Deutschlandradio „Menschenversteher“, 31.12.14 (c) Printmedien-Beiträge: Bild-Zeitung, Forscher erkennen Depressionen an der Stimme, 25.03.13; Zeit-Magazin, „Der Klang der Seele“, Sept, 2013; Handelsblatt, 29.08.14, „Träum weiter“; Technology Review 03/2014, Bild Zeitung 23.05.13 „Forscher erkennen Depressionen an der Stimme“; Bild-Zeitung, „So stressig sind unsere Autobahnen“, 18.09.14; Süddeutsche Zeitung, 21.02.13; P.M., Klang der Krankheit, Nov. 2012; The Verge, From Alzheimer's to ADHD: what doctors can diagnose from your voice alone, July 17, 2014
Projektbezogene Publikationen (Auswahl)
- (2013). Sustainable reduction of sleepiness through salutogenic self-care procedure in lunch breaks: A pilot study. Evidence-Based Complementary and Alternative Medicine, 1-10
Schnieder, S., Stappert, S., Takahashi, M., Fricchione, G. L., Esch, T., & Krajewski, J.
(Siehe online unter https://doi.org/10.1155/2013/387356) - (2013). Workshop summary for the 3rd international audio/visual emotion challenge and workshop (AVEC'13). Proceedings of the 21st ACM international conference on Multimedia, 21, 1085-1086
Valstar, M., Schuller, B., Krajewski, J., Cowie, R., & Pantic, M.
- (2014) Acoustic-prosodic characteristics of sleepy speech - Between performance and interpretation. Proceedings Speech Prosody, 864-868
Hönig, F., Batliner, A., Nöth, E., Schnieder, S. & Krajewski, J.
- (2014). Are men more sleepy than women or does it only look like–automatic analysis of sleepy speech. Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on (pp. 995-999). IEEE
Hönig, F., Batliner, A., Bocklet, T., Stemmer, G., Nöth, E., Schnieder, S., & Krajewski, J.
(Siehe online unter https://doi.org/10.1109/ICASSP.2014.6853746) - (2014). Automatic modeling of depressed speech: Relevant features and relevance of gender. Proceedings Fifteenth Annual Conference of the International Speech Communication Association, 1248-1252
Hönig, F., Batliner, A., Nöth, E., Schnieder, S., & Krajewski, J.
- (2014). AVEC 2014: the 4th international audio/visual emotion challenge and workshop. In Proceedings of the ACM International Conference on Multimedia (pp. 1243-1244). ACM
Valstar, M., Schuller, B. W., Krajewski, J., Cowie, R., & Pantic, M.
(Siehe online unter https://doi.org/10.1145/2647868.2647869) - (2014). Introduction to the special issue on broadening the view on speaker analysis. Computer Speech and Language, 28, 343-345
Schuller, B., Steidl, S., Batliner, A., Schiel, F., Krajewski, J.
(Siehe online unter https://doi.org/10.1016/j.csl.2013.11.001) - (2014). Medium-term speaker states - A review on intoxication, sleepiness and the first challenge. Computer Speech and Language, 28, 346-374
Schuller, B., Steidl, S., Batliner, A., Schiel, F., Krajewski, J.
(Siehe online unter https://doi.org/10.1016/j.csl.2012.12.002) - (2014). More than fifty years of speech processing – The rise of computational paralinguistics and ethical demands. Proceedings ETHICOMP 2014, Paris, France, Commission de réflexion sur l'Ethique de la Recherche en sciences et technologies du Numérique d'Allistene, CERNA, June 2014
Batliner, A. &.Schuller, B.
- (2014). Probabilistic acoustic volume analysis for speech affected by depression. Proceedings Fifteenth Annual Conference of the International Speech Communication Association, 1238-1242
Cummins, N., Sethu, V., Epps, J., & Krajewski, J.
- (2014). Variability compensation in small data: Oversampled extraction of i-vectors for the classification of depressed speech. Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on (pp. 970-974). IEEE
Cummins, N., Epps, J., Sethu, V., & Krajewski, J.
(Siehe online unter https://doi.org/10.1109/ICASSP.2014.6853741)