Qualitätsmessung multimodaler Mensch-Maschine-Interaktion
Final Report Abstract
In dem Forschungsprojekt „Qualitätsmessung multimodaler Mensch-Maschine-Interaktion“ wurde erstmals ein Ansatz zur Vorhersage von Qualität multimodaler Mensch-Maschine Interaktion erstellt. Mit einer Taxonomie von Qualitätsaspekten, die ein Nutzer während der multimodalen Mensch-Maschine Interaktion erfährt, wurden drei Ziele verfolgt: Die prinzipielle Identifikation relevanter Qualitätsaspekte und bekannter und möglicher Wechselwirkungen, insbesondere auf die Gesamtinteraktionsqualität erlaubt es, bei der Evaluierung von Benutzerschnittstellen relevante Maße zu benennen auszuwerten. Dazu sind auch direkte und indirekte Maße, soweit bekannt und validiert, für die verschiedenen Qualitätsaspekte angegeben. Die Nutzung bekannter Wechselwirkungen erlaubt ein systematisches Vorgehen bei dem Design und Implementierung solcher Schnittstellen. Zudem können leicht Lücken im Forschungsstand identifiziert werden, und so empirische Untersuchungen zu Wechselwirkungen von Qualitätsaspekten, aber auch zur Entwicklung von Methoden zur Messung von Qualitätsaspekten geplant werden. Die Sammlung von Definitionen multimodaler Interaktionsparamter erlaubt erstmals die parametrische Beschreibung individueller Interaktionsabläufe. Diese können zur Evaluierung von Systemen und Systemkomponenten verwendet werden und bilden daher ein indirektes Maß aus der Taxonomie von Qualitätsaspekten. Weiterhin sind diese Parameter zentraler Bestandteil der Vorhersage von Interaktionsqualität, die eben nicht nur von statischen Faktoren zur Beschreibung der Benutzerschnittstellen abhängt, sondern von der erlebten Interaktion des jeweiligen Nutzers. Beispielsweise hängt bei der systemseitigen Bereitstellung verschiedener Modalitäten die individuelle Gesamtbeurteilung von der jeweiligen Verwendung dieser Modalitäten ab. Neben der Erstellung der Taxonomie und der Sammlung multimodaler Interaktionsparameter, wurden zahlreiche Laborexperimente durchgeführt. Ziel dieser aufeinander aufbauenden Experimente waren zum Einen die Evaluierung möglicher Einflussfaktoren (insbesondere Qualitätsaspekte und Nutzerfaktoren) für ihre Verwendung im Modell, zum Anderen konnten jedoch auch direkt Erkenntnisse im Bereich der Mensch-Maschine Interaktion gewonnen werden. Ausgewählte Hauptergebnisse sind: • Das zufriedenstellende Beschreiben von Nutzerurteilen anhand indirekter Maße (also Interaktionsparametern oder Systemfaktoren, gegenüber direkten Messungen mit Fragebögen) basierend auf dem hier vorgestellten Modellansatz. • Der Nutzen von Interaktionsparametern aus der neu definierten Sammlung für die Modellierung von Nutzerurteilen. • Der genaue Einfluss speziell multimodaler Interaktionsparameter im Vergleich zu anderen (bspw. Anzahl Nutzereingaben pro Modalität im Vergleich zur Gesamtinteraktionsdauer). • Der überraschend hohe Einfluss der Ausgabequalität auf die Interaktionsqualität. • Der deutliche Einfluss der Altersgruppe auf die Modalitätenpräferenz und Interaktionsbewertung. • Das Fehlen konsistenter Effekte für Nutzermerkmale wie Geschlecht, Domänenwissen oder Erwartungshaltung. • Das Fehlen konsistenter Effekte von Fehlerraten der Erkennermodule für Sprach- und Gestenerkennung bei sehr guten Erkennerleistungen. • Das Fehlen eines Einflusses audio-visueller Sprachsynthese. Während mit der Erwartungshaltung ein Ergebnis für eine andere Anwendungsdomäne bekräftigt werden kann, ist der fehlende Einfluss der anderen untersuchten Faktoren durchaus überraschend. Insbesondere der letzte Punkt erweitert das Forschungsfeld Embodied Conversational Agents in der aktuellen Diskussion eines solchen Einflusses, da das hier beobachtete Ergebnis unabhängig davon auftritt, wie intensiv der Nutzer die audio-visuelle Synthese beobachtet. Dementsprechend wurde dieser Aspekt auch in einem Beitrag des Deutschlandfunks (Forschung aktuell, 29.09.2010) der interessierten Öffentlichkeit zugänglich gemacht. Der Modellansatz zur Vorhersage von Interaktionsqualität bei multimodalen Nutzerschnittstellen beinhaltet nach Auswertung der empirisch gewonnenen Ergebnisse: • die dafür erstellte Sammlung definierter multimodaler Interaktionsparameter zur Erfassung des individuellen Interaktionsverlaufs mit für die Interaktionsqualität relevanten Metriken; • Systemfaktoren wie etwa bereitgestellte Modalitäten; sowie • Schätzungen als besonders relevant erkannter Qualitätsaspekte, bisher also die Qualität der Systemausgabe. Zur Erfassung wurden sowohl Fragebögen nach durchgeführter Interaktion als auch passive Kurztest durchgeführt, wobei letzterer zur Verwendung für die Vorhersage vorgeschlagen wird, bis validierte automatische Verfahren diesen ersetzen können. Für verschiedene Nutzergruppen – als relevant erkannt wurden ältere gegenüber jüngeren Erwachsenen – müssen die konkreten Modelle jeweils separat angepasst werden, da der derzeitige Ansatz aus multiplen linearen Regressionen besteht. Bei Nutzung eines komplexeren Ansatzes, was sich erst nach weiterer Datenerhebung und –auswertung rechtfertigen lässt, könnte der Einfluss der Nutzergruppe auch in ein Gesamtmodell integriert werden. Derzeit wird dieser Modellansatz weiter validiert. Die erreichten Erkenntnisse gelten vorerst für multimodale Systeme zur Steuerung von Hausgeräten. Jedoch sollte der vorgestellte Ansatz um adaptive Systeme und mobile Szenarien erweitert werden, um der aktuellen technischen Entwicklung Rechnung zu tragen. Als Folge müssten insbesondere Kontextfaktoren berücksichtigt und parametrisiert, sowie die hier geleisteten Arbeiten zur Nutzerklassifikation überprüft werden.
Publications
-
(2010): Evaluating Multimodal Systems – A Comparison of Established Questionnaires and Interaction Parameters. Proc. NordiCHI, pp. 286–293
Kühnel, C., Weiss, B., Möller, S.
-
(2010): Evaluation of Multimodal Interfaces for Ambient Intelligence. In: H. Aghajan, R. López-Cózar Delgado and J.C. Augusto, Human-Centric Interfaces for Ambient Intelligence, Chapter 14, Academic Press, London, pp. 347–370
Möller, S., Engelbrecht, K.-P., Kühnel, C., Naumann, A., Wechsung, I., Weiss, B.
-
(2010): Parameters Describing Multimodal Interaction – Definitions and Three Usage Scenarios. Proc. INTERSPEECH, pp. 2014–2017
Kühnel, C., Weiss, B., Möller, S.
-
(2010): Quality of Experiencing Multi-Modal Interaction. In: W. Minker, G. Lee, J. Mariani, S. Nakamura, Spoken Dialogue Systems Technology and Design, Springer, Boston
Weiss, B., Möller, S., Wechsung, I., Kühnel, C.
-
(2010): Quality of Talking Heads in Different Interaction and Media Contexts. Speech Communication 52(6), pp. 481–492
Weiss, B., Kühnel, C., Wechsung, I., Fagel, S., Möller, S.
-
(2011): I'm Home: Defining and Evaluating a Gesture Set for Smart-Home Control. International Journal of Human-Computer Studies
Kühnel, C., Westermann, T., Hemmert, F., Kratz, S., Möller, S.