Detailseite
Projekt Druckansicht

Sprachverarbeitung in den Gesundheitswissenschaften

Fachliche Zuordnung Informatik
Förderung Förderung seit 2026
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 549142762
 
Ähnlich zu einem Biomarker enthält Sprache Informationen über den physiologischen und psychologischen Zustand, die sich im gesamten komplexen Prozess der Sprachproduktion manifestieren. In den vergangenen Jahren gab es bedeutende Verbesserungen in der automatischen Spracherkennung (ASR), der Verarbeitung natürlicher Sprache (NLP) und bei sprachbasierte Agenten (CA). Aktuelle Spitzenmodelle der transformer-basierten ASR-Systeme haben jedoch Schwierigkeiten mit atypischer Sprache, werden oft mit unausgewogenen (biased) Daten trainiert und neigen dazu, geglättete und gut lesbare Ausgaben zu erzeugen, anstatt eine wörtliche Version. Ähnlich werden große Sprachmodelle (LLMs) für die Aufgabenerfüllung mit einem Minimum an Sprecherwechsel trainiert und nicht, um einem CA zu ähneln. Dieser Forschungsimpuls (FI) zielt darauf ab, die Schwächen aktueller Spitzenmodelle für atypische Sprache zu verstehen und anzugehen, um Modelle zu entwerfen, zu entwickeln und einzusetzen, die als diagnostische Hilfsmittel und in gesundheitsbezogenen Mensch-Maschine- und Mensch-Mensch- Interaktionen verwendet werden können. Gleichzeitig strebt der FI eine Ressourceneffizienz an und erforscht Wege um datenschutzsensible Daten sicher zu verarbeiten. Der Vorschlag besteht aus Kernprojekten, die die Grundlage für anwendungsspezifische Vertikale bilden. Wörtliche, reichhaltige Transkription atypischer Sprache bildet die Basis für diagnostische und nachgelagerte NLP-Aufgaben. Grundlagenmodelle für atypische Sprache erfassen latente Hinweise über den physischen und emotionalen Zustand des Sprechers, um Hinweise für diagnostische Hilfsmittel zu geben oder Interaktionsszenarien zu erweitern. LLMs für konversationelle Interaktionen werden für die Analyse und Erzeugung natürlicher Sprache in Ambient Assisted Living und Online-Beratung verwendet. Low Ressource Computing untersucht Modellkompression und Quantisierung, um Trainings- und Inferenzkosten zu reduzieren, sowie neuromorphes Computing für eingebettete Echtzeitberechnung und geringen Stromverbrauch. Da Sprachdaten hochsensibel sind, untersucht das Confidential Computing kryptografische Protokolle und Architekturen für Training und Inferenz. Die Vertikalen erforschen neue Anwendungen: Ein sprachbasiertes Schlafprotokoll als objektive Bewertung der Schlafqualität; Konversationsagenten, die verbesserte Autonomie beeinträchtigter Patienten mit gesundheitsbezogenem Monitoring kombinieren; multi-modale Agenten für verbesserte Akzeptanz und Erfolg der psychosozialen Online-Beratung; eingebettete stromsparende Sprachsynthese als Stimmprothese; automatisierte hermeneutische Kodierung. Die notwendigen klinischen und Feldstudien werden zentral koordiniert. In einer gemeinsamen Anstrengung wird dieser FI einen universalen Benchmark für atypische Sprache implementieren, der Transkriptionsgenauigkeit und diagnostische Aufgaben umfasst, um eine ganzheitliche Bewertung für die Forschungsgemeinschaft zu definieren.
DFG-Verfahren Forschungsimpulse
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung