Detailseite
Projekt Druckansicht

Methoden zur hypothesengetriebenen Analyse sequentieller Daten (HydrAS)

Fachliche Zuordnung Datenmanagement, datenintensive Systeme, Informatik-Methoden in der Wirtschaftsinformatik
Förderung Förderung seit 2021
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 438232455
 
Die zunehmende Verfügbarkeit umfangreicher Spuren über menschliches Verhalten in Form von digitalen Daten erfordert die Entwicklung geeigneter algorithmischer Ansätze aus den Bereichen Informatik und Data Science. Bei diesen Daten handelt es sich oft um Datensequenzen, beispielsweise als Sequenzen von besuchten Webseiten oder Sequenzen besuchter Orte in einer Stadt. Um solche Sequenzdaten zu untersuchen, wurde von den Antragstellern und anderen ein neuer Analyseansatz vorgeschlagen, der es erlaubt, Hypothesen, die aus Intuitionen, aus vorherigen Studien oder aus Sozialtheorien aufgestellt werden können, im Hinblick auf ihre Plausibilität in Bezug auf beobachtete Sequenzdaten in einem Bayes‘schen Ansatz zu vergleichen.Um diesen Forschungsansatz auszubauen, werden wir zur Überwindung bestehender Defizite in diesem Projekt grundlegend neue Datenanalysemethoden entwickeln. Insbesondere werden wir (1) den Prozess der Hypothesenerhebung systematisieren und vereinfachen, indem wir (halb-) automatische Verfahren zur Konstruktion interpretierbarer Basishypothesen aus verfügbarem Hintergrundwissen sowie zur Kombination solcher Basishypothesen entwickeln und integrieren. Darüber hinaus zielen wir darauf ab, (2) Methoden zu entwickeln, die Datensequenzen so partitionieren, so dass jeder Teil der Daten prägnant in Form von Hintergrundinformationen über die Merkmale beschrieben und das Übergangsverhalten in jeder Partition durch vorgegebene Hypothesen erklärt werden kann. So kann Heterogenität in den Daten berücksichtigt werden. Schließlich erweitern wir (3) das Framework der hypothesenbasierten Analyse sequentieller Daten, das sich derzeit auf einfache Markov-Kettenmodelle erster Ordnung konzentriert, auf komplexere Modelle wie Hidden-Markov-Modelle, continuous-time-Markov-Modelle oder neuronale Netze für sequentielle Daten. Dadurch wird es möglich, komplexere und feingliedrigere Hypothesen zu formalisieren, zusätzliche Informationen (z.B. Zeitinformationen) einzubinden und in Anwendungsszenarien die jeweils am besten geeignetsten Modelle auszuwählen.Im Gegensatz zu vielen state-of-the-art Methoden im Machine Learning wird sich unsere Forschung nicht auf Methoden konzentrieren, die die maximale Vorhersagekraft erbringen. Vielmehr fokussiert sich unser Ansatz auf verständliche Erklärungen für potentielle Datengenerierungsprozesse, indem interpretierbare Hypothesen direkt in den Analyseprozess einbezogen werden. In dieser Hinsicht bietet dieses Projekt die Möglichkeit, hypothesengetriebene Datenanalyse einerseits mit aktuellen Methoden des maschinellen Lernens andererseits zu verbinden, um das Verständnis von Sequenzgenerierungsprozessen zu verbessern. Während sich dieses Projekt auf die Entwicklung von Methoden zur Analyse menschlichen Verhaltens konzentriert, erwarten wir, dass sich die Ergebnisse leicht auf andere Anwendungsbereiche mit sequenziellen Daten übertragen lassen.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung