Detailseite
Projekt Druckansicht

Vollautomatisches dichtebasiertes Clustering für Sentimentanalyse

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2012 bis 2018
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 219327280
 
Viele wissenschaftliche Disziplinen wenden Clustering zur explorativen Datenanalyse, Theoriebildung und statistischen Inferenz an. Dennoch sind wesentliche Aspekte der verwendeten Algorithmen heuristisch und haben oft schlecht verstandene statistische Eigenschaften. Wir wollen diese Probleme durch die Entwicklung und Analyse neuer Clusteringalgorithmen angehen. Diese Algorithmen sollen die Clusteranzahl und andere algorithmusspezifische Hyperparameter vollautomatisch wählen, so dass für hinreichend große Datenmengen statistische Garantien im Hinblick auf ein mathematisch präzises und praktisch bedeutsames Clusteringziel gegeben werden können. Wir setzen diese neuen Clusteringalgorithmen zur Sentimentanalyse ein, einem Problem aus der maschinellen Sprachverarbeitung, bei dem die Bestimmung der unterschiedlichen Meinungen im Wesentlichen eine Clusteringaufgabe ist. Da alle Hyperparameter der Clusteringalgorithmen automatisch bestimmt werden, sind Metrik (bzw. Ähnlichkeitsmaß) und Datenrepräsentation die einzigen domänenspezifischen Eingaben. Als größte Herausforderung bleiben dann Polaritätsmodifikatoren, z.B. Wörter wie nicht, die die Polarität umkehren. Wir werden Methoden entwickeln, um Polaritätsmodifikatoren automatisch zu lernen und so zu repräsentieren, dass ein präzises Ähnlichkeitsmaß für Sätze definiert und dann für erfolgreiches Clustering genutzt werden kann.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung