Detailseite
Projekt Druckansicht

Visuelle Analyse von Textdatenströmen

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2018 bis 2023
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 392087235
 
Erstellungsjahr 2023

Zusammenfassung der Projektergebnisse

Durch die zunehmende Verbreitung von Online-Nachrichtenportalen und Social-Media-Plattformen hat die Menge an geteilten Texten in den letzten Jahren enorm zugenommen. Journalisten, Geschäftsleute, Soziologen, Informatiker, Katastrophenhelfer und viele weitere Interessengruppen könnten von der Analyse dieser reichhaltigen Quelle an durch Menschen kurierten Informationen erheblich profitieren. Darüber hinaus sind wir mit beispiellosen Bedrohungen konfrontiert, die durch die schnelle und unkontrollierte weltweite Verbreitung von Fehlinformationen und Gerüchten auf diesen Kanälen entstehen. Solche Herausforderungen können nur durch computer-unterstützte Ansätze gestemmt werden. Allerdings stellt der Umgang mit unstrukturierten Daten eine besondere Herausforderung für maschinelle Ansätze dar. Man kann eine Vielzahl unterschiedlicher Operationen an numerischen Daten durchführen, aber Text ist mehr als eine Folge von Zeichen. Die Art der Repräsentation von Text ist schon ein wichtiger Teil des Algorithmus. Der Großteil der bisherigen Forschung konzentrierte sich entweder auf die Analyse einzelner Dokumente oder auf eher breite Aggregationen von Korpora in einer Offline-Umgebung. Um die Entwicklung von Inhaltsmustern zu verstehen, anomale Informationen zu erkennen und groß angelegte koordinierte Aktivitäten zu entdecken, müssen wir uns allerdings auch mit den inhärenten Herausforderungen des Echtzeit-Streamings von Text auseinandersetzen. Um all die genannten Herausforderungen anzugehen, bestand das Ziel dieses DFG Projekts darin, neuartige visuelle Analyseansätze zu entwickeln, die nicht nur die Analyse großer Textkorpora erleichtern, sondern auch die Echtzeitanalyse und Überwachung von hochfrequenten Streaming-Beiträgen ermöglichen. Wir haben zunächst ein geeignetes Benchmark-Repository bestehend aus Artikeln und Kommentaren von Nachrichtenagenturen, sozialen Netzwerken und Microblogs beschafft, um unsere Ansätze mit realen Daten in realistischen Szenarien zu füttern und zu testen. Wir haben effiziente Methoden zur Textaggregation vorgeschlagen, die dynamisch mit kontinuierlich eintreffenden Artikeln arbeiten können und wichtige Wörter, Phrasen und verbundene Phrasenblöcke extrahieren. Basierend auf diesen Aggregationen haben wir ein neues interaktives visuelles Layout entwickelt, das die wichtigsten Konzepte im Zeitverlauf in großen Korpora wie Nachrichtenartikeln vermittelt. Wir haben einen neuen dynamischen Clustering- Algorithmus vorgeschlagen, der sich aufgrund seiner Effizienz besonders für die Clusterung von Streaming-Text eignet. Wir haben unsere Text-Mining- und Clustering-Techniken in ein neuartiges visuelles Analysesystem für die Echtzeitüberwachung und -analyse von hochfrequenten Streaming-Beiträgen integriert. Es bietet einen dynamischen, visuellen Überblick über die Themenlandschaft. Analysten können bestimmte Themen auf verschiedenen Granularitätsebenen detaillierter überwachen. Unsere visuellen Zusammenfassungen helfen dabei, Inhalte zu aggregieren und zu filtern, um die kognitive Belastung zu reduzieren und gleichzeitig die wichtigsten Entwicklungen nachvollziehen zu können. Unsere im Rahmen dieses Projektes entwickelten Visual Analytics Ansätze ermöglichen Analysten unterschiedlicher Disziplinen größere Datenmengen schneller und detaillierter als bisher zu erfassen und zu analysieren, insbesondere wenn dies in Echtzeit mit kontinuierlich eintreffenden Artikeln und Kommentaren erfolgen muss.

Projektbezogene Publikationen (Auswahl)

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung