Visuelle Analyse von Textdatenströmen
Zusammenfassung der Projektergebnisse
Durch die zunehmende Verbreitung von Online-Nachrichtenportalen und Social-Media-Plattformen hat die Menge an geteilten Texten in den letzten Jahren enorm zugenommen. Journalisten, Geschäftsleute, Soziologen, Informatiker, Katastrophenhelfer und viele weitere Interessengruppen könnten von der Analyse dieser reichhaltigen Quelle an durch Menschen kurierten Informationen erheblich profitieren. Darüber hinaus sind wir mit beispiellosen Bedrohungen konfrontiert, die durch die schnelle und unkontrollierte weltweite Verbreitung von Fehlinformationen und Gerüchten auf diesen Kanälen entstehen. Solche Herausforderungen können nur durch computer-unterstützte Ansätze gestemmt werden. Allerdings stellt der Umgang mit unstrukturierten Daten eine besondere Herausforderung für maschinelle Ansätze dar. Man kann eine Vielzahl unterschiedlicher Operationen an numerischen Daten durchführen, aber Text ist mehr als eine Folge von Zeichen. Die Art der Repräsentation von Text ist schon ein wichtiger Teil des Algorithmus. Der Großteil der bisherigen Forschung konzentrierte sich entweder auf die Analyse einzelner Dokumente oder auf eher breite Aggregationen von Korpora in einer Offline-Umgebung. Um die Entwicklung von Inhaltsmustern zu verstehen, anomale Informationen zu erkennen und groß angelegte koordinierte Aktivitäten zu entdecken, müssen wir uns allerdings auch mit den inhärenten Herausforderungen des Echtzeit-Streamings von Text auseinandersetzen. Um all die genannten Herausforderungen anzugehen, bestand das Ziel dieses DFG Projekts darin, neuartige visuelle Analyseansätze zu entwickeln, die nicht nur die Analyse großer Textkorpora erleichtern, sondern auch die Echtzeitanalyse und Überwachung von hochfrequenten Streaming-Beiträgen ermöglichen. Wir haben zunächst ein geeignetes Benchmark-Repository bestehend aus Artikeln und Kommentaren von Nachrichtenagenturen, sozialen Netzwerken und Microblogs beschafft, um unsere Ansätze mit realen Daten in realistischen Szenarien zu füttern und zu testen. Wir haben effiziente Methoden zur Textaggregation vorgeschlagen, die dynamisch mit kontinuierlich eintreffenden Artikeln arbeiten können und wichtige Wörter, Phrasen und verbundene Phrasenblöcke extrahieren. Basierend auf diesen Aggregationen haben wir ein neues interaktives visuelles Layout entwickelt, das die wichtigsten Konzepte im Zeitverlauf in großen Korpora wie Nachrichtenartikeln vermittelt. Wir haben einen neuen dynamischen Clustering- Algorithmus vorgeschlagen, der sich aufgrund seiner Effizienz besonders für die Clusterung von Streaming-Text eignet. Wir haben unsere Text-Mining- und Clustering-Techniken in ein neuartiges visuelles Analysesystem für die Echtzeitüberwachung und -analyse von hochfrequenten Streaming-Beiträgen integriert. Es bietet einen dynamischen, visuellen Überblick über die Themenlandschaft. Analysten können bestimmte Themen auf verschiedenen Granularitätsebenen detaillierter überwachen. Unsere visuellen Zusammenfassungen helfen dabei, Inhalte zu aggregieren und zu filtern, um die kognitive Belastung zu reduzieren und gleichzeitig die wichtigsten Entwicklungen nachvollziehen zu können. Unsere im Rahmen dieses Projektes entwickelten Visual Analytics Ansätze ermöglichen Analysten unterschiedlicher Disziplinen größere Datenmengen schneller und detaillierter als bisher zu erfassen und zu analysieren, insbesondere wenn dies in Echtzeit mit kontinuierlich eintreffenden Artikeln und Kommentaren erfolgen muss.
Projektbezogene Publikationen (Auswahl)
-
Highlighting Text Regions of Interest with Character-Based LSTM Recurrent Networks. In: Postersession at the IEEE Conference on Visualization, 2018. - Peer Reviewed Poster.
Knittel, Johannes; Koch, Steffen & Ertl, Thomas
-
Interactive Hierarchical Quote Extraction for Content Insights. In: EuroVis 2019 - Posters : The Eurographics Association, 2019. - Peer Reviewed Poster. ISBN 978-3-03868-088-8
Knittel, Johannes; Koch, Steffen; Ertl, Thomas; Madeiras Pereira, João & Raidou, Renata Georgia
-
Pattern-Based Semantic and Temporal Exploration of Social Media Messages. 2019 IEEE Conference on Visual Analytics Science and Technology (VAST), 134-135. IEEE.
Knittel, Johannes; Koch, Steffen & Ertl, Thomas
-
Efficient sparse spherical k-means for document clustering. Proceedings of the 21st ACM Symposium on Document Engineering, 1-4. ACM.
Knittel, Johannes; Koch, Steffen & Ertl, Thomas
-
ELSKE. Proceedings of the 21st ACM Symposium on Document Engineering, 1-4. ACM.
Knittel, Johannes; Koch, Steffen & Ertl, Thomas
-
Online Study of Word-Sized Visualizations in Social Media. In: EuroVis 2021 - Posters : The Eurographics Association, 2021. - Peer Reviewed Poster. ISBN 978- 3-03868-144-1
Huth, Franziska; Awad-Mohammed, Miriam; Knittel, Johannes; Blascheck, Tanja; Isenberg, Petra; Byška, Jan; Jänicke, Stefan & Schmidt, Johanna
-
PlotThread: Creating Expressive Storyline Visualizations using Reinforcement Learning. IEEE Transactions on Visualization and Computer Graphics, 27(2), 294-303.
Tang, Tan; Li, Renzhong; Wu, Xinke; Liu, Shuhan; Knittel, Johannes; Koch, Steffen; Ertl, Thomas; Yu, Lingyun; Ren, Peiran & Wu, Yingcai
-
PyramidTags: Context-, Time-and Word Order-Aware Tag Maps to Explore Large Document Collections. IEEE Transactions on Visualization and Computer Graphics, 27(12), 4455-4468.
Knittel, Johannes; Koch, Steffen & Ertl, Thomas
-
Visual Neural Decomposition to Explain Multivariate Data Sets. IEEE Transactions on Visualization and Computer Graphics, 27(2), 1374-1384.
Knittel, Johannes; Lalama, Andres; Koch, Steffen & Ertl, Thomas
-
Large-scale analysis of textual and multivariate data combining machine learning and visualization. Dissertation, Universität Stuttgart 2022
Knittel, Johannes
-
Real-Time Visual Analysis of High-Volume Social Media Posts. IEEE Transactions on Visualization and Computer Graphics, 28(1), 879-889.
Knittel, Johannes; Koch, Steffen; Tang, Tan; Chen, Wei; Wu, Yingcai; Liu, Shixia & Ertl, Thomas
