Integration von Text Mining Verfahren mit multivariater Zeitreihenanalyse
Zusammenfassung der Projektergebnisse
Der Fokus des Projektes liegt auf Methoden zur gemeinsamen Modellierung von textbasierten Indikatoren und multivariaten ökonomischen Zeitreihen. Dabei werden textbasierte Indikatoren mit Hilfe des Latent Dirichlet Allocation (LDA) Modells generiert. LDA ist ein unüberwachtes statistisches Modell, das es ermöglicht, latente Themen in einer Textsammlung auf der Grundlage des gemeinsamen Auftretens bestimmter Wörter aufzudecken. Im Rahmen des Projekts werden sowohl die Anwendungen des LDA-Algorithmus für ökonomische Anwendungen als auch Faktoren, die Einfluss auf die Schätzergebnisse haben, untersucht. Auf der Anwendungsseite verwenden wir wissenschaftliche Publikationen aus Deutschland und Polen, und schlagen eine LDA-basierte Methode für Korpora übergreifende Vergleiche vor, das sogenannte Topic Matching. Wir zeigen, dass der vorgeschlagene Topic-Matching- Ansatz es erlaubt, die Topic-Wort-Verteilungen zweier verschiedener LDA-Modelle zu vergleichen und geeignete Topic-Paare in Textkorpora zu identifizieren. Dies ist nützlich beim Vergleich von Thementrends in verschiedenen Ländern sowie bei der Analyse der Entstehung und Entwicklung von Thementrends im Laufe der Zeit für Stichproben desselben Korpus. Basierend auf der gemeinsamen Analyse von extrahierten Themen-Zeitreihen und realwirtschaftlichen Indikatoren in vektorautoregressiven (VAR)-Modellen für beide Länder wurden signifikante Zusammenhänge zwischen Themen in der wissenschaftlichen Literatur und realen Entwicklungen für die betrachteten Themenpaare und die entsprechenden ökonomischen Indikatoren identifiziert. Diese Ergebnisse bilden die Grundlage für weitere Forschungen zur gemeinsamen Modellierung von Zeitreihen und Textindikatoren. Auf der methodischen Seite untersuchen wir die Sensitivität des LDA-Algorithmus gegenüber verschiedenen Parametereinstellungen. Zunächst schlagen wir vor, die Anzahl der Themen in jedem Korpus anhand des singulären Bayesschen Informationskriteriums (sBIC) auszuwählen. Des Weiteren führen wir eine umfassende Monte-Carlo-Studie (MC) durch, um sBIC und andere häufig verwendete Metriken zur Auswahl der Themenanzahl zu vergleichen. Die Ergebnisse der MC-Studie liefern wertvolle praktische Empfehlungen für die LDA- Modellauswahl in Text-als-Daten-Anwendungen. Eine weitere Analyse konzentriert sich auf den Einfluss der Textvorverarbeitung, insbesondere des Entfernens seltener Begriffe, auf die Ergebnisse der LDA Modellschätzungen. Die vorläufigen Ergebnisse liefern erste praktische Empfehlungen, wie durch das Entfernen seltener Wörter die Dimensionalität des Datenkorpus und damit der Rechenaufwand erheblich reduziert werden können, ohne dass es zu qualitativen Einbußen bei den resultierenden Themen kommt.
Projektbezogene Publikationen (Auswahl)
-
Choosing the Number of Topics in LDA Models - A Monte Carlo Comparison of Selection Criteria.
Bystrov, V., Naboka, V., Staszewska-Bystrova, A. & Winker, P.
-
Cross-Corpora Comparisons of Topics and Topic Trends. Jahrbücher für Nationalökonomie und Statistik, 242(4), 433-469.
Bystrov, Victor; Naboka, Viktoriia; Staszewska-Bystrova, Anna & Winker, Peter
-
Dataset for Cross-corpora comparisons of topics and topic trends. Version: 1. ZBW Journal Data Archive
Bystrov, V., Naboka, V., Staszewska-Bystrova, A. & Winker, P.
-
Visualizing Topic Uncertainty in Topic Modelling
Winker, P.
-
Comparing Links between Topic Trends and Economic Indicators in the German and Polish Academic Literature. Comparative Economic Research. Central and Eastern Europe, 27(2), 7-28.
Bystrov, Victor; Naboka‑Krell, Viktoriia; Staszewska‑Bystrova, Anna & Winker, Peter
-
Analysing the Impact of Removing Infrequent Terms on Topic Quality in Latent Dirichlet Allocation Models. Central European Journal of Economic Modelling and Econometrics, 61-85.
Bystrov, Victor; Naboka-Krell, Viktoriia; Staszewska-Bystrova, Anna & Winker, Peter
