Detailseite
Projekt Druckansicht

Datensatzabgleich mit Ähnlichkeitskodierung: Ein Empfehlungsrahmen für überwachtes Lernen zum Verknüpfen von Umfragedaten.

Antragsteller Dr. Marius Liebald, seit 9/2024
Fachliche Zuordnung Statistik und Ökonometrie
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Datenmanagement, datenintensive Systeme, Informatik-Methoden in der Wirtschaftsinformatik
Empirische Sozialforschung
Förderung Förderung seit 2024
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 539465691
 
Die neueste Forschung in Wirtschafts- und Sozialwissenschaften verwendet Umfragen des Deutschen Sozio-ökonomischen Panels (SOEP) und der Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS), um die Auswirkungen externer Schocks auf politische Präferenzen zu untersuchen. Zum Beispiel zeigten Sabet et al. (2022) anhand von SOEP-Daten, dass rechtsextreme terroristische Angriffe in verschiedenen Regionen des Landes zu einer Zunahme rechtspopulistischer Wahlen führen. Andererseits argumentierten Huber & Yendell (2019) unter Verwendung von ALLBUS-Daten, dass christliche Religiosität negativ mit rechtsextremen Einstellungen und Wahlverhalten korreliert. Der Einfluss solcher Schocks auf eine Region hängt stark von der Resilienz der Bevölkerung ab, die von Maßnahmen regionaler und föderaler Politiker beeinflusst wird. Überraschenderweise wurde in früheren Studien das Handeln von Politikern, die von betroffenen Gebieten repräsentiert werden, nach solchen Ereignissen nicht untersucht. Da die SOEP- und ALLBUS-Umfragen keine Informationen über politische Vertreter auf verschiedenen Ebenen enthalten, bleibt dieser Aspekt unerforscht. Das Ignorieren dieser Reaktionen in quantitativen Analysen kann Schätzungen verfälschen und ein umfassendes Verständnis der Kausalmechanismen behindern. Um diese Einschränkung zu überwinden, schlagen wir vor, Politiker aus verschiedenen Ebenen der föderalen Struktur Deutschlands mithilfe geografischer Kennzeichnungen in SOEP und ALLBUS mit Umfrageantworten zu verknüpfen. Informationen über gewählte Politiker und ihre Gegner stammen von abgeordnetenwatch.de und decken europäische, bundesweite und landesweite Wahlen über mehrere Legislaturperioden ab. Darüber hinaus bieten wir an, die Analyse der Politikerreaktionen mithilfe von Natural Language Processing (NLP) zu erleichtern, indem wir Verknüpfungen zu ihren Social-Media-Konten (z.B. Twitter, Facebook) und Wikidata-Einträgen vorschlagen. Es ist zu beachten, dass abgeordnetenwatch.de auch öffentliche Fragen und politische Antworten enthält, wodurch Social-Media-Links optional sind und Störungen durch nicht-politische Inhalte verursachen können. Zentral für diesen Vorschlag ist das Entity Matching (EM). In Fällen, in denen eine gemeinsame Kennung fehlt, beabsichtigen wir, unser kürzlich entwickeltes EM-Framework, MLMATCH (Karapanagiotis & Liebald, 2023), zu verwenden. Dieses Framework kombiniert moderne EM-Techniken auf der Grundlage Künstlicher Neuronaler Netze (ANN) mit einer neuartigen Ähnlichkeitscodierung aus der Wirtschaft. Aufgrund seiner domänenunabhängigen EM-Performance und Skalierbarkeit ist es für unseren Vorschlag geeignet. Wir haben bereits eine Alpha-Version der Software entwickelt und planen, in den kommenden Jahren eine stabile Version öffentlich im Rahmen des DFG-Infrastruktur-Prioritätsprogramms "Neue Datensphären für die Sozialwissenschaften" zu veröffentlichen.
DFG-Verfahren Infrastruktur-Schwerpunktprogramme
Ehemaliger Antragsteller Professor Pantelis Karapanagiotis, Ph.D., bis 8/2024
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung