Automatische Faktenüberprüfung für Biomedizinische Informationen in Sozialen Medien und Wissenschaftlicher Literatur
Zusammenfassung der Projektergebnisse
Die Erforschung von Methoden zur automatischen Überprüfung von Fakten, also Computermodelle, welche korrekte Information von Fehlinformation oder Desinformation unterscheiden können, fokussiert weitestgehend auf die Nachrichtendomäne sowie auf die Analyse von Beiträgen in sozialen Medien. Hierbei werden unter anderem Texte auf ihren Wahrheitsgehalt geprüft. Dies kann durch die Analyse von linguistischen Merkmalen geschehen, die auf eine Täuschungsabsicht schließen lassen, oder durch einen Abgleich mit anderen Quellen, die inhaltlich vergleichbare Aussagen tätigen. Die meisten Arbeiten legen den Schwerpunkt hierbei auf politisch relevante Bereiche. Ein Gebiet mit besonderer gesellschaftlicher Relevanz ist aber auch die biomedizinische Domäne. In sozialen Medien teilen verschiedene Akteure und medizinische Laien Berichte zu Behandlungmethoden, Erfolgen und Misserfolgen, wie zum Beispiel die (widerlegte) Methode, Virusinfektionen mit Entwurmungsmitteln oder Desinfektionsmitteln zu behandeln. Es finden sich auch Berichte zu (widerlegten) Zusammenhängen zwischen Behandlungen und unerwünschten Wirkungen, wie zum Beispiel die Verursachung von Autismus durch Impfungen. Die biomedizinische Domäne profitiert allerdings, im Gegensatz zu anderen für die automatische Faktenüberprüfung relevanten Bereichen, von einer großen Ressource verlässlicher wissenschaftlicher Artikel. Das Ziel des Projekts FIBISS war es daher, Methoden zu entwickeln und zu evaluieren, welche biomedizinische Behauptungen in sozialen Medien extrahieren können und diese mit verlässlichen Quellen abgleicht. Eine Herausforderung ist hierbei, dass in sozialen Medien typischerweise keine Fachsprache verwendet wird, so dass unterschiedliche Vokabularien miteinander verbunden werden müssen. Der Ansatz in FIBISS war daher, generalisierende Informationsextraktionsmethoden zu entwickeln. Im Verlauf des Projekts haben sich zusätzlich große Sprachmodelle prominent als weiterer methodischer Ansatz platziert. Das Projekt wurde daher im Verlauf dahingehend angepasst, generelle Repräsentationen von Behauptungen so zu optimieren, dass sie für den Vergleich mit Hilfe automatischer Fakten- Überprüfungsverfahren geeignet sind. Im Ergebnis tragen wir Textkorpora bei, die zur Entwicklung und Evaluierung von Systemen zur automatischen biomedizinischen Faktenüberprüfung eingesetzt werden. Wir schlagen Methoden vor, die automatisch Behauptungen so umformulieren, dass sie geeignet sind, automatisch überprüft zu werden. Des Weiteren präsentieren wir Ansätze, die automatisch die Glaubwürdigkeit von Aussagen, auch unabhängig von vorhandener Evidenz, abschätzen können.
Link zum Abschlussbericht
https://doi.org/10.34657/17863
Projektbezogene Publikationen (Auswahl)
-
Claim Detection in Biomedical Twitter Posts. Proceedings of the 20th Workshop on Biomedical Language Processing, 131-142. Association for Computational Linguistics.
Wührl, Amelie & Klinger, Roman
-
CoVERT: A Corpus of Fact-checked Biomedical COVID-19 Tweets. In Proceedings of the Thirteenth Language Resources and Evaluation Conference, pages 244–257, Marseille, France. European Language Resources Association
Isabelle Mohr, Amelie Wührl & Roman Klinger
-
Entity-based Claim Representation Improves Fact-Checking of Medical Content in Tweets. In Proceedings of the 9th Workshop on Argument Mining, pages 187–198, Online and in Gyeongju, Republic of Korea. International Conference on Computational Linguistics
Amelie Wührl & Roman Klinger
-
Recovering Patient Journeys: A Corpus of Biomedical Entities and Relations on Twitter (BEAR). In Proceedings of the Thirteenth Language Resources and Evaluation Conference, pages 4439–4450, Marseille, France. European Language Resources Association
Amelie Wührl & Roman Klinger
-
An Entity-based Claim Extraction Pipeline for Real-world Biomedical Fact-checking. Proceedings of the Sixth Fact Extraction and VERification Workshop (FEVER), 29-37. Association for Computational Linguistics.
Wuehrl, Amelie; Grimminger, Lara & Klinger, Roman
-
UNIDECOR: A Unified Deception Corpus for Cross-Corpus Deception Detection. Proceedings of the 13th Workshop on Computational Approaches to Subjectivity, Sentiment, & Social Media Analysis, 39-51. Association for Computational Linguistics.
Velutharambath, Aswathy & Klinger, Roman
-
Can Factual Statements Be Deceptive? The DeFaBel Corpus of Belief-based Deception. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), pages 2708–2723, Torino, Italia. ELRA and ICCL
Aswathy Velutharambath, Amelie Wührl & Roman Klinger
-
How Entangled is Factuality and Deception in German?. Findings of the Association for Computational Linguistics: EMNLP 2024, 9538-9554. Association for Computational Linguistics.
Velutharambath, Aswathy; Wuehrl, Amelie & Klinger, Roman
-
Understanding Fine-grained Distortions in Reports of Scientific Findings. Findings of the Association for Computational Linguistics ACL 2024, 6175-6191. Association for Computational Linguistics.
Wuehrl, Amelie; Wright, Dustin; Klinger, Roman & Augenstein, Isabelle
-
What Makes Medical Claims (Un)Verifiable? Analyzing Entity and Relation Properties for Fact Verification. Proceedings of the 18th Conference of the European Chapter of the Association for Computational Linguistics (Volume 1: Long Papers), 2046-2058. Association for Computational Linguistics.
Wuehrl, Amelie; Menchaca, Resendiz Yarik; Grimminger, Lara & Klinger, Roman
