Detailseite
Projekt Druckansicht

Webskalierendes negatives Wissen

Fachliche Zuordnung Datenmanagement, datenintensive Systeme, Informatik-Methoden in der Wirtschaftsinformatik
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2021 bis 2024
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 453095897
 
Erstellungsjahr 2024

Zusammenfassung der Projektergebnisse

Wissensgraphen (Knowledge Graphs, KGs) sind ein wichtig für viele KI-Anwendungen. KGs im Web speichern fast nur positive Aussagen und lassen negative Aussagen außer Acht. Aufgrund der Unvollständigkeit von Open-World-KGs werden fehlende Aussagen nicht als falsch, sondern als unbekannt betrachtet. In diesem Projekt haben wir die folgenden Beiträge geleistet: 1. Wir haben für eine selektive Materialisierung negativer Aussagen über Entitäten in enzyklopädischen KGs argumentiert und drei Arten negativer Aussagen formal definiert: voll instanziierte, universell abwesende und quantifiziert negativ. Wir haben die Peer-basierte Negationsinferenzmethode vorgestellt, um Listen von prägnanten Negationen über Entitäten zusammenzustellen. Die Methode berechnet relevante Peers für eine gegebene Eingabeentität und verwendet deren positive Aussagen, um Erwartungen für die Eingabeentität festzulegen. Eine Erwartung, die nicht zutrifft, ist ein unmittelbarer Negativkandidat und wird dann anhand der Metriken Häufigkeit, Wichtigkeit und Unerwartetheit bewertet. 2. Wir haben eine musterbasierte Methode zur Extraktion von Abfrageprotokollen vorgeschlagen, um auffällige Negativa aus umfangreichen Textquellen zu extrahieren. Diese Methode extrahiert hervorstechende Negative über eine Entität, indem sie große Korpora, d.h. die Abfrageprotokolle von Suchmaschinen, unter Verwendung handgefertigter Muster mit negativen Schlüsselwörtern auswertet. 3. Wir haben die UnCommonsense-Methode eingeführt, um hervorstechende negative Phrasen über alltägliche Konzepte in weniger kanonisierten Commonsense- KGs zu generieren, die kurze natürlichsprachliche Aussagen enthalten. Sie berechnet vergleichbare Konzepte für ein bestimmtes Zielkonzept, leitet aus dem Vergleich ihrer Positiva Negationskandidaten ab und prüft diese Kandidaten anhand des KGs selbst sowie anhand von Sprachmodellen (LMs) als externe Wissensquelle. Schließlich werden die Kandidaten anhand von Häufigkeitsmaßen, die die semantische Ähnlichkeit berücksichtigen, in eine Rangfolge gebracht. 4. Um die Erforschung unserer Methoden und ihrer Ergebnisse zu erleichtern, haben wir zwei Prototypsysteme implementiert. In WikiNegata wurde ein System zur Präsentation der Peer-basierten Methode entwickelt, in dem Benutzer negative Aussagen über 500.000 Entitäten aus 11 Klassen untersuchen und verschiedene Parameter der Peer-basierten Inferenzmethode einstellen können. Im UnCommonsense-System können die Benutzer genau überprüfen, was die Methode bei jedem Schritt produziert, und Negationen zu 8K alltäglichen Konzepten durchsuchen. Darüber hinaus haben wir mit der Peer-basierten Negationsinferenzmethode den ersten großen Datensatz über Demografie und Ausreißer erstellt und seine Nützlichkeit in Anwendungsfällen wie der Identifizierung unterrepräsentierter Gruppen gezeigt. Wir haben alle erstellten Datensätze und den Code veröffentlicht.

Projektbezogene Publikationen (Auswahl)

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung