Detailseite
Auf dem Weg zu einem umfassenden Rahmenwerk für einen Datenqualitätsindex zur Bewertung vielschichtiger Daten zu pflanzengenetischen Ressourcen in EURISCO
Antragsteller
Dr. Stephan Weise
Fachliche Zuordnung
Bioinformatik und Theoretische Biologie
Datenmanagement, datenintensive Systeme, Informatik-Methoden in der Wirtschaftsinformatik
Genetik und Genomik der Pflanzen
Pflanzenbau, Pflanzenernährung, Agrartechnik
Pflanzenzüchtung, Pflanzenpathologie
Datenmanagement, datenintensive Systeme, Informatik-Methoden in der Wirtschaftsinformatik
Genetik und Genomik der Pflanzen
Pflanzenbau, Pflanzenernährung, Agrartechnik
Pflanzenzüchtung, Pflanzenpathologie
Förderung
Förderung seit 2026
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 567327818
Jüngste technologische Fortschritte haben den Umfang, die Komplexität und das Volumen von Daten über pflanzengenetische Ressourcen (PGR) drastisch erweitert und gehen damit über das hinaus, was herkömmliche Methoden zur Datenkuratierung und fragmentierte Ansätze zur Qualitätskontrolle noch zuverlässig bewältigen können. Trotz des steigenden Bewusstseins hinsichtlich der Zuverlässigkeit von Daten verlassen sich viele PGR-Repositorien immer noch auf manuelle oder uneinheitliche Kuratierungsansätze. Zwar haben die FAIR-Prinzipien nachweislich zu Verbesserungen in der Organisation, Auffindbarkeit und technischen Interoperabilität von Informationssystemen geführt, doch greifen diese Prinzipien zu kurz, wenn es um Datenintegrität, semantische Konsistenz oder die Verlässlichkeit erfasster Merkmale und Metadaten geht. Probleme wie fehlerhaft beschriftete Proben, veraltete taxonomische Referenzen, fehlende Umweltbeschreibungen und uneinheitliche Merkmalsbeschreibungen bleiben oft unbemerkt. Solche Fehler potenzieren sich über die Zeit und breiten sich aus, sobald Daten in Aggregator-Systeme hochgeladen oder in mehreren Studien erneut verwendet werden. Züchtungsprogramme, die mit fehlerhaften Datensätzen arbeiten, können genetische Variation falsch einschätzen, Ressourcen für Material verschwenden, das nicht den beschriebenen Eigenschaften entspricht, oder solches Material übersehen, das möglicherweise wichtige Stresstoleranzeigenschaften besitzt. Darüber hinaus verkomplizieren fehlerhafte oder unvollständige Informationen die Einhaltung rechtlicher und politischer Vorgaben, insbesondere solcher, die durch Zugangs- und Vorteilsausgleichsregelungen und internationale PGR-Verträge festgelegt sind. Dieses Projektvorhaben schlägt die Einführung eines Datenqualitätsindexes (DQI) vor, der PGR-Daten systematisch bewertet, einstuft und deren Verbesserung steuert. Während das Konzept grundsätzlich in unterschiedlichen Repositorien zur Anwendung kommen kann, wird eine Implementierung auf einer großen Plattform wie EURISCO angestrebt. EURISCO integriert Passportdaten für Ex-situ- und In-situ-CWR-Sammlungen sowie Charakterisierungs- und Evaluierungsdaten (C&E) aus verschiedenen Genbanken und Forschungseinrichtungen in 43 europäischen Ländern. Das übergeordnete Ziel besteht darin, einen praktikablen Mechanismus bereitzustellen, der gezielte Prüfungen automatisiert, verschiedene Dimensionen der Datenqualität quantifiziert und transparente Qualitätsindikatoren sowohl für Datenlieferanten als auch für Endnutzer generiert. Dieses Projekt stützt sich auf eine Bedarfsanalyse, an der Genbank-Manager, Züchter, Erhaltungsexperten und Forscher beteiligt waren. Diese waren sich weitgehend einig, dass strengere Validierungsprotokolle den Aufwand für manuelle Überprüfungen erheblich reduzieren, das Vertrauen in aggregierte Datensätze erhöhen und kostspielige Fehler reduzieren können.
DFG-Verfahren
Forschungsdaten und Software (Wiss. Literaturversorgung und Informationssysteme)
