Detailseite
Erweiterungen des Random-Forest-Algorithmus und ein einfaches Inferenzverfahren für maschinelle Lernverfahren
Antragsteller
Dr. Roman Hornung
Fachliche Zuordnung
Epidemiologie und Medizinische Biometrie/Statistik
Medizininformatik und medizinische Bioinformatik
Medizininformatik und medizinische Bioinformatik
Förderung
Förderung seit 2014
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 266459004
Dieser Antrag ist ein Fortsetzungsantrag zu dem Projekt in dem mehrere Erweiterungen des Random Forest (RF)-Algorithmus zur Lösung praktisch relevanter Probleme entwickelt wurden. Der neue Antrag beinhaltet drei Teile, wobei RF-Methodik im Mittelpunkt der ersten beiden Teile steht und eine weniger wichtige Rolle im dritten Teil einnimmt. Im ersten Teil werden wir eine auf Multi-Class Outcomes zugeschnittene RF-Variante entwickeln. Während diese Variante zu einer Verbesserung der Prädiktion von RFs führen könnte, wird ein klarer Vorteil dieses Verfahrens darin bestehen, dass sein Variablenwichtigkeitsmaß die Multi-Class-Natur des Outcomes besser berücksichtigen wird. Das schließt eine wichtige Lücke, da es derzeit noch keine etablierten, auf Multi-Class-Outcomes zugeschnittenen Variablenwichtigkeitsmaße zu geben scheint. Die vorgeschlagene RF-Variante verwendet den Diversity Forest-Algorithmus, der entwickelt wurde. Im zweiten Teil werden wir eine weitere RF-Variante "Global Forests" entwickeln. Die Bäume in Global Forests werden die Struktur klassischer Bäume verbessern, indem sie voneinander abhängige Splits verwenden, wodurch Interaktionseffekte zwischen den Kovariaten besser berücksichtigt werden. Es wird erwartet, dass dies zu verbesserten Variablenwichtigkeitswerten für Kovariaten führt, die durch ihre Interaktion mit anderen Kovariaten eine starke Wirkung haben. Außerdem könnte es zu verbesserten Prädiktionen führen. Im dritten Teil werden wir eine einfache, allgemein anwendbare Inferenzprozedur für Machine Learning (ML)-Algorithmen entwickeln. Dieses Verfahren wird vor dem Hintergrund der zunehmenden Besorgnis vorgeschlagen, dass Schlussfolgerungen aus ML-Modellen oft als gesichert behandelt werden, ohne ihre statistische Signifikanz zu hinterfragen. Das vorgeschlagene Verfahren ist konservativ, rechnerisch machbar, auf jede ML-Methode anwendbar, sehr einfach zu implementieren und intuitiv verständlich. Es verwendet Bootstrap-Stichproben, ist aber wesentlich weniger rechenaufwendig als klassische Bootstrap-Analyse. Bei der Bearbeitung des ersten und zweiten Teils werden wir umfangreiche Simulationsstudien und Analysen basierend auf echten Daten durchführen, um die Eigenschaften der vorgeschlagenen RF-Varianten zu untersuchen. Beide Varianten werden in unserem R-Paket 'diversityForest' implementiert. Die wichtigsten Eigenschaften der im dritten Teil vorgeschlagenen Inferenzprozedur lassen sich leicht analytisch ableiten. Daher werden wir in diesem Teil nur illustrative Analysen durchführen. Hier werden wir die Anwendbarkeit des vorgeschlagenen Ansatzes auf verschiedene Konzepte im Bereich ML aufzeigen, die normalerweise nicht von klassischen Inferenztechniken abgedeckt werden. Dabei werden wir RFs in allen dieser illustrativen Analysen bis auf eine verwenden.
DFG-Verfahren
Sachbeihilfen