Theorie und Praxis von kernbasierten Lernmethoden
Zusammenfassung der Projektergebnisse
In der IDA-Gruppe wurden neue Algorithmen entwickelt, die es erlauben, die gelernte Entscheidungsfunktion von Support Vektor Maschinen zu verstehen, die biologisch relevante Information zu extrahieren und damit zu ihrer Erklärung beizutragen. Unter Verwendung unseres Maschinelles Lernsystems "mSplicer" erzielte Ergebnisse zur Genom Annotation wurden in Plos Computational Biology publiziert. Ausgehend von sozio-demographischen Faktoren, die von einem Teil der deutschen Bevölkerung ermittelt wurden, haben wir optimale Dyadische Entscheidungsbäume verwendet um zu erklären, unter welchen Voraussetzungen Menschen geneigt sind, Kinder zu bekommen. Ein von uns entwickeltes System zur anomaliebasierten Angriffserkennung in Computernetzwerken identifiziert Merkmale, die mit der zugrundeliegenden Semantik von Angriffen verknüpft sind. Dies ermöglicht es den bedienenden Experten, den Grund für die bezeichneten Anomalien zu verstehen. In unserer Gruppe wurden erstmalig Gauss'sche Prozesse verwendet, um die (für die Medikamenten-Entwicklung wichtige) Wasserlöslichkeit chemischer Verbindungen vorherzusagen. Dabei wurde eine hervorragende Genauigkeit der Vorhersagen erzielt und die Validität der individuellen Risikobewertung gezeigt. Zur Detektion von Ausreißern wurden Methoden entwickelt, die auf der Basis von Graphen operieren. Bei deutlich kleinerem Berechnungsaufwand sind diese so leistungsfähig, wie Methoden, die dem Stand der Forschung entsprechen. Die Einfachheit unserer Ausreisserindizes führt gleichzeitig zu einer guten Interpretierbarkeit. In vielen Anwendungen ist das Signal oder die Information nicht Gauss-verteilt und in einem niedrig diminesionalen Unterraum der Eingabedaten enthalten, während der Rest als hoch-dimensionales Gauss'sches Rauschen interpretiert werden kann. In der IDA-Arbeitsgruppe wurde ein neues nicht-lineares Projektionsverfahren entwickelt, dass es erlaubt, solche Unterräume in einem allgemein anwendbaren semiparametrischen Rahmen zu identifizieren. Mit Hilfe unserer Machine Learning Toolbox "Shogun" können Support Vektor Maschinen für Klassifikation und Regression auf mehrere Millionen Datenpunkten trainiert werden. Neben allgemein bekannten Kern-Varianten steht eine Reihe in unserer Arbeitsgruppe neu entwickelter String Kerne einschließlich spezifischer Optimierungen zur Verfügung. Dabei lässt sich ein Kern auch als gewichtete Linearkombination von vielen (hunderten) solcher Kerne konstruieren ("Multiple Kernel Learning"). Die Toolbox ist samt Quellcode öffentlich verfügbar.
Projektbezogene Publikationen (Auswahl)
- Accurate Splice Site Prediction for Caenorhabditis Elegans, pages 277-298. MIT Press series on Computational Molecular Biology. MIT Press, 2004
G. Rätsch and S. Sonnenburg
- Oracle bounds and exact algorithm for dyadic classification trees. In: Shawe-Taylor and Y. Singer, editors, Proceedings of the 17th Conference on Learning Theory (COLT'2004), pages 378-392. Springer, Heidelberg, 2004
Gilles Blanchard, Christin Schäfer, and Yves Rozenholc
- Large scale genomic sequence SVM classifiers. In: Proceedings of the International Conference on Machine Learning, ICML, 2005
Sören Sonnenburg, Gunnar Rätsch, and Bernhard Schölkopf
- Learning interpretable SVMs for biological sequence classification. In: RECOMB 2005, LNBI 3500, pages 389-407. Springer-Verlag Berlin Heidelberg, 2005
Sören Sonnenburg, Gunnar Rätsch, and Christin Schäfer
- RASE: recognition of alternatively spliced exons in c. elegans. Bioinformatics, 21:1369-1377, June 2005
G. Rätsch, S. Sonnenburg, and B. Schölkopf
- Visualization of anomaly detection using prediction sensitivity. In: Sicherheit 2005 (Sicherheit-Schutz und Verlässlichkeit), pages 197-208, 2005
Pavel Laskov, Konrad Rieck, Christin Schäfer, and Klaus-Robert Müller
- From outliers to prototypes: Ordering data. Neurocomputing, 69(13-15):1608-1618, August 2006
Stefan Harmeling, Guido Dornhege, David Tax, Frank Meinecke, and Klaus-Robert Müller
- In search of non-Gaussian components of a high-dimensional distribution. Journal of Machine Learning Research, 7:247-282, 2006
G. Blanchard, M. Sugiyama, M. Kawanabe, V. Spokoiny, and K.-R. Müller
- Large Scale Multiple Kernel Learning. Journal of Machine Learning Research, 7:1531-1565,July 2006
Sören Sonnenburg, Gunnar Rätsch, Christin Schäfer, and Bernhard Schölkopf
- Learning interpretable svms for biological sequence classification. BMC Bioinformatics, Special Issue from NIPS workshop on New Problems and Methods in Computational Biology Whistler, Canada, 18 December 2004, 7:(Suppl. 1:S9), February 2006
Gunnar Rätsch, Sören Sonnenburg, and Christin Schäfer
- Accurate solubility prediction with error bars for electrolytes: A machine learning approach. Journal of Chemical Information and Modelling, 47(2), 2007
Anton Schwaighofer, Timon Schroeter, Sebastian Mika, Julian Laub, Antonius ter Laak, Detlev Sülzle, Ursula Ganzer, Nikolaus Heinrich, and Klaus-Robert Müller
(Siehe online unter https://dx.doi.org/10.1021/ci600205g) - Explaining black-box classification results. Technical report, 2007
Stefan Harmeling, Motoaki Kawanabe, and Klaus-Robert Müller
- Improving the c. elegans genome annotation using machine learning. PLoS Computational Biology, 3:e20, 2007
Gunnar Rätsch, Sören Sonnenburg, Jagan Srinivasan, Hanh Witte, Ralf Sommer, Klaus-Robert Müller, and Bernhard Schölkopf
(Siehe online unter https://dx.doi.org/10.1371/journal.pcbi.0030020) - Language models for detection of unknown attacks in network traffic. Journal in Computer Virology, 2(4):243-256, 2007
Konrad Rieck and Pavel Laskov
- Optimal dyadic decision trees. Machine Learning, 66(2-3):209-241, 2007
G. Blanchard, C. Schäfer, Y. Rozenholc, and K.-R. Müller
(Siehe online unter https://dx.doi.org/10.1007/s10994-007-0717-6)