Theorie und Praxis von kernbasierten Lernmethoden

Applicant Professor Dr. Klaus-Robert Müller

Subject Area Security and Dependability, Operating-, Communication- and Distributed Systems

Term from 2004 to 2007

Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 5434007

Final Report Year 2007

Final Report Abstract

In der IDA-Gruppe wurden neue Algorithmen entwickelt, die es erlauben, die gelernte Entscheidungsfunktion von Support Vektor Maschinen zu verstehen, die biologisch relevante Information zu extrahieren und damit zu ihrer Erklärung beizutragen. Unter Verwendung unseres Maschinelles Lernsystems "mSplicer" erzielte Ergebnisse zur Genom Annotation wurden in Plos Computational Biology publiziert. Ausgehend von sozio-demographischen Faktoren, die von einem Teil der deutschen Bevölkerung ermittelt wurden, haben wir optimale Dyadische Entscheidungsbäume verwendet um zu erklären, unter welchen Voraussetzungen Menschen geneigt sind, Kinder zu bekommen. Ein von uns entwickeltes System zur anomaliebasierten Angriffserkennung in Computernetzwerken identifiziert Merkmale, die mit der zugrundeliegenden Semantik von Angriffen verknüpft sind. Dies ermöglicht es den bedienenden Experten, den Grund für die bezeichneten Anomalien zu verstehen. In unserer Gruppe wurden erstmalig Gauss'sche Prozesse verwendet, um die (für die Medikamenten-Entwicklung wichtige) Wasserlöslichkeit chemischer Verbindungen vorherzusagen. Dabei wurde eine hervorragende Genauigkeit der Vorhersagen erzielt und die Validität der individuellen Risikobewertung gezeigt. Zur Detektion von Ausreißern wurden Methoden entwickelt, die auf der Basis von Graphen operieren. Bei deutlich kleinerem Berechnungsaufwand sind diese so leistungsfähig, wie Methoden, die dem Stand der Forschung entsprechen. Die Einfachheit unserer Ausreisserindizes führt gleichzeitig zu einer guten Interpretierbarkeit. In vielen Anwendungen ist das Signal oder die Information nicht Gauss-verteilt und in einem niedrig diminesionalen Unterraum der Eingabedaten enthalten, während der Rest als hoch-dimensionales Gauss'sches Rauschen interpretiert werden kann. In der IDA-Arbeitsgruppe wurde ein neues nicht-lineares Projektionsverfahren entwickelt, dass es erlaubt, solche Unterräume in einem allgemein anwendbaren semiparametrischen Rahmen zu identifizieren. Mit Hilfe unserer Machine Learning Toolbox "Shogun" können Support Vektor Maschinen für Klassifikation und Regression auf mehrere Millionen Datenpunkten trainiert werden. Neben allgemein bekannten Kern-Varianten steht eine Reihe in unserer Arbeitsgruppe neu entwickelter String Kerne einschließlich spezifischer Optimierungen zur Verfügung. Dabei lässt sich ein Kern auch als gewichtete Linearkombination von vielen (hunderten) solcher Kerne konstruieren ("Multiple Kernel Learning"). Die Toolbox ist samt Quellcode öffentlich verfügbar.

Publications

Accurate Splice Site Prediction for Caenorhabditis Elegans, pages 277-298. MIT Press series on Computational Molecular Biology. MIT Press, 2004
G. Rätsch and S. Sonnenburg
Oracle bounds and exact algorithm for dyadic classification trees. In: Shawe-Taylor and Y. Singer, editors, Proceedings of the 17th Conference on Learning Theory (COLT'2004), pages 378-392. Springer, Heidelberg, 2004
Gilles Blanchard, Christin Schäfer, and Yves Rozenholc
Large scale genomic sequence SVM classifiers. In: Proceedings of the International Conference on Machine Learning, ICML, 2005
Sören Sonnenburg, Gunnar Rätsch, and Bernhard Schölkopf
Learning interpretable SVMs for biological sequence classification. In: RECOMB 2005, LNBI 3500, pages 389-407. Springer-Verlag Berlin Heidelberg, 2005
Sören Sonnenburg, Gunnar Rätsch, and Christin Schäfer
RASE: recognition of alternatively spliced exons in c. elegans. Bioinformatics, 21:1369-1377, June 2005
G. Rätsch, S. Sonnenburg, and B. Schölkopf
Visualization of anomaly detection using prediction sensitivity. In: Sicherheit 2005 (Sicherheit-Schutz und Verlässlichkeit), pages 197-208, 2005
Pavel Laskov, Konrad Rieck, Christin Schäfer, and Klaus-Robert Müller
From outliers to prototypes: Ordering data. Neurocomputing, 69(13-15):1608-1618, August 2006
Stefan Harmeling, Guido Dornhege, David Tax, Frank Meinecke, and Klaus-Robert Müller
In search of non-Gaussian components of a high-dimensional distribution. Journal of Machine Learning Research, 7:247-282, 2006
G. Blanchard, M. Sugiyama, M. Kawanabe, V. Spokoiny, and K.-R. Müller
Large Scale Multiple Kernel Learning. Journal of Machine Learning Research, 7:1531-1565,July 2006
Sören Sonnenburg, Gunnar Rätsch, Christin Schäfer, and Bernhard Schölkopf
Learning interpretable svms for biological sequence classification. BMC Bioinformatics, Special Issue from NIPS workshop on New Problems and Methods in Computational Biology Whistler, Canada, 18 December 2004, 7:(Suppl. 1:S9), February 2006
Gunnar Rätsch, Sören Sonnenburg, and Christin Schäfer
Accurate solubility prediction with error bars for electrolytes: A machine learning approach. Journal of Chemical Information and Modelling, 47(2), 2007
Schwaighofer, Anton; Schroeter, Timon; Mika, Sebastian; Laub, Julian; ter Laak, Antonius; Sülzle, Detlev; Ganzer, Ursula; Heinrich, Nikolaus & Müller, Klaus-Robert
Explaining black-box classification results. Technical report, 2007
Stefan Harmeling, Motoaki Kawanabe, and Klaus-Robert Müller
Improving the c. elegans genome annotation using machine learning. PLoS Computational Biology, 3:e20, 2007
Rätsch, Gunnar; Sonnenburg, Sören; Srinivasan, Jagan; Witte, Hanh; Müller, Klaus-R; Sommer, Ralf-J & Schölkopf, Bernhard
Language models for detection of unknown attacks in network traffic. Journal in Computer Virology, 2(4):243-256, 2007
Konrad Rieck and Pavel Laskov
Optimal dyadic decision trees. Machine Learning, 66(2-3):209-241, 2007
Blanchard, G.; Schäfer, C.; Rozenholc, Y. & Müller, K.-R.

Servicenavigation

Hauptnavigation

Theorie und Praxis von kernbasierten Lernmethoden

Final Report Abstract

Publications

Additional Information

Servicenavigation

Hauptnavigation

Theorie und Praxis von kernbasierten Lernmethoden

Final Report Abstract

Publications

Additional Information

Textvergrößerung und Kontrastanpassung