Aufbau von Softwaresystemen und Weiterentwicklung von ARB zur Erstellung und Pflege vollständiger Datensätze der ribosomalen RNA Gene
Zusammenfassung der Projektergebnisse
Im Rahmen des Projektes wurden Teile des ARB-Softwarepaketes hinsichtlich der automatisierten Pflege integrativer Datenbanken alignierter und analysierter Nukleinsäuresequenzen und jedweder Art diesen zugeordneter Zusatzdaten erweitert und verbessert. Zur Erstellung und Wartung des SILVA- Datenbankprojekts wurden kontinuierlich optimierte „Seed“-Datenbanken für die automatisierte SILVA-Pipeline zu Datenimport, -evaluierung und –prozessierung erstellt und gepflegt. Ferner wurde eine „Core“-Datenbank qualitativ hochwertiger, nicht redundanter Sequenzen erstellt. Eine spezielle Version dieser Datenbank wurde um Typestammdaten, die den Qualitätsansprüchen nicht in vollem Umfang genügten, ergänzt. Diese Datenbank umfasst die derzeit beste Minimalauswahl für rRNA basierte Identifizierung und dient ferner als Grundlage für das „Living Tree Project“. Vor dem Hintergrund des zentralen Zieles, die rRNA-Sequenzdatenflut benutzerfreundlich zu prozessieren, analysieren und strukturieren, wurden ARB- Komponenten für Sequenz- und Alignmentevaluierung, Datenauswahl und – zugriff neu bzw. re-designed, angepasst oder optimiert: Das „ARB-quality“-Werkzeug arbeitet mit alignierten Daten. Die Qualitätsanalysen erfolgen für vom Benutzer definierte Daten- bzw. Kolumnensets. Stammbaumtopologien können einbezogen werden und ermöglichen detaillierte und verlässlichere Analysen. Individuelle, kombinierte, absolute und relative Werte werden ermittelt bezüglich Vollständigkeit, Sequenzunsicherheiten, Fehlpositionen, Abweichung vom Primär- oder Sekundärstruktur- und GC-Konsensus. Das „ARB-chimera-checking”-Werkzeug kann ebenfalls in Verbindung mit Kolumnenfiltern verwendet werden. Die Sequenzen werden virtuell in Abschnitte benutzerdefinierter Größe zerlegt. Eine Abfolge statistischer Analysen schätzt die Wahrscheinlichkeit der Teilsequenzen in der betreffenden phylogenetischen Umgebung. Die Chimärenwahrscheinlichkeit ergibt sich aus der Abweichung der Wahrscheinlichkeitswerte für den jeweiligen Abschnitt vom Gesamtmittelwert. Das „ARB-OTU“-Werkzeug sucht in Stammbäumen nach potentiellen Gruppen. Dabei werden nur periphere Sequenzen der Gruppe hinsichtlich eines Ähnlichkeitsschwellwerts getestet, womit vollständige Clusteranalyse vermieden und die Performanz gesteigert wird. Eine beste Vertretersequenz wird aufgrund der geringsten Intragruppendistanz vorgeschlagen. Diese Werkzeug erlaubt nicht nur OTUs hochähnlicher Sequenzen zu definieren, sondern kann zur Baumgruppierung auf jedwedem phylogenetischen Niveau verwendet werden. Die Gruppen können der jeweiligen Baumtopologie permanent hinzugefügt werden. Alternierend Zyklen von Gruppengenerierung und gruppenkonsensus-basierten Qualitätsanalysen waren ausgesprochen hilfreich für die Optimierung der ARB-Datenbanken.