Detailseite
Eine umfassende Pipeline für Einzelzell-RNA-Sequenzdaten: Analyse, experimentelles Design und Varianzquantifizierung
Antragstellerin
Privatdozentin Dr. Ines Hellmann
Fachliche Zuordnung
Bioinformatik und Theoretische Biologie
Förderung
Förderung seit 2018
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 407541155
Einzelzell-RNA-Sequenzierung (scRNA-seq) ist zu einer allgegenwärtigen und zentralen Methode in der biomedizinischen Forschung geworden. Große Zellatlasprojekte dienen als Referenzdatensätze, und kommerzielle Anbieter ermöglichen es auch nicht darauf spezialisierten Forschungsgruppen, diese leistungsstarke Technologie auf ihre spezifische Forschungsfrage anzuwenden. Aufgrund dieser neuen Entwicklung ist es auch nötig, die erforderlichen Analysemethoden zugänglicher zu machen. Dazu gehören bessere Werkzeuge für experimentelles Design, eine Analyse-Pipeline, die aktuelle Vergleichsstudien integriert, und eine bessere Methode zur Quantifizierung der Genexpressionsvarianz. Wir glauben, dass die Kombination einer hochmodernen Analyse-Pipeline mit realistischen Simulationen und einer detaillierteren quantitativen Analyse der Genexpressionsvarianz die Interpretation der Ergebnisse von Cluster- und Entwicklungslinien-Analysen aus scRNA-seq-Daten erleichtern wird.Nun wollen wir unsere zuvor entwickelten Softwareprogramme zUMIs und powsimR, sowie andere hochmoderne Methoden für differentielle Genexpressionsanalyse, Datenintegration, Gruppierung, Entwicklungslinien-Analyse und Markergenerkennung integrieren. Die meisten dieser Methoden, die wir zu einer umfassenden Pipeline zusammenfassen möchten, wurden bereits in der vorangegangenen Förderperiode von uns oder anderen Gruppen evaluiert. Darüber hinaus wird durch die Integration einer Analyse-Pipeline in ein Simulationswerkzeug (powsimR) sichergestellt, dass Benutzer immer die statistische Zuverlässigkeit der Analysen gegeben der Daten und der Fragestellung beurteilen können. Darüber hinaus werden die bereitgestellten detaillierten Leistungsstatistiken für das experimentelle Design komplexer scRNA-seq-Daten von entscheidender Bedeutung sein. Dies gilt insbesondere für komplexe Experimente, die viele Zelltypen mit stark variierenden Häufigkeiten und Batch-Effekte enthalten. Für die oben beschriebenen Aufgaben existieren geeignete Analysemethoden, mit Ausnahme der quantitative Analyse von Änderungen der Genexpressionsvarianz. Bestehende Methoden sind angesichts der Komplexität der meisten scRNA-seq-Datensätze zu einfach. Daher planen wir doppelt generalisierte lineare Modelle (dglm) zu verwenden, um komplexe Strukturen darzustellen und gleichzeitig Mittelwert- und Varianzverschiebungen zu unterscheiden. Eine solche Analyse wird uns ein Maß für die Konservierung von Genexpression liefern, das im weiteren Sinne dazu beitragen wird, unser Verständnis der Zelltypen, Zustände und ihrer Übergänge zu verbessern.
DFG-Verfahren
Sachbeihilfen