Detailseite
Projekt Druckansicht

Differenzierbare Alignierungstechniken für Music Information Retrieval

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung seit 2023
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 521420645
 
Das als Music Information Retrieval (MIR) bekannte Forschungsgebiet befasst sich mit der Entwicklung computergestützter Werkzeuge, die es einer Benutzerin oder einem Benutzer ermöglichen, Musik in all ihren verschiedenen Formen und Facetten zu durchsuchen, zu organisieren und zu analysieren. Aus multimedialer Sicht stellt Musik aufgrund der vielen zeitabhängigen musikalischen Konzepte wie Melodie, Harmonie, Tonhöhe, Instrumentierung, Lautstärke, Rhythmus und Gesangstext einen anspruchsvollen Anwendungsbereich dar. Für datengetriebene Deep-Learning-Ansätze zur Analyse dieser Konzepte benötigt man feingranulare Zielannotationen, die die lokalen Eigenschaften der zugrunde liegenden Musikaufnahmen beschreiben. Solche auf Frame-Ebene zu spezifizierenden "starken" Annotationen sind jedoch im Allgemeinen kaum verfügbar und schwierig zu erzeugen. In den letzten Jahren wurden auf dem Gebiet der Zeitreihenanalyse große Fortschritte bei Entwicklung differenzierbarer Alignierungstechniken erzielt, die als Baustein in Loss-Funktionen von Deep-Learning-Verfahren eingesetzt werden können. Hierbei wird die Alignierung Teil des differenzierbaren Modells, wodurch das Training des neuronalen Netzwerks basierend auf "schwachen" Annotation (wo nur globale Korrespondenzen bekannt sein müssen) ermöglicht wird. Das Hauptziel dieses Projekts ist die Erforschung und Weiterentwicklung differenzierbarer Alignierungstechniken im Kontext anspruchsvoller MIR-Aufgaben zur Analyse von Musikaufnahmen. Zunächst wollen wir neuartige Techniken differenzierbarer Varianten des Dynamic Time Warping aufgreifen und systematisch hinsichtlich ihrer Effizienz und Approximationseigenschaften aus theoretischer und praktischer Sicht untersuchen. Darüber hinaus wollen wir erforschen, wie man die durch eine Alignierung definierten zeitlichen Randbedingungen zur Reduzierung von Störfaktoren einsetzen und die Erklärbarkeit der erlernten Modelle und Darstellungen verbessern kann. Auf Anwendungsseite wollen wir die Analyse von Musiksignalen vorantreiben, indem wir schwach annotierte Trainingsdaten durch den Einsatz differenzierbarer Alignierungstechniken besser ausnutzen. Insbesondere betrachten wir konkrete MIR-Aufgaben mit vielen ungelösten Teilproblemen, wie die simultane Schätzung mehrerer Grundfrequenzen, die versionsübergreifende Musiksuche und das Auffinden musikalischer Muster wie Themen und Leitmotive (oft als Notentext kodiert) in polyphonen Musikaufnahmen. Zusammenfassend wollen wir in diesem Projekt sowohl im MIR-Bereich als auch bei der Erforschung moderner Alignierungstechniken bedeutende wissenschaftliche Fortschritte erzielen, wobei die Musik als komplexer und herausfordernder Anwendungsbereich dient.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung