Quellentrennung und Wiederherstellung von Klangkomponenten in Musikaufnahmen
Datenmanagement, datenintensive Systeme, Informatik-Methoden in der Wirtschaftsinformatik
Zusammenfassung der Projektergebnisse
Das SeReCo-Projekt hat Methoden des maschinellen Lernens zur Trennung und Wiederherstellung von Klangkomponenten in komplexen Musikaufnahmen weiterentwickelt. Ursprünglich auf Schlagzeugaufnahmen ausgerichtet, wurden die Zielsetzungen des Projekts erweitert, um auch andere anspruchsvolle Musikszenarien wie Klavier- und Streichmusik zu berücksichtigen. Ein zentraler Aspekt lag auf der Trennung von Klavierkonzerten in eine Klavier- und eine Orchesterstimme, ein Szenario, das aufgrund des komplexen Zusammenspiels zwischen den Instrumenten besondere Herausforderungen mit sich bringt. Diese neuartige Aufgabenstellung wurde im Forschungsbereich des Music Information Retrieval (MIR) erstmals untersucht und ging über den traditionellen Fokus auf die Quellentrennung von populärer Musik hinaus. Das SeReCo-Projekt leistete wesentliche Beiträge in technischer, konzeptioneller und praktischer Hinsicht und erforschte das Potenzial von Deep-Learning-Techniken im musikalischen Kontext. Dabei wurden zunächst neuartige, datengetriebene maschinelle Lernalgorithmen für die Quellentrennung und Audiozerlegung entwickelt, die durch musikalisches Wissen und klassische Signalverarbeitungsmethoden erweitert wurden. Aufbauend auf diesen Grundlagen widmete sich das Projekt der anspruchsvollen Aufgabe, Klavierkonzerte in einzelne Klavier- und Orchesterspuren zu trennen. Um das Problem begrenzter oder fehlender Trainingsdaten für Deep-Learning-Modelle zu lösen, führte das Projekt musikalisch motivierte Datenaugmentierungstechniken ein, die die Leistung von Quellentrennungsalgorithmen, insbesondere in Szenarien mit hohen frequenzzeitlichen Korrelationen, erheblich verbesserten. Für Evaluierungszwecke erstellte das Projekt einen Multitrack-Datensatz für Klavierkonzerte, der synchronisierte Orchester- und sowohl von professionellen als auch von Amateurpianisten eingespielte Klaviertracks enthält. Dieser Datensatz diente als Grundlage zur Bewertung von Quellentrennungsmodellen, ermöglicht aber auch eine Reihe weiterer Anwendungen im MIR Bereich. Darüber hinaus setzte das Projekt Techniken der notentext-informierten nichtnegativen Matrixfaktorisierung (NMF) ein, um ein Maß für das notenweise Signal-zu-Verzerrungsverhältnis (SDR) abzuleiten, das tiefere Einblicke in verschiedene Quellentrennungsartefakte bietet. Der Einfluss des SeReCo-Projekts reicht über seine technischen Innovationen hinaus. Es entstand eine umfangreiche Sammlung von Open-Source-Ressourcen, darunter gut dokumentierte PythonToolboxes, Datensätze sowie ergänzende Materialien wie Audio-Beispiele und Implementierungen. Darüber hinaus stellt das Projekt Demonstratoren bereit, die potenzielle Anwendungen und Werkzeuge zur automatischen Erstellung von Orchesterbegleitungen veranschaulichen und bereitstellen. Insgesamt ist das Projekt nicht nur eine neuartige Herausforderung in den Bereichen des MIR und der Audiosignalverarbeitung angegangen, sondern hat auch die lnteraktionsmöglichkeiten von Pianisten mit bestehenden klassischen Musikaufnahmen deutlich erweitert.
Projektbezogene Publikationen (Auswahl)
-
Sync Toolbox: A Python package for efficient, robust, and accurate music synchronization. Journal of Open Source Software (JOSS), 6(64):3434:1–4, 2021
Meinard Müller, Yigitcan Ozer, Michael Krause, Thomas Prätzlich & Jonathan Driedger
-
Deep learning and knowledge integration for music audio analysis (Dagstuhl Seminar 22082). Dagstuhl Reports, 12(2):103–133, 2022
Meinard Müller, Rachel Bittner, Juhan Nam, Michael Krause & Yigitcan Ozer
-
Investigating Nonnegative Autoencoders for Efficient Audio Decomposition. 2022 30th European Signal Processing Conference (EUSIPCO), 254-258. IEEE.
Ozer, Yigitcan; Hansen, Jonathan; Zunner, Tim & Muller, Meinard
-
Source separation of piano concertos with test-time adaptation. In Proceedings of the International Society for Music Information Retrieval Conference (ISMIR), pages 493–500, Bengaluru, India, 2022
Yigitcan Ozer & Meinard Müller
-
Using activation functions for improving measure-level audio synchronization. In Proceedings of the International Society for Music Information Retrieval Conference (ISMIR), pages 749–756, Bengaluru, India, 2022
Yigitcan Özer, Matej Ištvánek, Vlora Arifi-Müller & Meinard Müller
-
High-resolution violin transcription using weak labels. In Proceedings of the International Society for Music Information Retrieval Conference (ISMIR), pages 223–230, Milano, Italy, 2023
Nazif Can Tamer, Yigitcan Ozer, Meinard Müller & Xavier Serra
-
Piano Concerto Dataset (PCD): A Multitrack Dataset of Piano Concertos. Transactions of the International Society for Music Information Retrieval, 6(1), 75-88.
Özer, Yigitcan; Schwär, Simon; Arifi-Müller, Vlora; Lawrence, Jeremy; Sen, Emre & Müller, Meinard
-
TAPE: An End-to-End Timbre-Aware Pitch Estimator. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 1-5. IEEE.
Tamer, Nazif Can; Özer, Yigitcan; Müller, Meinard & Serra, Xavier
-
Source Separation of Piano Concertos Using Musically Motivated Augmentation Techniques. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 32(2024), 1214-1225.
Özer, Yigitcan & Müller, Meinard
