Detailseite
Gelernte Videocodierung mit autoregressiven Transformern
Antragsteller
Professor Dr.-Ing. André Kaup
Fachliche Zuordnung
Kommunikationstechnik und -netze, Hochfrequenztechnik und photonische Systeme, Signalverarbeitung und maschinelles Lernen für die Informationstechnik
Förderung
Förderung seit 2026
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 567512406
Das kontinuierliche Wachstum von Streaming-Diensten, sozialen Medien und Online-Kommunikationsplattformen hat zu einem beispiellosen Anstieg des Internetverkehrs geführt, wobei Videoinhalte fast 80 % des globalen Datenverkehrs ausmachen. Mit der steigenden Nachfrage nach hochauflösenden Formaten wie 4K und 8K geraten Netzwerkinfrastrukturen und Speichersysteme zunehmend unter Druck. Eine effiziente Videokompression ist daher unabdingbar, um diese Anforderungen nachhaltig zu bewältigen. Gleichzeitig haben jüngste Fortschritte in generativen Modellarchitekturen, einschließlich Transformern und Diffusionsmodellen, bemerkenswerte Erfolge in der Bild- und Videogenerierung erzielt. Viele dieser Innovationen wurden jedoch bislang nicht effektiv für die Videokompression genutzt, was eine bedeutende Gelegenheit zur Verbesserung lernbasierter Codecs darstellt. Trotz jüngster Fortschritte in neuronalen Videocodecs besitzen bestehende Methoden weiterhin einige wesentliche Einschränkungen. Die Bewegungsschätzung auf Pixelebene ist ineffizient, da sie nicht mit der Auflösung der heruntergetasteten Merkmalsrepräsentation übereinstimmt. Zudem ist die Interframe-Prädiktion in der Regel auf eine begrenzte Anzahl von Referenzbildern beschränkt, wodurch das Modell Abhängigkeiten über große zeitliche Abstände nicht vollständig erfassen kann. Darüber hinaus verwenden aktuelle Ansätze lediglich eine einzelne Transformation, bei der alle extrahierten Merkmale übertragen werden, was die Anpassungsfähigkeit an unterschiedliche Bildinhalte einschränkt. Dieses Forschungsprojekt schlägt einen neuartigen, transformerbasierten Ansatz zur Videokompression vor, der diese Einschränkungen überwindet, indem er die räumliche und zeitliche Kontextextraktion innerhalb eines einzigen Kontextmodells vereint. Durch die Integration von Intra- und Interframe-Prädiktion in eine gemeinsame Transformerarchitektur entfällt die Notwendigkeit expliziter Bewegungsschätzung, was eine flexiblere, lernbasierte Nutzung zeitlicher Informationen ermöglicht. Da keine Fehlerfortpflanzung zwischen Einzelbildern mehr auftritt, ist das vorgeschlagene Kompressionsverfahren inhärent robuster und verhindert drastische Fehlfunktionen. Im Gegensatz zu bisherigen Methoden kann das vorgeschlagene Modell Eingaben beliebiger Größe ohne räumliche oder zeitliche Partitionierung verarbeiten, wodurch die Kompressionseffizienz verbessert wird, indem räumliche und zeitliche Korrelationen über große Entfernungen genutzt werden. Zusätzlich ermöglicht ein vom Transformer gesteuerter Feature-Gating-Mechanismus die adaptive Auswahl spezialisierter, inhaltsabhängiger Merkmalstransformationen, wodurch die visuelle Qualität verbessert und eine flexiblere Bitratensteuerung ermöglicht wird. Insgesamt zielt dieses Forschungsprojekt darauf ab, einen effizienteren und flexibleren Videokodec zu entwickeln, der sowohl ein überlegenes Ratenverzerrungsverhalten als auch eine höhere Robustheit im Vergleich zum Stand der Technik bietet.
DFG-Verfahren
Sachbeihilfen
