Detailseite
Bedingte Codierung zur lernbasierten Bild- und Videokompression
Antragsteller
Professor Dr.-Ing. Jörn Ostermann
Fachliche Zuordnung
Kommunikationstechnik und -netze, Hochfrequenztechnik und photonische Systeme, Signalverarbeitung und maschinelles Lernen für die Informationstechnik
Förderung
Förderung seit 2022
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 508272532
Dieses gemeinsame Forschungsprojekt zwischen dem Institut für Informationsverarbeitung der Leibniz Universität Hannover und dem Department of Computer Science der National Chiao Tung University in Taiwan behandelt lernbasierte Videocodierung unter dem Gesichtspunkt dynamischen Anpassung und der bedingten Codierung mit einem Meta-Learning basierten Verfahren zur Regularisierung.Die rapide Entwicklung im Bereich des maschinellen Lernens regte die Entwicklung zahlreicher Verfahren zur lernbasierten Kompression an. Lernbasierte Bildkompressionsverfahren wurden in den letzten Jahren immer erfolgreicher, so dass sie heute selbst VVC Intra in Bezug auf MS-SSIM schlagen, während der PSNR vergleichbar ist. Im Vergleich dazu steckt die lernbasierte Videocodierung noch in ihren Kinderschuhen. Die meisten Videocodecs folgen dem traditionellen Schema der hybriden Videocodierung basierend auf zeitlicher Prädiktion und Transformationscodierung der Residualsignale. Eine kürzlich erschiene Publikation zeigt auf, dass lernbasierte Videocodecs bessere Ergebnisse als x265 erzielen, unter realen Testbedingungen aber nicht an die Leistung des HEVC Testmodells HM herankommen.Mit den neuen Verfahren der bedingten Codierung ist es möglich lernbasierten Videocodierung weitaus performanter zu machen. Die Idee hinter der bedingten Codierung ist es, die Datenverteilung eines zu codierenden Frames unter der Bedingung von hilfreichen Kontextinformationen zu lernen, in der Hoffnung eine geringere bedingte Entropie zu erhalten, die wiederum zu einer effizienteren Codierung führt.Durch die Entwicklung neuer tiefer neuronaler Netzarchitekturen wie z.B. variationale Autoencoder (VAE) und Augmented Normalizing Flows (ANF) eröffnen sich neue Möglichkeiten zur lernbasierten Videocodierung. In diesem Antrag stellen wir ein neues Verfahren zur bedingten Videocodierung basierend auf ANFs statt der oftmals verwendeten VAEs vor. ANFs bieten den Vorteil, dass sie expressiver als VAEs sind, VAEs aber dennoch als Sonderfall beinhalten.In einem weiteren Aspekt dieses Projektes behandeln wir die Anpassungs- und Generalisierungsfähigkeit eines lernbasierten Videocodecs. Eine Schwäche lernbasierter Videocodecs ist die große Abweichung der Datenverteilungen zwischen Trainings- und Testdaten. Dadurch kommt es dazu, dass ein Codec zwar auf dem Trainingsdaten gute Ergebnisse erzielt, aber auf unbekannten Daten schlechte. Um das Generalisierungsvermögen zu verbessern schlagen wir vor, das Noether-Theorem in Form eine Metakostenfunktion zur Erlernung induktiver Verzerrungen, die die Erhaltung gemeinsamer Eigenschaften zwischen den Frames einer Videosequenz ermöglichen, in den Videocodec zu integrieren. Weiterhin verwenden wir diese Metakostenfunktion um den Decoder sowie den Encoder dynamisch während der Inferenz an die Datenverteilung der Eingangsdaten anzupassen. Da die Metakostenfunktion unüberwacht ist, müssen für die Anpassung keine zusätzlichen Daten übertragen werden.
DFG-Verfahren
Sachbeihilfen
Internationaler Bezug
Taiwan
Partnerorganisation
National Science and Technology Council (NSTC)
Kooperationspartner
Professor Wen-Hsiao Peng, Ph.D.