Detailseite
Projekt Druckansicht

Indexcluster für Multimodale Dokumente

Fachliche Zuordnung Informatik
Förderung Förderung in 2024
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 528131420
 
Für die Forschung mit angewandter künstlicher Intelligenz werden immer größere und diversere Datensammlungen (Korpora) erstellt und genutzt. Im typischen Forschungsprozess wachsen die Datenmengen noch weiter, indem sie durch Methoden aus Bereichen wie Sprachtechnologie oder Visual Computing mit mehr Informationen angereichert und so für die Anwender:innen nutzbar gemacht werden. Das oberste Ziel hierbei ist es, die Nutzer:innen mit möglichst reichen und leicht zugänglichen Informationen aus den Daten zu versorgen. Für die Zugänglichkeit gibt es sogenannte Indexierungstechnologien, die Daten suchbar und quantitativ visualisierbar machen. Die technologische Herausforderung ergibt sich hier aus der Datenmenge und der Art der Nutzung. Je einfacher der Informationszugang gestaltet werden soll, desto mehr Komplexität verlagert sich auf den Indexierungsvorgang, was rechenintensive Prozesse mit sehr großen Datenmengen erfordert. Weiterhin müssen die entstehenden Indizes lange vorgehalten werden und performant nutzbar sein, um quellenorientierte Forschungsprojekte dauerhaft und nutzerorientiert zu begleiten. Sämtliche Tools, mit denen auf die angereicherten, suchbaren Daten zugegriffen wird, müssen also über lange Zeit performant mit großen, immer wieder aktualisierten Datenmengen umgehen. Das beantragte Gerät wird zum sprachtechnologischen Vorverarbeiten und zum Indizieren sehr großer multimodaler Dokumentsammlungen verwendet. Neben Texten werden auch Bilder, Videos, Audio-Dateien, Zahlenreihen und Beziehungen zwischen den Daten verarbeitet. Die komplexen sprachtechnologischen Vorverarbeitungsschritte umfassen z.B. die Extraktion von Eigennamen („Named Entitiy Recognition“, NER) von Personen, Firmen und Orten, der grammatischen Vorverarbeitung mit z.B. Dependenzparsen, und die Überführung in semantische Repräsentationen, welche eine inhaltliche Suche unter Berücksichtigung von Wortbedeutung ermöglichen. Vorverarbeitung bei Audio und Video besteht in deren Segmentierung und Indizierung durch automatische Transkription und Objektklassifikation. Der Indexcluster ist optimiert für den Einsatz von Apache Spark als datenparalleles Verarbeitungsframework zur Vorverarbeitung und für den Einsatz von Elasticsearch als verteilter, performanter NoSQL-Index, perspektivisch auch für Apache Hudi für Data Lakes. Der Indexcluster besteht aus 5 Servereinheiten (Nodes), welche jeweils paarweise mit Infiniband-Netzwerk verbunden sind. Jeder dieser Nodes ist mit einer GPGPU (48 GB RAM) für das Ausführen von neuronalen Verarbeitungsmodellen ausgestattet, sowie zwei CPUs mit mind. je 16 Cores und mind. 1TB RAM für das Ausführen von datenparalleler Verarbeitung und verteilter Indizierung. Für die Datenverarbeitung und für das Bereitstellen der Indizes beinhaltet jeder Knoten ca. 100TB an SSD-Speicherkapazität. Der Antragsteller hat langjährige Erfahrung mit diesen Anwendungen und betreibt bereits ein entsprechendes Vor-Gerät, welches ersetzt werden muss.
DFG-Verfahren Forschungsgroßgeräte
Großgeräte Indexcluster für Multimodale Dokumente
Gerätegruppe 7030 Dedizierte, dezentrale Rechenanlagen, Prozeßrechner
Antragstellende Institution Universität Hamburg
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung