TLDR : Translated, ein italienisches Unternehmen, das auf KI-basierte Sprachlösungen spezialisiert ist, wird das europäische Forschungsprojekt DVPS leiten, das mit 29 Millionen Euro von Horizon Europe finanziert wird. Das Ziel des Projekts ist es, einen neuen Lernansatz für multimodale KI zu erforschen, der auf direkter Interaktion mit der physischen Welt basiert und Sprache, räumliche Wahrnehmung, sensorische Signale und Vision kombiniert.
Inhaltsverzeichnis
Translated, ein in Rom ansässiges Unternehmen, das auf Sprachlösungen und KI-gestützte Übersetzungen spezialisiert ist, wird das europäische Forschungsprojekt DVPS leiten, dessen Start für den 1. Juli nächsten Jahres geplant ist. Dieses ehrgeizige Programm, das im Rahmen von Horizon Europe mit 29 Millionen Euro unterstützt wird, vereint 20 Partner aus 9 Ländern mit einer gemeinsamen Vision: eine neue Lernmethode für multimodale KI zu erkunden, die auf der direkten Interaktion mit der physischen Welt basiert.
Fortschritte in der Wissenschaft und Technik der grundlegenden multimodalen Modelle
Der Name DVPS, „Diversibus viis plurima solvo“, was so viel bedeutet wie „Auf verschiedenen Wegen löse ich viele Probleme“, spiegelt dieses Ziel wider. Während aktuelle Modelle von statischen Daten aus Texten, Bildern oder Videos, also Darstellungen der Welt, abhängig sind, will DVPS einen Schritt weitergehen. Durch die Kombination von Sprache, räumlicher Wahrnehmung, sensorischen Signalen und Vision strebt das Projekt an, die KI näher an ein Verständnis zu bringen, das stärker in der Realität verankert ist.
Marco Trombetti, Mitbegründer und CEO von Translated, betont:
„Die großen Sprachmodelle haben einen Durchbruch erzielt, aber ihre Grenzen werden sichtbar: Sie basieren auf einer starren Architektur und lernen nur aus statischen, von Menschen in der digitalen Welt erstellten Inhalten. Um weiter voranzukommen, muss KI in Echtzeit mit der realen Welt interagieren. Mit DVPS geben wir Maschinen die Fähigkeit, durch direkte Erfahrung zu wachsen und sofort zu teilen, was sie lernen.“
Die im Rahmen des Projekts entwickelten grundlegenden multimodalen Modelle (MMFM) werden drei methodologische Durchbrüche einführen:
- Effektivität der Kennzeichnung: Dank Transferlernen und Anpassung mit wenigen Beispielen können die Modelle mit wenig annotierten Daten trainiert werden, wodurch die Abhängigkeit von manuell gekennzeichneten Datensätzen verringert wird;
- Wiederverwendung der Berechnung: Durch die Nutzung des groß angelegten Vortrainings wird es möglich, die Rechenkosten für nachfolgende Anwendungen zu senken, was den Weg für eine nachhaltigere Entwicklung öffnet;
- Effizienz des Engineerings: Die Automatisierung des Modelldesigns wird den Bedarf an hochspezialisierter Expertise für jede neue Aufgabe oder Domäne reduzieren.
Drei erste Anwendungsbereiche: Linguistik, Kardiologie und Geo-Intelligence
Einer der Herausforderungen, die das Projekt angehen möchte, ist das kontextuelle Verständnis in Echtzeit bei gleichzeitiger Übersetzungssituationen mit mehreren Sprechern in einer lauten oder unstrukturierten Umgebung.
In solchen Konfigurationen greift der Mensch spontan auf eine Vielzahl nonverbaler Hinweise zurück: Blickrichtung, räumliche Stimmplatzierung, Körperausrichtung. Die aktuellen Systeme haben Schwierigkeiten, diesen Kontext zu rekonstruieren. Durch die Kombination von Computer Vision, räumlicher Klanganalyse und Gesteninterpretation könnten die von DVPS entwickelten Modelle den Weg für Sprachassistenten ebnen, die sich besser an reale Situationen anpassen können.
Im Gesundheitsbereich plant das Projekt, zur Früherkennung von kardiovaskulären Risiken durch 3D-Modellierung des Herzens mithilfe fortschrittlicher bildgebender Verfahren beizutragen. Im Umweltmanagement zielt es darauf ab, die Reaktion auf Naturkatastrophen zu verbessern, beispielsweise durch die Zusammenführung von Satelliten- und Felddaten zur Vorhersage von Überschwemmungen.
Ein Projekt, das um Schlüsselinstrumente strukturiert ist
Das endgültige Ziel ist es, solide wissenschaftliche Grundlagen für die europäische Forschungsgemeinschaft zu schaffen. Um diese Vision zu unterstützen, wird DVPS drei grundlegende Bausteine entwickeln:
- AutoDVPS: Eine Open-Source-Toolbox für die Entwicklung und Erweiterung von MMFM. Sie wird in den drei anfänglichen Anwendungsbereichen getestet sowie in zwei noch nicht definierten Bereichen, um die Generalisierungsfähigkeit der Modelle über ihre ursprünglichen Designhypothesen hinaus zu bewerten.
- DVPSBench: Eine Benchmark-Suite für die Analyse von Robustheit, Leistung und ethischen Überlegungen dieser Modelle;
- DVPS-FM: Ein grundlegendes Modell, das aus einer massiven Vielfalt von Modalitäten gebildet wird.
Das Projekt sieht auch die Veröffentlichung des Handbuchs „Prinzipien und Praktiken des MMFM“ vor, begleitet von einem MOOC, der mehr als 1.500 Lernende schulen soll. Um Innovationen und Synergien zu fördern, sind 15 Kooperationen mit anderen europäischen KI-Initiativen sowie die Schaffung eines Ko-Innovationslabors geplant, das Akademiker und Industrie zusammenbringt.
Eine kollektive Dynamik im Dienste der europäischen technologischen Souveränität
Das Gründungsteam von DVPS besteht aus 70 hochrangigen europäischen Wissenschaftlern, die sich auf KI spezialisiert haben und von den folgenden Partnern stammen:
- Akademische Forschung: Universität Oxford, Alan Turing Institute, École polytechnique fédérale de Lausanne, ETH Zürich, Imperial College London, Fondazione Bruno Kessler, Karlsruher Institut für Technologie, Universität Barcelona und Vlaamse Instelling voor Technologisch Onderzoek
- Spezialisierte Partner: Universitätsklinikum Heidelberg, Vall d'Hebron Institut de Recerca, Amsterdam University Medical Centers, Deepset, Sistema, MEEO, Lynkeus, Data Valley und Pi School of AI
- Hochleistungsrechnen: Cyfronet, das nationale polnische Zentrum für Hochleistungsrechnen