DVPS: repensar la IA multimodal mediante la interacción directa con el mundo real

DVPS: repensar la IA multimodal mediante la interacción directa con el mundo real

TLDR : Translated, una empresa italiana especializada en soluciones lingüísticas por IA, liderará el proyecto de investigación europeo DVPS, financiado con 29 millones de euros por Horizon Europe. El objetivo del proyecto es explorar una nueva vía de aprendizaje para la IA multimodal, basada en la interacción directa con el mundo físico, combinando lenguaje, percepción espacial, señales sensoriales y visión.

Translated, empresa con sede en Roma especializada en soluciones lingüísticas y traducción asistida por IA, liderará el proyecto de investigación europeo DVPS, cuyo lanzamiento está previsto para el próximo 1 de julio. Este ambicioso programa, apoyado con 29 millones de euros en el marco de Horizon Europe, reúne a 20 socios de 9 países en torno a una visión común: explorar un nuevo camino de aprendizaje para la IA multimodal, basado en la interacción directa con el mundo físico.

Avanzar en la ciencia y la ingeniería de modelos fundamentales multimodales

Su nombre, DVPS, por "Diversibus viis plurima solvo", es decir, "A través de diferentes caminos, resuelvo múltiples problemas", refleja esta ambición. Allí donde los modelos actuales dependen de datos estáticos derivados de textos, imágenes o videos, es decir, de representaciones del mundo, DVPS busca dar un paso adicional. Combinando lenguaje, percepción espacial, señales sensoriales y visión, el proyecto busca acercar la IA a una forma de comprensión más arraigada en la realidad.
Marco Trombetti, cofundador y CEO de Translated, subraya:
"Los grandes modelos de lenguaje han marcado una ruptura, pero sus límites aparecen: se basan en una arquitectura rígida y aprenden únicamente a partir de contenidos estáticos creados por el ser humano en el mundo digital. Para avanzar más, la IA debe interactuar con el mundo real, en tiempo real. Con DVPS, damos a las máquinas la capacidad de crecer por la experiencia directa, y de compartir instantáneamente lo que aprenden entre ellas".
Los modelos fundamentales multimodales (MMFM) desarrollados en el marco del proyecto introducirán tres rupturas metodológicas:
  • Eficiencia del etiquetado: gracias al aprendizaje por transferencia y a la adaptación con pocos ejemplos, los modelos podrán ser entrenados con pocos datos anotados, reduciendo así la dependencia de los conjuntos de datos etiquetados manualmente;
  • Reutilización del cálculo: aprovechando el pre-entrenamiento a gran escala, permitirán reducir el costo computacional de las aplicaciones posteriores, lo que abre el camino a un desarrollo más sostenible;
  • Eficiencia de la ingeniería: la automatización del diseño de modelos reducirá la necesidad de experiencia muy especializada para cada nueva tarea o dominio.

Tres primeros campos de aplicación: lingüística, cardiología y geo-inteligencia

Uno de los desafíos que el proyecto se propone abordar es el de la comprensión contextual en tiempo real en situaciones de traducción simultánea que involucran a varios hablantes, en un entorno ruidoso o no estructurado.
En este tipo de configuración, el ser humano moviliza espontáneamente un conjunto de indicios no verbales: dirección de la mirada, espacialización de la voz, orientación del cuerpo. Los sistemas actuales, sin embargo, tienen dificultades para reconstruir este contexto. Combinando visión por computadora, análisis del sonido espacial e interpretación de gestos, los modelos desarrollados por DVPS podrían abrir el camino a asistentes lingüísticos capaces de adaptarse mejor a situaciones reales.
En el ámbito de la salud, el proyecto pretende contribuir a la detección temprana de riesgos cardiovasculares mediante un modelado 3D del corazón a partir de imágenes médicas avanzadas. En el campo de la gestión ambiental, tiene como objetivo mejorar la respuesta a desastres naturales, por ejemplo, a través de la agregación de datos satelitales y de campo para anticiparse a las crecidas.

Un proyecto estructurado alrededor de herramientas clave

El objetivo final es constituir bases científicas sólidas para la comunidad de investigación europea. Para apoyar esta visión, DVPS diseñará tres bloques fundamentales:
  • AutoDVPS: una caja de herramientas de código abierto para el diseño y expansión de los MMFM. Se probará en los tres dominios aplicativos iniciales, así como en dos dominios no definidos en esta etapa, una estrategia destinada a evaluar la capacidad de generalización de los modelos más allá de sus hipótesis de diseño.;
  • DVPSBench: un conjunto de análisis comparativo dedicado a la robustez, el rendimiento y las consideraciones éticas de estos modelos;
  • DVPS-FM: un modelo fundamental entrenado sobre un conjunto masivo de modalidades diversas.
El proyecto también prevé la publicación del manual "Principios y prácticas del MMFM", acompañado de un MOOC destinado a formar a más de 1,500 aprendices. Para estimular la innovación y las sinergias, se prevén 15 colaboraciones con otras iniciativas europeas en IA, así como la creación de un laboratorio de co-innovación que reúna a académicos e industriales.
Una dinámica colectiva al servicio de la soberanía tecnológica europea
El equipo fundador de DVPS está compuesto por 70 científicos europeos de alto nivel especializados en IA y provenientes de los siguientes socios:
  • Investigación académica : Universidad de Oxford, Instituto Alan Turing, Escuela Politécnica Federal de Lausana, ETH Zúrich, Imperial College London, Fondazione Bruno Kessler, Instituto de Tecnología de Karlsruhe, Universidad de Barcelona y tilaamse Instelling voor Technologisch Onderzoek
  • Socios especializados : Hospital Universitario de Heidelberg, Vall d'Hebron Institut de Recerca, Amsterdam University Medical Centers, Deepset, Sistema, MEEO, Lynkeus, Data Valley y Pi School of AI
  • Cálculo de alto rendimiento : Cyfronet, centro nacional polaco de cálculo de alto rendimiento