LightOn, uno de los líderes europeos en IA generativa, ha integrado recientemente "Visual RAG" en su plataforma Paradigm, ofreciendo a sus clientes una solución llave en mano que les permite interactuar con documentos que combinan textos, imágenes, gráficos y diagramas. Un avance que abre nuevas perspectivas para empresas e instituciones públicas.


La generación aumentada por recuperación (RAG) es una técnica eficaz que permite a los grandes modelos de lenguaje (LLMs) utilizar fuentes de conocimiento externas para la generación. Los recientes desarrollos de modelos de visión-lenguaje (VLM) capaces de capturar información multimodal presente en imágenes, como texto, gráficos y diagramas, han permitido un nuevo enfoque: la Visual RAG, que combina en sinergia las capacidades de un VLM con un mecanismo de recuperación, permitiendo así la extracción y relación de información de fuentes textuales y visuales.


Investigaciones académicas recientes, como las presentadas en el estudio Visual RAG: Multi-modal Retrieval-Augmented Generation (arXiv:2501.10834), ya han explorado los principios fundamentales de esta tecnología. Estos trabajos demuestran que la combinación de modelos de visión-lenguaje con mecanismos de recuperación mejora significativamente la comprensión y explotación de documentos multimodales. 


Un avance tecnológico

En noviembre pasado, LightOn presentó MonoQwen2-VL-v0.1, un reranker visual de documentos. La start-up se apoya en este avance para proponer una solución adaptada a las necesidades industriales. 


Contrariamente a los sistemas tradicionales que se centran en el análisis aislado de imágenes o textos, "Visual RAG" permite navegar dinámicamente a través de bases documentales vastas y complejas. Igor Carron, cofundador y CEO de LightOn, comenta: 


"Al ofrecer una solución completa de RAG multimodal, damos un nuevo paso en la explotación de los datos de una organización. Paradigm es la primera solución de IA generativa que permite el tratamiento y análisis de imágenes a tal escala. No se trata solo de que nuestra IA comprenda una imagen, sino de encontrar y tratar millones de ellas en una base documental proteiforme. Hoy en día, puedes dialogar con fotos o infografías como lo haces con texto desde el comienzo de la IA generativa."

Un recurso estratégico para las empresas y el sector público

La integración de "Visual RAG" responde a una demanda creciente de las organizaciones por herramientas capaces de tratar eficazmente documentos ricos en visuales. Esta innovación ofrece varios beneficios importantes:
Búsqueda documental avanzada: Acceso optimizado a documentos técnicos, informes financieros, patentes y archivos multimedia;
Mejora en la toma de decisiones: Contextualización rápida y precisa de información crítica;
Seguridad y soberanía de los datos: Despliegue integrado garantizando la confidencialidad e independencia de las infraestructuras informáticas.

Estas funcionalidades posicionan a LightOn como un actor estratégico en un contexto donde el dominio de los flujos de información se convierte en una ventaja competitiva decisiva.