LightOn, um dos líderes europeus em IA generativa, recentemente integrou "Visual RAG" à sua plataforma Paradigm, oferecendo aos seus clientes uma solução chave na mão, permitindo-lhes interagir com documentos que combinam textos, imagens, gráficos e diagramas. Um avanço que abre novas perspetivas para empresas e instituições públicas.


A geração aumentada por recuperação (RAG) é uma técnica eficaz que permite aos grandes modelos de linguagem (LLMs) utilizarem fontes de conhecimento externas para a geração. Os desenvolvimentos recentes de modelos de visão-linguagem (VLM) capazes de capturar informações multimodais presentes nas imagens, como texto, gráficos e diagramas, permitiram uma nova abordagem: a Visual RAG, que combina em sinergia as capacidades de um VLM com um mecanismo de recuperação, permitindo assim a extração e a ligação de informações de fontes textuais e visuais.


Pesquisas acadêmicas recentes, como as apresentadas no estudo Visual RAG: Multi-modal Retrieval-Augmented Generation (arXiv:2501.10834), já exploraram os princípios fundamentais desta tecnologia. Esses trabalhos demonstram que a combinação de modelos de visão-linguagem com mecanismos de recuperação melhora significativamente a compreensão e a exploração dos documentos multimodais. 


Um avanço tecnológico

Em novembro passado, a LightOn apresentou o MonoQwen2-VL-v0.1, um reranker visual de documentos. A start-up baseia-se nesse avanço para oferecer uma solução adaptada às necessidades industriais. 


Ao contrário dos sistemas tradicionais que se concentram na análise isolada de imagens ou textos, o "Visual RAG" permite navegar dinamicamente através de bases documentais vastas e complexas. Igor Carron, cofundador e CEO da LightOn, comenta: 


"Ao oferecer uma solução completa de RAG multimodal, estamos dando um novo passo na exploração dos dados de uma organização. Paradigm é a primeira solução de IA generativa que permite o tratamento e análise de imagens em tal escala. Não se trata apenas de nossa IA compreender uma imagem, mas de encontrar e tratar milhões delas, no meio de uma base documental proteiforme. Hoje, você pode dialogar com fotos ou infografias como faz com texto desde o início da IA generativa."

Uma alavanca estratégica para as empresas e o setor público

A integração do "Visual RAG" responde a uma crescente demanda das organizações por ferramentas capazes de tratar eficazmente documentos ricos em visuais. Esta inovação oferece vários benefícios principais:
Pesquisa documental avançada: Acesso otimizado a documentos técnicos, relatórios financeiros, patentes e arquivos multimídia;
Melhoria na tomada de decisões: Contextualização rápida e precisa de informações críticas;
Segurança e soberania dos dados: Implementação integrada garantindo a confidencialidade e independência das infraestruturas informáticas.

Essas funcionalidades posicionam a LightOn como um ator estratégico em um contexto onde o domínio dos fluxos de informação se torna uma vantagem competitiva decisiva.