LightOn, uno dei leader europei nell’IA generativa, ha recentemente integrato "Visual RAG" nella sua piattaforma Paradigm, offrendo ai suoi clienti una soluzione chiavi in mano, che permette di interagire con documenti che combinano testi, immagini, grafici e diagrammi. Un progresso che apre nuove prospettive per le aziende e le istituzioni pubbliche.
La generazione aumentata da recupero (RAG) è una tecnica efficace che consente ai grandi modelli di linguaggio (LLMs) di utilizzare fonti di conoscenza esterne per la generazione. Gli sviluppi recenti di modelli visione-linguaggio (VLM) capaci di catturare informazioni multimodali presenti nelle immagini, come il testo, i grafici e i diagrammi, hanno permesso un nuovo approccio: la Visual RAG, che combina in sinergia le capacità di un VLM con un meccanismo di recupero, consentendo così l’estrazione e la connessione di informazioni provenienti da fonti testuali e visive.
Ricerche accademiche recenti, come quelle presentate nello studio Visual RAG: Multi-modal Retrieval-Augmented Generation (arXiv:2501.10834), hanno già esplorato i principi fondamentali di questa tecnologia. Questi lavori dimostrano che la combinazione di modelli visione-linguaggio con meccanismi di recupero migliora significativamente la comprensione e l’utilizzo dei documenti multimodali.
Una svolta tecnologica
Lo scorso novembre, LightOn ha presentato MonoQwen2-VL-v0.1, un reranker visivo di documenti. La start-up si basa su questo progresso per offrire una soluzione adattata alle esigenze industriali.

Contrariamente ai sistemi tradizionali che si concentrano sull’analisi isolata di immagini o testi, "Visual RAG" permette di navigare dinamicamente attraverso vasti e complessi archivi documentali. Igor Carron, co-fondatore e CEO di LightOn, commenta:
"Offrendo una soluzione completa di RAG multimodale, facciamo un ulteriore passo avanti nello sfruttamento dei dati di un'organizzazione. Paradigm è la prima soluzione di IA generativa che permette il trattamento e l’analisi di immagini su una scala così ampia. Non si tratta solo di far comprendere un'immagine alla nostra IA, ma di ritrovarne e trattarne milioni, nel mezzo di un archivio documentale proteiforme. Oggi puoi dialogare con foto o infografiche come fai con il testo dall'inizio dell’IA generativa."
Una leva strategica per le aziende e il settore pubblico
L’integrazione di "Visual RAG" risponde a una crescente domanda delle organizzazioni per strumenti capaci di trattare efficacemente documenti ricchi di elementi visivi. Questa innovazione offre diversi benefici principali:
Ricerca documentale avanzata: Accesso ottimizzato a documenti tecnici, rapporti finanziari, brevetti e archivi multimediali;
Miglioramento del processo decisionale: Messa in contesto rapida e precisa delle informazioni critiche;
Sicurezza e sovranità dei dati: Implementazione integrata che garantisce la riservatezza e l’indipendenza delle infrastrutture informatiche.
Queste funzionalità posizionano LightOn come un attore strategico in un contesto in cui la padronanza dei flussi informativi diventa un vantaggio competitivo decisivo.