LightOn, einer der führenden europäischen Anbieter für generative KI, hat kürzlich "Visual RAG" in seine Plattform Paradigm integriert und bietet seinen Kunden eine schlüsselfertige Lösung, die es ihnen ermöglicht, mit Dokumenten zu interagieren, die Texte, Bilder, Grafiken und Diagramme kombinieren. Ein Fortschritt, der neue Perspektiven für Unternehmen und öffentliche Institutionen eröffnet.


Die durch Abruf erweiterte Generierung (RAG) ist eine effektive Technik, die es großen Sprachmodellen (LLMs) ermöglicht, externe Wissensquellen für die Generierung zu nutzen. Die jüngsten Entwicklungen von Vision-Language-Modellen (VLM), die in der Lage sind, multimodale Informationen in Bildern zu erfassen, wie zum Beispiel Text, Grafiken und Diagramme, haben einen neuen Ansatz ermöglicht: die Visual RAG, die die Fähigkeiten eines VLM mit einem Abrufmechanismus synergetisch kombiniert und so die Extraktion und Verknüpfung von Informationen aus textuellen und visuellen Quellen ermöglicht.


Jüngste akademische Forschungen, wie sie in der Studie Visual RAG: Multi-modal Retrieval-Augmented Generation (arXiv:2501.10834) vorgestellt wurden, haben bereits die grundlegenden Prinzipien dieser Technologie untersucht. Diese Arbeiten zeigen, dass die Kombination von Vision-Language-Modellen mit Abrufmechanismen die Verständnis- und Nutzungsmöglichkeiten multimodaler Dokumente erheblich verbessert.


Ein technologischer Durchbruch

Im vergangenen November stellte LightOn MonoQwen2-VL-v0.1 vor, einen visuellen Dokumenten-Reranker. Das Start-up nutzt diesen Fortschritt, um eine Lösung anzubieten, die auf industrielle Bedürfnisse zugeschnitten ist.


Im Gegensatz zu traditionellen Systemen, die sich auf die isolierte Analyse von Bildern oder Texten konzentrieren, ermöglicht "Visual RAG" eine dynamische Navigation durch umfangreiche und komplexe Dokumentenbasen. Igor Carron, Mitbegründer und CEO von LightOn, kommentiert: 


"Indem wir eine vollständige multimodale RAG-Lösung anbieten, machen wir einen weiteren Schritt in der Nutzung der Daten einer Organisation. Paradigm ist die erste generative KI-Lösung, die die Verarbeitung und Analyse von Bildern in diesem Umfang ermöglicht. Es geht nicht nur darum, dass unsere KI ein Bild versteht, sondern Millionen davon in einer vielgestaltigen Dokumentenbasis finden und verarbeiten kann. Sie können heute mit Fotos oder Infografiken genauso interagieren, wie Sie es seit Beginn der generativen KI mit Text tun."

Ein strategischer Hebel für Unternehmen und den öffentlichen Sektor

Die Integration von "Visual RAG" reagiert auf eine wachsende Nachfrage von Organisationen nach Tools, die in der Lage sind, visuell reiche Dokumente effizient zu verarbeiten. Diese Innovation bietet mehrere wesentliche Vorteile:
Fortschrittliche Dokumentensuche: Optimierter Zugang zu technischen Dokumenten, Finanzberichten, Patenten und Multimediarchiven;
Verbesserung der Entscheidungsfindung: Schnelle und präzise Kontextualisierung kritischer Informationen;
Sicherheit und Souveränität der Daten: Integrierter Einsatz, der die Vertraulichkeit und Unabhängigkeit der IT-Infrastrukturen gewährleistet.

Diese Funktionen positionieren LightOn als strategischen Akteur in einem Kontext, in dem die Beherrschung der Informationsströme zu einem entscheidenden Wettbewerbsvorteil wird.