Aujourd’hui, alors que près de 90 % des données organisationnelles sont stockées sous forme de documents numériques, leur exploitation efficace est un enjeu stratégique. Pour tirer parti de leur potentiel, Mistral AI lance Mistral OCR, une API de reconnaissance optique de caractères qui établit une nouvelle norme en matière de compréhension des documents.

La reconnaissance optique de caractères (OCR, pour Optical Character Recognition) est une technologie qui permet de convertir des documents numérisés, des images ou des fichiers PDF en texte exploitable par des logiciels. L’OCR analyse les formes des lettres et des symboles pour les transcrire en données numériques, rendant ainsi les informations accessibles, modifiables et exploitables par des systèmes informatiques.

Contrairement aux solutions OCR classiques, Mistral OCR ne se limite pas à l’extraction de texte. Son approche multimodale lui permet de comprendre et d’extraire des tableaux, images, équations mathématiques et mises en page complexes telles que le formatage LaTeX. Cette capacité en fait un outil de choix pour les systèmes d’IA exploitant des documents variés, tels que des présentations ou des articles scientifiques.

Les performances du modèle

Les performances de Mistral OCR ont été évaluées face aux meilleures solutions existantes. Les résultats des benchmarks montrent qu’il surpasse ses concurrents dans tous les domaines clés, comme on peut le voir dans le tableau ci-dessous. Sur les documents scannés, il atteint une précision de 98,96 %, ce qui en fait un outil particulièrement efficace pour la numérisation de documents papier. Il confirme également sa fiabilité dans le traitement  multilingue avec un score de 89,55 %, allant jusqu'à afficher une exactitude supérieure à 99 % pour plusieurs langues.

Model
Overall
Math
Multilingual
Scanned
Tables
Google Document AI
83.42
80.29
86.42
92.77
78.16
Azure OCR
89.52
85.72
87.52
94.65
89.52
Gemini-1.5-Flash-002
90.23
89.11
86.76
94.87
90.48
Gemini-1.5-Pro-002
89.92
88.48
86.33
96.15
89.71
Gemini-2.0-Flash-001
88.69
84.18
85.80
95.11
91.46
GPT-4o-2024-11-20
89.77
87.55
86.00
94.58
91.70
Mistral OCR 2503
94.89
94.29
89.55
98.96
96.12

L'un des atouts majeurs de Mistral OCR réside dans sa rapidité d'exécution : il peut traiter jusqu'à 2 000 pages par minute sur un seul nœud. Cette efficacité permet aux entreprises de transformer leurs vastes archives documentaires en bases de connaissances exploitables en un temps record, d'autant plus que l’API gère des formats de sortie structurés (Markdown, JSON), facilement utilisables par d'autres systèmes informatiques.

Premiers cas d'utilisation

La polyvalence de Mistral OCR ouvre la voie à des applications variées. Selon Mistral AI, sa version bêta a été exploitée dans les cas suivants : 
  • Numérisation de la recherche scientifique : Des institutions académiques ont utilisé Mistral OCR pour convertir des articles et des revues scientifiques en formats exploitables par des moteurs d’intelligence artificielle ;
  • Préservation du patrimoine culturel et historique : Des organisations ont expérimenté son usage pour numériser des manuscrits anciens et autres documents patrimoniaux ;
  • Optimisation du service client : Des entreprises ont exploré la possibilité de convertir des manuels et des documentations en bases de connaissances indexées, réduisant ainsi les délais de réponse aux demandes des clients ;
  • Transformation de la littérature technique et réglementaire : Des sociétés de divers secteurs (éducation, droit, ingénierie) ont testé Mistral OCR pour structurer des données issues de présentations, rapports techniques et documents réglementaires.
Mistral OCR est d'ores et déjà disponible sur "La Plateforme" et le sera prochainement via les partenaires cloud de la licorne. Les entreprises qui gèrent des données sensibles pourront opter pour un déploiement sur site. Il est par ailleurs possible de l'essayer gratuitement sur "Le Chat".