Oggi, mentre quasi il 90% dei dati organizzativi è memorizzato sotto forma di documenti digitali, la loro gestione efficace rappresenta una sfida strategica. Per sfruttare appieno il loro potenziale, Mistral AI lancia Mistral OCR, un'API di riconoscimento ottico dei caratteri che stabilisce un nuovo standard nella comprensione dei documenti.
Il riconoscimento ottico dei caratteri (OCR, Optical Character Recognition) è una tecnologia che consente di convertire documenti digitalizzati, immagini o file PDF in testo utilizzabile da software. L'OCR analizza le forme delle lettere e dei simboli per trascriverli in dati digitali, rendendo così le informazioni accessibili, modificabili e utilizzabili da sistemi informatici.
A differenza delle soluzioni OCR classiche, Mistral OCR non si limita all'estrazione di testo. Il suo approccio multimodale permette di comprendere ed estrarre tabelle, immagini, equazioni matematiche e layout complessi come la formattazione LaTeX. Questa capacità lo rende uno strumento ideale per i sistemi di IA che utilizzano documenti vari, come presentazioni o articoli scientifici.
Le prestazioni del modello
Le prestazioni di Mistral OCR sono state valutate rispetto alle migliori soluzioni esistenti. I risultati dei benchmark mostrano che supera i suoi concorrenti in tutti i settori chiave, come si può vedere nella tabella sottostante. Sui documenti scansionati, raggiunge una precisione del 98,96%, rendendolo uno strumento particolarmente efficace per la digitalizzazione dei documenti cartacei. Conferma inoltre la sua affidabilità nel trattamento multilingue con un punteggio dell'89,55%, arrivando a mostrare un'accuratezza superiore al 99% per diverse lingue.
Model | Overall | Math | Multilingual | Scanned | Tables |
|---|---|---|---|---|---|
Google Document AI | 83.42 | 80.29 | 86.42 | 92.77 | 78.16 |
Azure OCR | 89.52 | 85.72 | 87.52 | 94.65 | 89.52 |
Gemini-1.5-Flash-002 | 90.23 | 89.11 | 86.76 | 94.87 | 90.48 |
Gemini-1.5-Pro-002 | 89.92 | 88.48 | 86.33 | 96.15 | 89.71 |
Gemini-2.0-Flash-001 | 88.69 | 84.18 | 85.80 | 95.11 | 91.46 |
GPT-4o-2024-11-20 | 89.77 | 87.55 | 86.00 | 94.58 | 91.70 |
Mistral OCR 2503 | 94.89 | 94.29 | 89.55 | 98.96 | 96.12 |
Uno dei principali punti di forza di Mistral OCR risiede nella sua velocità di esecuzione: può elaborare fino a 2.000 pagine al minuto su un singolo nodo. Questa efficienza consente alle aziende di trasformare i loro vasti archivi documentari in basi di conoscenza utilizzabili in tempi record, soprattutto perché l'API gestisce formati di output strutturati (Markdown, JSON), facilmente utilizzabili da altri sistemi informatici.
Primi casi d'uso
La versatilità di Mistral OCR apre la strada ad applicazioni varie. Secondo Mistral AI, la versione beta è stata utilizzata nei seguenti casi:
- Digitalizzazione della ricerca scientifica: Istituzioni accademiche hanno utilizzato Mistral OCR per convertire articoli e riviste scientifiche in formati utilizzabili da motori di intelligenza artificiale;
- Conservazione del patrimonio culturale e storico: Organizzazioni hanno sperimentato l'uso per digitalizzare manoscritti antichi e altri documenti patrimoniali;
- Ottimizzazione del servizio clienti: Aziende hanno esplorato la possibilità di convertire manuali e documentazioni in basi di conoscenza indicizzate, riducendo così i tempi di risposta alle richieste dei clienti;
- Trasformazione della letteratura tecnica e regolamentare: Società di vari settori (educazione, diritto, ingegneria) hanno testato Mistral OCR per strutturare dati da presentazioni, rapporti tecnici e documenti regolamentari.
Mistral OCR è già disponibile su "La Plateforme" e sarà presto disponibile tramite i partner cloud dell'unicorno. Le aziende che gestiscono dati sensibili potranno optare per un'installazione on-site. È inoltre possibile provarlo gratuitamente su "Le Chat".