Ieri, in occasione della Giornata della Terra, IBM e l'Agenzia Spaziale Europea (ESA) hanno annunciato il lancio di TerraMind, un modello di fondazione di IA generativa progettato per analizzare, interpretare e anticipare le dinamiche del pianeta a partire da dati geospaziali multimodali.
Questo lancio si inserisce nel contesto di FAST-EO (Foundation Models for Advanced Space-based Earth Observation), un'iniziativa europea guidata da un consorzio di punta — che riunisce il DLR (Centro aerospaziale tedesco), il Forschungszentrum Jülich, IBM Research Europe e KP Labs — con il supporto scientifico e finanziario del Φ-lab dell'ESA, il laboratorio di innovazione dedicato alle scienze della Terra.
L'obiettivo di FAST-EO è democratizzare l'accesso ai modelli di fondazione all'interno della comunità dell'osservazione della Terra (EO) e incoraggiare la loro adozione in settori di grande importanza — gestione sostenibile delle risorse naturali, conservazione della biodiversità, prevenzione dei disastri climatici o analisi dei sistemi agro-ambientali.
È in questo contesto che si colloca TerraMind. Il modello è stato pre-addestrato al Forschungszentrum Jülich su "TerraMesh", il più vasto insieme di dati geospaziali mai costituito. Questo corpus comprende oltre 9 milioni di campioni che coprono nove modalità distinte: dalle immagini ottiche e radar provenienti dai satelliti Copernicus Sentinel-1 e -2, alle rappresentazioni testuali dell'ambiente, passando per la geomorfologia e i dati climatici storici.
Basato su un'architettura codificatore-decodificatore basata su trasformatori simmetrici, TerraMind può trattare simultaneamente input di tipo pixel, token e sequenza. Può, ad esempio, incrociare le dinamiche di copertura vegetale con tendenze meteorologiche passate e descrizioni d'uso del suolo per identificare rischi emergenti o modellare l'evoluzione di un ecosistema.

Un'innovazione di rottura: il Thinking-in-Modalities (TiM)

Oltre alla sua capacità di trattare un volume massiccio di dati eterogenei, TerraMind introduce un'avanzata metodologica: il Thinking-in-Modalities (TiM). Secondo i suoi creatori, si tratta del primo modello di fondazione veramente generativo e multimodale applicato all'osservazione della Terra. Questo approccio gli permette di generare autonomamente dati artificiali in caso di input mancanti — una situazione frequente nel telerilevamento a causa della copertura nuvolosa, della risoluzione variabile dei sensori o delle lacune temporali nelle serie di osservazione.
L'originalità del procedimento si basa su un ragionamento contestualizzato tra modalità. Ispirato alle catene di pensiero utilizzate negli LLMs, il meccanismo TiM permette al modello di combinare, estrapolare e ricostruire dati a partire dalle correlazioni apprese tra immagini, testi, variabili fisiche o geografiche. Durante il fine-tuning o l'inferenza, questa capacità di arricchire un contesto parziale permette non solo di migliorare la robustezza del modello, ma anche di affinare le sue risposte in situazioni specifiche.
L'applicazione di questa tecnica a questioni come la previsione delle carenze idriche — che coinvolgono variabili tanto diverse quanto il clima, l'uso del suolo, la vegetazione, l'idrografia o le pratiche agricole — illustra il suo potenziale operativo, là dove gli approcci tradizionali si scontravano con silos di dati o lacune temporali.

Un'efficienza ottimizzata

Nonostante la sua portata — oltre 500 miliardi di token utilizzati durante la fase di addestramento — TerraMind è un modello particolarmente sobrio. Grazie alla sua architettura e a una compressione efficace delle rappresentazioni, consuma dieci volte meno risorse rispetto ai modelli comparabili su compiti simili. Questo differenziale apre prospettive concrete di distribuzione su larga scala, anche in ambienti con capacità di calcolo o connettività limitate.
È anche il più performante. TerraMind è stato valutato dall'ESA su PANGAEA, un benchmark standard della comunità: ha superato del 8% o più 12 modelli di fondazione di osservazione della Terra popolari su compiti reali, come la classificazione della copertura del suolo, il rilevamento dei cambiamenti, il monitoraggio ambientale e l'analisi multi-sensore e multi-temporale.
Il modello si inserisce nella continuità della strategia di IBM in materia di IA climatica e ambientale, in complemento dei modelli IBM-NASA Prithvi e Granite. La sua disponibilità su IBM Geospatial Studio e Hugging Face ne rafforza l'accessibilità e l'interoperabilità.
Per Nicolas Longepe, Earth Observation Data Scientist all'ESA:
"Questo progetto è un esempio perfetto di collaborazione riuscita tra la comunità scientifica, le grandi aziende tecnologiche e gli esperti per sfruttare il potenziale della tecnologia al servizio delle scienze della Terra. La sinergia tra gli esperti dei dati di osservazione della Terra, gli specialisti di Machine Learning, gli scienziati dei dati e gli ingegneri di calcolo ad alte prestazioni (HPC) è magica".
 
 
 
 

Per capire meglio

Cos'è Thinking-in-Modalities (TiM) e come funziona nel modello TerraMind?

Thinking-in-Modalities (TiM) è un approccio innovativo che consente a TerraMind di generare dati artificiali quando mancano dati, combinando informazioni da diverse modalità come immagini e testi. Si ispira alle catene di pensiero utilizzate nei LLMs per contestualizzare ed estrapolare i dati basati su correlazioni apprese.