Il machine learning non supervisionato è un ramo dell'intelligenza artificiale e dell'apprendimento automatico in cui gli algoritmi apprendono da dati non etichettati, ovvero privi di indicazioni sui risultati attesi. Diversamente dall'apprendimento supervisionato, non esiste una 'verità di riferimento' che guidi il processo di addestramento. L'obiettivo principale è scoprire strutture, pattern o raggruppamenti naturali nei dati. Ciò comporta spesso attività come il clustering, la riduzione della dimensionalità o il rilevamento di anomalie. Si distingue per la capacità di esplorare grandi insiemi di dati senza intervento umano, ma richiede un'interpretazione esperta dei risultati.
Casi d'uso ed esempi
L'apprendimento non supervisionato viene utilizzato per segmentare clienti in gruppi omogenei nel marketing, rilevare frodi o outlier in ambito finanziario, organizzare automaticamente documenti per tematica o per l'analisi esplorativa dei dati in ambito scientifico e medico. Altri esempi comuni sono i motori di raccomandazione, la compressione delle immagini e la scoperta di nuovi comportamenti nei social network.
Principali strumenti software, librerie e framework
Tra gli strumenti più diffusi figurano scikit-learn (Python), TensorFlow e PyTorch per implementazioni più avanzate. Per il clustering sono comunemente usati algoritmi come K-means, DBSCAN e Spectral Clustering. Per la riduzione della dimensionalità sono popolari PCA (Principal Component Analysis), t-SNE e UMAP. Piattaforme come RapidMiner e KNIME offrono interfacce grafiche per workflow di apprendimento non supervisionato.
Sviluppi recenti, evoluzioni e tendenze
Le ultime evoluzioni riguardano l'integrazione dell'apprendimento non supervisionato nelle architetture di deep learning, come autoencoder o modelli di clustering basati su reti neurali. I metodi auto-supervisionati, che creano compiti artificiali a partire da dati non etichettati, sfumano i confini tra supervisionato e non supervisionato. L'apprendimento non supervisionato sta diventando centrale nella preparazione dei dati per modelli generativi e nell'analisi di grandi volumi di dati, aprendo la strada a applicazioni di IA sempre più autonome e robuste.