Învățarea nesupravegheată este o ramură a inteligenței artificiale și a învățării automate în care algoritmii învață din date neetichetate, adică fără a avea rezultate predefinite. Spre deosebire de învățarea supravegheată, nu există o „etichetă de adevăr” care să ghideze procesul de antrenare. Scopul principal este descoperirea structurilor, tiparelor sau grupărilor naturale în date. Aceasta implică adesea sarcini precum clusterizarea, reducerea dimensionalității sau detectarea anomaliilor. Învățarea nesupravegheată se distinge prin capacitatea de a explora volume mari de date fără intervenție umană, însă rezultatele necesită, de obicei, interpretare de către experți.
Cazuri de utilizare și exemple
Învățarea nesupravegheată este folosită pentru segmentarea clienților în grupuri omogene în marketing, detectarea fraudelor sau a valorilor aberante în sectorul financiar, organizarea automată a documentelor pe tematici sau pentru analiza exploratorie a datelor în știință și medicină. Motoarele de recomandare, compresia imaginilor și identificarea de noi tipuri de comportament în rețelele sociale sunt alte exemple relevante.
Principalele instrumente software, librării și framework-uri
Cele mai utilizate instrumente includ scikit-learn (Python), TensorFlow și PyTorch pentru implementări avansate sau personalizate. Pentru clusterizare, algoritmi ca K-means, DBSCAN sau Spectral Clustering sunt recurenți. Pentru reducerea dimensionalității, se folosesc PCA (Analiza Componentelor Principale), t-SNE și UMAP. RapidMiner și KNIME oferă interfețe grafice dedicate pentru fluxuri de lucru de tip învățare nesupravegheată.
Dezvoltări recente, evoluții și tendințe
Progresele recente vizează integrarea învățării nesupravegheate în arhitecturi de deep learning, precum autoencodere sau modele de clusterizare bazate pe rețele neuronale. Metodele auto-supervizate, care generează sarcini artificiale din date neetichetate, estompează granița dintre supravegheat și nesupravegheat. Învățarea nesupravegheată devine tot mai importantă în pregătirea datelor pentru modele generative și pentru analiza volumelor masive de date, facilitând aplicații AI mai autonome și robuste.