In intelligenza artificiale, il termine "bandits" si riferisce al problema dei banditi a braccia multiple (multi-armed bandit), un quadro matematico per il decision making sequenziale in condizioni di incertezza. L'obiettivo è massimizzare la ricompensa cumulativa scegliendo a ogni passo tra diverse opzioni ("braccia"), ciascuna con una distribuzione di ricompense sconosciuta. La sfida principale è bilanciare l'esplorazione (testare nuove braccia per ottenere informazioni) e lo sfruttamento (scegliere la braccia apparentemente migliore). I bandits si distinguono dal reinforcement learning tradizionale per l'assenza di stati e transizioni, rendendo il modello più semplice per situazioni in cui l'azione dipende solo dalla scelta corrente.

Casi d'uso ed esempi

I modelli bandit sono utilizzati nell'ottimizzazione adattativa dei contenuti (A/B testing dinamico), nella raccomandazione di prodotti online, nel posizionamento dinamico degli annunci, nella gestione di portafogli finanziari e nell'ottimizzazione delle reti di sensori. Ad esempio, nell'e-commerce, un sistema bandit può adattare in tempo reale le promozioni mostrate a ciascun utente per massimizzare la probabilità di conversione.

Principali strumenti software, librerie, framework

Le principali librerie per implementare algoritmi bandit includono Vowpal Wabbit, scikit-learn (per modelli base), MABWiser, BanditPylib e PyBandits. Piattaforme come Microsoft Azure Personalizer offrono anche soluzioni pronte all'uso per i bandit contestuali.

Ultimi sviluppi, evoluzioni e tendenze

Le ricerche recenti si concentrano sui bandit contestuali, che utilizzano informazioni aggiuntive a ogni estrazione, sui bandit avversari e sull'integrazione con l'apprendimento per rinforzo profondo. Le applicazioni industriali stanno crescendo, in particolare nella personalizzazione in tempo reale e nella gestione automatizzata delle campagne pubblicitarie, con una crescente attenzione alla fairness algoritmica e alla robustezza in ambienti non stazionari.