Em inteligência artificial, o termo "bandits" refere-se ao problema dos bandidos de múltiplos braços (multi-armed bandit), um quadro matemático para tomada de decisão sequencial sob incerteza. O objetivo é maximizar a recompensa acumulada escolhendo, a cada etapa, entre várias opções ("braços"), cada uma com uma distribuição de recompensas desconhecida. O desafio central é equilibrar exploração (testar novos braços para obter informação) e exploração (escolher o braço aparentemente mais lucrativo). Os bandits diferenciam-se do aprendizado por reforço tradicional pela ausência de estados e transições, sendo mais adequados para situações onde a decisão depende apenas da escolha atual.

Casos de uso e exemplos

Modelos de bandits são aplicados na otimização adaptativa de conteúdo (A/B testing dinâmico), recomendação de produtos on-line, alocação dinâmica de anúncios, gestão de portfólio financeiro e otimização de redes de sensores. Por exemplo, no e-commerce, um sistema de bandits pode adaptar promoções em tempo real para cada usuário, maximizando a probabilidade de conversão.

Principais ferramentas, bibliotecas e frameworks

As principais bibliotecas para implementação de algoritmos de bandits incluem Vowpal Wabbit, scikit-learn (para modelos básicos), MABWiser, BanditPylib e PyBandits. Plataformas como Microsoft Azure Personalizer também oferecem soluções prontas para bandits contextuais.

Últimos desenvolvimentos, evoluções e tendências

Pesquisas recentes focam nos bandits contextuais, que utilizam informações adicionais a cada rodada, em bandits adversariais e na integração com aprendizado por reforço profundo. As aplicações industriais estão em expansão, principalmente na personalização em tempo real e na automação de campanhas publicitárias, com atenção crescente à equidade algorítmica e robustez em ambientes não estacionários.