En inteligencia artificial, el término "bandits" se refiere al problema de los bandidos de varios brazos (multi-armed bandit), un marco matemático para la toma de decisiones secuenciales bajo incertidumbre. El objetivo es maximizar la recompensa acumulada eligiendo en cada paso entre varias opciones (o "brazos"), cada una con una distribución de recompensas desconocida. El desafío principal es equilibrar la exploración (probar nuevos brazos para obtener información) y la explotación (elegir el brazo aparentemente más rentable). Los bandits se diferencian del aprendizaje por refuerzo tradicional porque no incorporan estados ni transiciones, lo que los hace más simples para situaciones donde solo importa la elección actual.

Casos de uso y ejemplos

Los modelos de bandits se utilizan en la optimización adaptativa de contenidos (A/B testing dinámico), la recomendación de productos en línea, la colocación dinámica de anuncios, la gestión de carteras financieras y la optimización de redes de sensores. Por ejemplo, en el comercio electrónico, un sistema de bandits puede adaptar en tiempo real las promociones mostradas a cada usuario, optimizando la probabilidad de conversión.

Principales herramientas, librerías y frameworks

Las principales librerías para implementar algoritmos de bandits incluyen Vowpal Wabbit, scikit-learn (para modelos básicos), MABWiser, BanditPylib y PyBandits. Plataformas como Microsoft Azure Personalizer también ofrecen soluciones listas para usar para bandits contextuales.

Últimos desarrollos, evolución y tendencias

Las investigaciones recientes se centran en los bandits contextuales, que utilizan información adicional en cada iteración, en los bandits adversarios y en la integración con aprendizaje profundo por refuerzo. Las aplicaciones industriales están creciendo, especialmente en personalización en tiempo real y gestión automatizada de campañas publicitarias, con mayor atención a la equidad algorítmica y la robustez en entornos no estacionarios.