En intelligence artificielle, le terme "bandits" fait référence au problème des bandits manchots (multi-armed bandit), un cadre mathématique pour la prise de décision séquentielle sous incertitude. Il s'agit de maximiser une récompense cumulative en choisissant à chaque étape parmi plusieurs options (ou "bras"), chacune ayant une distribution de récompenses inconnue. Le défi consiste à équilibrer l'exploration (tester de nouveaux bras pour obtenir de l'information) et l'exploitation (choisir le bras apparemment le plus rentable). Les bandits se distinguent d'autres technologies, comme le reinforcement learning classique, par l'absence de notion d'état et de transition, rendant le modèle plus simple et adapté à des situations où l'action à prendre ne dépend que du choix actuel et non d'un historique.
Cas d'usages et exemples d'utilisation
Les modèles de bandits sont utilisés pour l'optimisation de contenus (A/B testing adaptatif), la recommandation de produits en ligne, le placement dynamique de publicités, la gestion de portefeuille financier, et l'optimisation de réseaux de capteurs. Par exemple, dans le e-commerce, un système de bandits peut adapter en temps réel les promotions affichées à chaque utilisateur selon leur probabilité de conversion.
Principaux outils logiciels, librairies, frameworks, logiciels
Les principales librairies utilisées pour implémenter des algorithmes de bandits incluent Vowpal Wabbit, scikit-learn (pour les modèles simples), MABWiser, BanditPylib et PyBandits. Des plateformes telles que Microsoft Azure Personalizer proposent aussi des solutions prêtes à l'emploi pour les bandits contextuels.
Derniers développements, évolutions et tendances
Les recherches récentes portent sur les bandits contextuels, qui exploitent des informations additionnelles pour chaque tirage, sur les bandits adversariaux et sur l'intégration avec l'apprentissage par renforcement profond. Les applications industrielles se multiplient, notamment dans la personnalisation en temps réel et le pilotage automatisé de campagnes publicitaires, avec une attention croissante portée à l'équité algorithmique et à la robustesse face à des environnements non stationnaires.