In kunstmatige intelligentie verwijst de term "bandits" naar het multi-armed bandit probleem: een wiskundig raamwerk voor sequentiële besluitvorming onder onzekerheid. Het doel is om de cumulatieve beloning te maximaliseren door bij elke stap te kiezen uit meerdere opties ("armen"), elk met een onbekende beloningsverdeling. De kernuitdaging is het vinden van de juiste balans tussen exploratie (nieuwe armen proberen om informatie te verzamelen) en exploitatie (de ogenschijnlijk beste arm kiezen). Banditmodellen onderscheiden zich van klassieke reinforcement learning doordat er geen toestanden of overgangen zijn; het model is dus eenvoudiger en geschikt voor situaties waarin alleen de huidige keuze telt.
Toepassingen en gebruiksvoorbeelden
Banditmodellen worden ingezet voor adaptieve contentoptimalisatie (dynamische A/B-testing), online productaanbevelingen, dynamische advertentieplaatsing, portefeuillebeheer en optimalisatie van sensornetwerken. In e-commerce kan een banditsysteem bijvoorbeeld realtime promoties tonen aan gebruikers om conversie te maximaliseren.
Belangrijkste softwaretools, libraries en frameworks
Belangrijke libraries voor banditalgoritmes zijn onder andere Vowpal Wabbit, scikit-learn (voor eenvoudige modellen), MABWiser, BanditPylib en PyBandits. Platforms zoals Microsoft Azure Personalizer bieden ook kant-en-klare oplossingen voor contextuele bandits.
Laatste ontwikkelingen en trends
Recente ontwikkelingen richten zich op contextuele bandits, die extra informatie per keuze benutten, adversariële bandits en integratie met deep reinforcement learning. Industriebrede toepassingen nemen toe, vooral voor realtime personalisatie en geautomatiseerd advertentiebeheer, met groeiende aandacht voor algoritmische eerlijkheid en robuustheid in niet-stationaire omgevingen.