W sztucznej inteligencji termin "bandits" odnosi się do problemu wielorękiego bandyty (multi-armed bandit) – matematycznego modelu podejmowania sekwencyjnych decyzji w warunkach niepewności. Celem jest maksymalizacja skumulowanej nagrody przez wybór na każdym kroku jednej z wielu opcji ("ramion"), z których każde ma nieznany rozkład nagród. Kluczowym wyzwaniem jest równoważenie eksploracji (testowanie nowych ramion w celu zdobycia informacji) i eksploatacji (wybieranie pozornie najlepszego ramienia). Modele bandytów różnią się od klasycznego uczenia ze wzmocnieniem brakiem stanów i przejść, dzięki czemu są prostsze i lepiej nadają się do sytuacji, w których liczy się tylko bieżący wybór.

Przykłady zastosowań i użycia

Modele bandytów wykorzystywane są do adaptacyjnej optymalizacji treści (dynamiczne testy A/B), rekomendacji produktów online, dynamicznego rozmieszczania reklam, zarządzania portfelem inwestycyjnym czy optymalizacji sieci sensorów. Przykładowo, w e-commerce system bandytów może w czasie rzeczywistym dostosowywać promowane oferty do użytkownika, maksymalizując szansę konwersji.

Główne narzędzia, biblioteki i frameworki

Wiodące biblioteki do implementacji algorytmów bandytów to Vowpal Wabbit, scikit-learn (dla podstawowych modeli), MABWiser, BanditPylib oraz PyBandits. Platformy takie jak Microsoft Azure Personalizer oferują gotowe rozwiązania dla bandytów kontekstowych.

Najnowsze osiągnięcia i trendy

Aktualne badania koncentrują się na bandytach kontekstowych, które wykorzystują dodatkowe informacje przy każdym wyborze, adversarial bandits oraz integracji z głębokim uczeniem ze wzmocnieniem. Zastosowania przemysłowe stale rosną, szczególnie w personalizacji w czasie rzeczywistym i automatyzacji kampanii reklamowych, przy rosnącym nacisku na sprawiedliwość algorytmiczną i odporność w środowiskach niestacjonarnych.