У сфері штучного інтелекту термін "bandits" відноситься до задачі багаторукого бандита (multi-armed bandit) — математичної моделі для послідовного прийняття рішень в умовах невизначеності. Мета — максимізувати накопичену винагороду, обираючи на кожному кроці одну з кількох опцій ("рук"), кожна з яких має невідому розподільчу функцію винагороди. Основна проблема — баланс між дослідженням (випробування нових рук для отримання інформації) та використанням (вибір руки, яка здається найприбутковішою). На відміну від класичного підкріплювального навчання, моделі bandit не містять станів чи переходів, що робить їх простішими для ситуацій, де рішення залежать тільки від поточного вибору.
Сфери застосування та приклади використання
Моделі bandit використовуються для адаптивної оптимізації контенту (динамічне A/B-тестування), онлайн-рекомендацій продуктів, динамічного розміщення реклами, управління фінансовим портфелем і оптимізації сенсорних мереж. Наприклад, в e-commerce bandit-система може в реальному часі змінювати промоакції для кожного користувача, максимізуючи ймовірність конверсії.
Головні програмні інструменти, бібліотеки та фреймворки
Серед основних бібліотек для реалізації алгоритмів bandit: Vowpal Wabbit, scikit-learn (для базових моделей), MABWiser, BanditPylib та PyBandits. Платформи на кшталт Microsoft Azure Personalizer також надають готові рішення для контекстних bandit.
Останні розробки, еволюція та тренди
Останні дослідження зосереджені на контекстних bandit, що використовують додаткову інформацію для кожного вибору, на adversarial bandit, а також на інтеграції з глибоким підкріплювальним навчанням. Зростає кількість промислових застосувань, особливо у персоналізації в реальному часі та автоматизації рекламних кампаній, із підвищеною увагою до алгоритмічної справедливості та стійкості у нестабільних середовищах.