Yapay zekada "bandits" terimi, çok kollu bandit (multi-armed bandit) problemine atıfta bulunur ve belirsizlik altında ardışık karar verme için kullanılan matematiksel bir çerçevedir. Amaç, her adımda bilinmeyen ödül dağılımına sahip birden fazla seçenek ("kol") arasından seçim yaparak toplam ödülü maksimize etmektir. Temel zorluk, keşif (yeni kolları denemek) ve sömürü (en kazançlı görünen kolu seçmek) arasında denge kurmaktır. Bandit modelleri, geleneksel pekiştirmeli öğrenmeden durum ve geçiş kavramlarının olmamasıyla ayrılır; bu nedenle yalnızca mevcut tercihe bağlı kararlar gerektiren durumlar için daha uygundur.

Kullanım alanları ve örnekler

Bandit modelleri, içerik optimizasyonu (dinamik A/B testi), çevrimiçi ürün önerisi, dinamik reklam yerleşimi, finansal portföy yönetimi ve sensör ağı optimizasyonunda kullanılır. Örneğin, e-ticarette bir bandit sistemi, her kullanıcıya gerçek zamanlı olarak gösterilen promosyonları adapte ederek dönüşüm oranını maksimize edebilir.

Başlıca yazılım araçları, kütüphaneler ve çerçeveler

Bandit algoritmaları için önde gelen kütüphaneler arasında Vowpal Wabbit, scikit-learn (temel modeller için), MABWiser, BanditPylib ve PyBandits bulunur. Microsoft Azure Personalizer gibi platformlar ise bağlamsal banditler için hazır çözümler sunar.

Son gelişmeler, evrim ve eğilimler

Son araştırmalar, her seçimde ek bilgi kullanan bağlamsal banditler, adversaryal banditler ve derin pekiştirmeli öğrenmeyle entegrasyon üzerinde yoğunlaşmaktadır. Gerçek zamanlı kişiselleştirme ve otomatik reklam kampanya yönetiminde endüstriyel uygulamalar artmakta; algoritmik adalet ve durağan olmayan ortamlarda sağlamlık konularına daha fazla önem verilmektedir.