DeepRL (deep reinforcement learning) to dziedzina sztucznej inteligencji łącząca głębokie uczenie (deep learning) z uczeniem ze wzmocnieniem (reinforcement learning). Pozwala ona agentom sztucznej inteligencji uczyć się podejmowania sekwencyjnych decyzji w złożonych środowiskach poprzez maksymalizację skumulowanej nagrody, wykorzystując głębokie sieci neuronowe do przetwarzania dużych ilości niestrukturalnych danych. DeepRL wyróżnia się tym, że umożliwia uczenie bezpośrednio z surowych danych (obrazów, dźwięków, tekstów) bez ręcznego projektowania cech, a strategie adaptowane są w oparciu o doświadczenie i metodę prób i błędów.
Przykłady zastosowań i użycia
DeepRL wykorzystywane jest w sterowaniu robotami, grach komputerowych, zarządzaniu zasobami centrów danych, optymalizacji portfeli finansowych oraz automatyzacji jazdy autonomicznej. Przykładowo, agenci DeepRL pokonali ludzi w grach takich jak Atari czy Go (AlphaGo). W robotyce systemy te pozwalają robotom uczyć się złożonych zadań, jak manipulacja przedmiotami czy poruszanie się w niepewnym środowisku.
Główne narzędzia programistyczne, biblioteki, frameworki
Kluczowe narzędzia DeepRL to TensorFlow, PyTorch oraz wyspecjalizowane biblioteki: Stable Baselines3, Ray RLlib, OpenAI Baselines, Keras-RL i TF-Agents. Do symulacji często wykorzystywane są OpenAI Gym, DeepMind Lab oraz Unity ML-Agents.
Najnowsze osiągnięcia i trendy
Obecne badania skupiają się na zwiększeniu wydajności próbkowania, odporności agentów, transferze wiedzy i generalizacji do nowych środowisk. Na popularności zyskują hybrydowe modele łączące DeepRL z uczeniem nadzorowanym lub nienadzorowanym, jak również zastosowanie dużych modeli wstępnie wytrenowanych. DeepRL coraz częściej znajduje zastosowanie w przemysłowych wdrożeniach na dużą skalę, wspieranych przez rosnącą moc obliczeniową i integrację z rzeczywistymi systemami autonomicznymi.