La DPO, une alternative prometteuse à la RLHF pour l'alignement des modèles de langage sur les préférences humaines

L’apprentissage par renforcement à partir de la rétroaction humaine (RLHF) est couramment utilisé pour aligner les modèles d’IA sur les préférences humaines, il l’a ainsi été pour le LLM Claude ou GPT-4. Des chercheurs de l’Université de Stanford proposent une méthode beaucoup plus simple mais très efficace que la RLHF : la DPO (Direct Preference Optimization).

L’article de Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Chris Manning et Chelsea Finn a été publié sur arXiv en décembre dernier, mais ils avaient introduit la DPO initialement en mai dernier. Mistral AI a d’ores et déjà démontré ses performances en l’utilisant pour un suivi minutieux des instructions de son modèle Mixtral 8x7B.

RHLF vs DPO

La RLHF est une procédure complexe et souvent instable. Elle consiste à pré-entraîner un LLM, faire comparer à des humains des paires de sorties du LLM, générées en réponse à une même invitation, et à ajuster un modèle de récompense qui reflète les préférences humaines. Le LLM non supervisé est ensuite affiné à l’aide de l’apprentissage par renforcement (RL) pour maximiser cette récompense estimée sans trop s’éloigner du modèle original.

Le réglage des hyperparamètres est important dans cette dernière étape car ils peuvent influencer la vitesse, la stabilité et la performance de l’apprentissage par renforcement.

Le DPO est un algorithme stable, performant et peu gourmand en ressources computationnelles, éliminant le besoin d’échantillonnage à partir du LLM pendant l’affinage et celui d’effectuer un ajustement significatif des hyperparamètres.

Les expériences démontrent que cet algorithme peut ajuster les LLMs pour se conformer aux préférences humaines aussi bien, voire mieux, que les méthodes existantes. En particulier, il surpassse la RLHF basée sur PPO (“Proximal Policy Optimization”, un algorithme d’apprentissage par renforcement) dans la modulation du sentiment et améliore la qualité des réponses dans le résumé et le dialogue, tout en étant plus simple à mettre en œuvre et à entraîner.

Cette approche présente une contribution significative au développement des LLMs, en permettant de les optimiser pour se conformer aux préférences humaines, sans modélisation explicite de la récompense ni apprentissage par renforcement.

Références de l’article : “Direct Preference Optimization: Your Language Model is Secretly a Reward Model” arXiv :2305.18290v2 , 13 décembre 2023, https://doi.org/10.48550/arXiv.2305.18290

Auteurs : Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Chris Manning et Chelsea Finn