OpenAI a développé un modèle innovant appelé CriticGPT, qui aide à détecter les erreurs dans la sortie de code de GPT-4. L'article explore comment CriticGPT améliore la précision en assistant les formateurs dans leur travail avec le Reinforcement Learning from Human Feedback (RLHF).

 

Revue de Code Améliorée

CriticGPT a été entraîné à détecter les erreurs dans la sortie de code de ChatGPT. Les résultats montrent que les utilisateurs assistés par CriticGPT réussissent 60 % mieux que ceux sans aide. CriticGPT aide à identifier des erreurs subtiles qui peuvent autrement être difficiles à détecter.

 

Intégration dans l'Étiquetage RLHF

OpenAI travaille à intégrer des modèles similaires à CriticGPT dans leur pipeline d'étiquetage RLHF. Cela offrira aux formateurs une assistance explicite par IA, ce qui est une étape vers l'évaluation de systèmes d'IA avancés.

 

Analyse Détaillée

Les modèles GPT-4, qui alimentent ChatGPT, sont conçus pour être utiles via RLHF. Une partie centrale de RLHF est de collecter des comparaisons où les formateurs IA évaluent différentes réponses de ChatGPT entre elles. Avec les progrès du comportement des modèles, ChatGPT devient plus précis et les erreurs plus subtiles. Cela rend plus difficile pour les formateurs de détecter les inexactitudes, ce qui complique le processus RLHF.

 

Entraînement de CriticGPT

CriticGPT a été entraîné via RLHF, où des formateurs IA inséraient manuellement des erreurs dans du code écrit par ChatGPT puis rédigeaient des retours comme s'ils avaient découvert l'erreur. CriticGPT devait ensuite identifier ces erreurs et d'autres erreurs naturelles. Les critiques de CriticGPT sont préférées par les formateurs dans 63 % des cas, car elle produit moins de petites plaintes et de problèmes hallucinés.

 

Méthodes et Résultats

CriticGPT a également été entraîné à générer des critiques plus longues et plus complètes en utilisant une procédure de recherche qui équilibre l'agressivité dans la détection des erreurs. Cela s'est avéré efficace pour produire des critiques utiles pour RLHF.

 

Limitations

CriticGPT est entraîné sur des réponses plus courtes et présente des limites dans la gestion de tâches complexes. Les modèles hallucinent encore, et les formateurs peuvent faire des erreurs basées sur ces hallucinations. Les erreurs futures peuvent être réparties sur plusieurs parties d'une réponse, ce qui nécessite des méthodes plus sophistiquées.

 

Perspectives futures

Pour adapter des systèmes d'IA de plus en plus complexes, nous avons besoin de meilleurs outils. La recherche montre que l'application de RLHF sur GPT-4 a le potentiel d'aider les humains à produire de meilleures données RLHF pour GPT-4. Le plan est d'étendre ce travail davantage et de le mettre en pratique.

 

Conclusion

L'intégration de CriticGPT dans les pipelines RLHF représente une étape importante dans le développement de systèmes d'IA avancés. En combinant l'intuition humaine avec les capacités de CriticGPT, des évaluations d'IA plus précises et efficaces peuvent être obtenues.