GPT4 et problèmes de codage
Arrière-plan
Comme beaucoup de gens l'ont probablement entendu, un nouveau grand modèle de langage ( GPT4 ) d'OpenAI a récemment été annoncé. Évidemment, les poids du modèle ne sont pas publiés (rien de nouveau), mais cette fois, l'article décrivant l'architecture et l'entraînement du modèle n'est pas non plus publié (c'est nouveau). Cependant, le modèle est disponible sous forme d'API payante (avec liste d'attente) et pour les abonnés ChatGPT-Plus (avec des limitations plutôt restrictives).
Le modèle est censé être multimodal (consommant à la fois du texte et des images comme entrées), cependant, les API exposées sont uniquement textuelles. Une chose plus intéressante est les résultats de référence, qui ont été publiés : apparemment, il bat le meilleur LLM précédent (le PaLM à ajustement précis de Google) dans tous les domaines, obtenant des résultats impressionnants dans la plupart des ensembles de données de type examen.
Une ligne du rapport se démarque cependant (les colonnes sont GPT-4, GPT-4 sans vision et GPT-3.5) :
Codeforces est un site Web avec des concours de programmation : les participants reçoivent des énoncés de problèmes textuels et sont invités à écrire un code qui résout le problème donné. Le code est ensuite soumis au système, qui l'exécute sur un ensemble prédéfini de tests, en vérifiant l'exactitude et l'utilisation des ressources (d'exécution et de RAM). La difficulté des problèmes varie de triviale (résoluble par quelqu'un qui vient de commencer à apprendre un langage de programmation) à très difficile (avec des solutions nécessitant des idées dignes de documents de recherche en informatique théorique).
Comme il s'agit de compétitions, les utilisateurs se voient attribuer des notes de type ELO. Ce que le rapport GPT4 prétend, c'est que sa note serait de 392, ce qui est extrêmement bas - franchement, un petit enfant qui vient de suivre quelques cours d'informatique deviendrait plus élevé. Cela signifie-t-il que GPT4 ne peut pas résoudre les problèmes de codage ?
Un autre tableau du même rapport n'est pas d'accord :
Leetcode est une collection de problèmes de codage issus d'entretiens techniques. Leur particularité est qu'ils ne sont pas originaux et collectés à partir de sources externes, de sorte que la fuite de données est extrêmement probable (c'est-à-dire que GPT4 a probablement vu ces problèmes exacts avec des solutions pendant la formation).
Alors, le mystère est-il résolu et GPT4 ne peut pas résoudre les problèmes de codage à la fin ? Apparemment, il y a un désaccord : au bout de quelques jours, un article de chercheurs de Microsoft (conflit d'intérêt évident…) est sorti, avec un titre assez prétentieux « Sparks of Artificial General Intelligence : Early experiences with GPT-4 ». Dans ce document, les auteurs affirment que GPT4 est assez bon pour coder :
Dans son état actuel, nous pensons que GPT-4 a une grande compétence dans l'écriture de programmes ciblés qui ne dépendent que des bibliothèques publiques existantes, ce qui se compare favorablement à la capacité d'un ingénieur logiciel moyen.
Alors, quoi de neuf? Le but de cet article est d'évaluer GPT4 sur de nouveaux problèmes et de voir s'il peut les résoudre.
Méthodologie
Sélection du problème
Leetcode est la pire source possible pour choisir les problèmes, car il propose des problèmes provenant d'autres sources, ce qui signifie que même les nouveaux problèmes Leetcode sont susceptibles d'être anciens et d'apparaître dans l'ensemble de formation GPT4. Evaluer s'il peut mémoriser et retrouver des solutions de manière floue n'est pas très intéressant. Pour ces raisons, nous choisissons des problèmes qui sont apparus dans les récents concours originaux .
Pour la source du concours, nous choisissons AtCoder . Il offre une grande variété de difficultés de concours et de problèmes, et a une belle propriété que les déclarations et les solutions à leurs problèmes sont généralement assez courtes. Cela évite de surcharger la taille du contexte GPT4 dans la démo publique.
Pour la même raison de réduire la taille du contexte, nous demandons à GPT4 de proposer des solutions en Python, car elles sont généralement plus courtes que dans de nombreux autres langages.
Spécificités AtCoder
La plateforme propose des concours dans trois catégories :
- AtCoder Grand Contests : il s'agit de la piste "principale" pour les participants humains forts, la particularité étant que même les problèmes les plus simples nécessitent une réflexion non nulle ;
- Concours réguliers AtCoder : ces concours supposent que les participants ont une connaissance et une maîtrise décentes du langage de programmation, mais ne nécessitent pas nécessairement des idées compliquées, la plupart des problèmes étant relativement simples pour les participants expérimentés ;
- Concours pour débutants AtCoder : ils sont éducatifs et s'adressent aux personnes qui souhaitent simplement apprendre la programmation. Contrairement aux deux catégories précédentes, tous les problèmes de ces concours ne sont pas originaux.
Pour donner quelques exemples, voici des exemples de problème facile dans chaque catégorie :
- Débutant : lien . Le problème demande de comparer chaque chaîne d'un ensemble avec une petite liste de chaînes prédéfinies. Aucune réflexion n'est nécessaire, mais les participants doivent savoir comment comparer des chaînes dans leur langage de programmation ;
- Régulier : lien
La concaténation de S et S' dans cet ordre est un palindrome. La concaténation de S' et S dans cet ordre est un palindrome.
Cela demande déjà un peu de réflexion (en considérant les cas K < 2N et K ≥ 2N), et un codage moins trivial.
- Grand : lien
Si R=L+1, échangez les valeurs de A_L et A_R et terminez.
Sinon, exécutez shuffle(L,R−1) suivi de shuffle(L+1,R).
Supposons que nous lancions shuffle(1,N). Imprimer la valeur de A_K après la fin de la routine.
C'est déjà difficile à résoudre pour un humain sans un morceau de papier (en considérant manuellement quelques exemples et en remarquant le motif).
Si nous parlons d'intelligence, résoudre la catégorie "Grand" peut être considéré comme un haut niveau d'intelligence compétitif avec des humains forts ; résoudre "Régulier" peut être considéré comme un signe d'intelligence ; « Débutant » ne nécessite pas beaucoup d'intelligence, juste la connaissance de base d'un langage de programmation et de techniques algorithmiques.
Réglage rapide
L'invite suivante a été utilisée pour donner les instructions à GPT4 (essayer de le rendre plus semblable à une instruction ne semble pas aider avec les résultats) :
# Solving Math with Coding
## You are given the task of writing a Python program to solve the following math problem:
<STATEMENT>
## Requirements:
- The code should be syntactically correct standalone Python program.
- Don't forget the proper indentation.
- Please print the final answer using print(solution).
### Possible Python Program:
Alors, à quoi ressemblent les résultats? Étonnamment, ils sont bien pires que ce à quoi je m'attendais:
- Grand : 0/24
- Régulier : 0/12
- Débutant : 5/16 (A/B/C à partir du #295 et A/B à partir du #294 )
Par exemple, ce problème : il demande de concaténer deux tableaux triés, de trier la concaténation, et de dire où sont les positions des éléments des tableaux originaux dans le résultat trié. La solution GPT4 est quadratique dans le temps, elle expire donc.
Autre exemple d'échec : ce problème . Il demande de compter un certain nombre de sous-chaînes dans une chaîne contenant chaque caractère un nombre pair de fois. La solution GPT4 n'est pas seulement quadratique, mais complètement fausse, vérifiant une propriété différente.
Compte tenu des problèmes avec ceux-ci, il n'est pas surprenant qu'il n'ait aucun résultat sur les problèmes réguliers / grands. Il reproduit souvent certains algorithmes standard ou utilise des techniques standard telles que la programmation dynamique , mais tout cela ne l'aide pas du tout à résoudre les problèmes rencontrés.
Une observation intéressante est qu'il produit souvent du code qui ne fonctionne même pas sur des exemples d'entrées, bien qu'ils soient fournis avec eux. Peut-être qu'un moyen simple de faire un peu mieux serait de rééchantillonner la solution jusqu'à ce qu'elle réussisse les tests d'échantillon, mais cela est difficile à mettre en œuvre avec la limitation du débit rapide dans la démo publique.
À l'avantage de GPT4, la partie qu'il réussit systématiquement est l'analyse des entrées : peut-être que les personnes qui participent à ces concours peuvent l'utiliser à cette fin (si ce n'était pas si lent). Ceci est en quelque sorte cohérent avec les cas d'utilisation du CoPilot existant : il permet également généralement de corriger des morceaux de code aussi fastidieux et simples.
Discussion
Comment se fait-il que GPT4 soit si bon sur les tests, mais si désastreusement mauvais sur les problèmes de codage ? Il devrait y avoir beaucoup de problèmes de code et de codage dans l'ensemble de formation (au moins, d'autres LLM augmentent leur formation avec de grandes quantités de ceux-ci).
Une différence majeure est la nature de la tâche : il est beaucoup plus facile de répondre aux questions à choix multiples, car le modèle n'a qu'à choisir une réponse dans un petit espace ; tandis qu'avec les problèmes de codage, il doit produire le code de travail de bout en bout. Une façon de vérifier que c'est la raison serait de lui demander d'agir en tant que classificateur : étant donné une déclaration et une solution, indiquez si la solution est correcte (ou choisissez-en une correcte parmi plusieurs options). Je n'ai pas fait le test, mais je suis prêt à parier que ça va être tout aussi mauvais.
Une autre explication potentielle peut être que les questions d'examen visent à tester les connaissances et non les compétences. En effet, GPT4 résout un nombre non nul de problèmes issus des concours Débutant, qui ne nécessitent que des connaissances ; tout en luttant avec des concours réguliers et grands plus basés sur les compétences. Ce serait une vision pessimiste des LLM : s'ils ne réussissent que sur les tâches basées sur la connaissance, ce sont essentiellement des moteurs de recherche glorifiés (ou des interfaces en langage naturel pour quelque chose d'insignifiant), et nous n'obtiendrons pas AGI avec eux de si tôt.
Un optimiste pourrait dire que c'est parce que nous avons juste besoin de travailler plus pour le faire fonctionner pour ce cas d'utilisation : faire un réglage fin (impossible car GPT4 est fermé), ou faire une chaîne de pensée incitant à faire en sorte que le modèle raisonne pour un certain temps avant de passer au codage. C'est un argument valable, mais étant donné les performances sur les problèmes de débutant qui ne nécessitent pas beaucoup de raisonnement, je doute que cela aide beaucoup.
Néanmoins, je prévois de jouer un peu plus avec les LLM dans cette direction, en particulier, affiner LLaMA pour ce cas d'utilisation spécifique (voyons s'il bat au moins GPT4 ; quelques premières tentatives avec un réglage fin de rang inférieur du plus petit 7B version sont encore pires, mais il y a clairement plus de marge).