La bibliothèque infinie Babel de LLM
"' Le parrain de l'IA' quitte Google et avertit du danger à venir ", est le titre du New York Times. Comment savoir si les LM sont une menace pour l'humanité s'ils ne sont pas open-source ? Que se passe-t-il réellement ? Comment le monde des modèles linguistiques est au bord du Changement.
L'appel à la croisade open-source
Il y a peu de temps, GPT-4 a été révélé au public, et je pense que nous sommes tous allés lire le rapport technique et avons été déçus.
Récemment, Nature s'est également penché sur la question : nous avons besoin que les grands modèles de langage (LLM) soient open-source.
De nombreux LLM sont propriétaires, non publiés, et nous ne savons pas sur quelles données ils ont été formés. Cela ne permet pas de les inspecter et de tester leurs limites, notamment en ce qui concerne les biais.
De plus, le partage d'informations et de code avec ChatGPT présente un risque de fuite, comme l'a découvert Samsung . Sans oublier que certains États estiment que le stockage de données par ces entreprises viole le RGPD .
C'est pourquoi nous avons besoin que les LLM soient open source, et il devrait y avoir plus d'investissements dans le développement de nouveaux LLM, comme le consortium BLOOM (un LLM de 170 paramètres B qui a été développé par un consortium universitaire).
Il y a souvent eu du sensationnalisme ces derniers mois, tant sur les capacités réelles de ces LLM que sur les risques de l'intelligence artificielle. Si les chercheurs ne peuvent pas tester les modèles, ils ne peuvent pas vraiment évaluer leurs capacités, et de même pour analyser les risques. De plus, un modèle open-source est beaucoup plus transparent et la communauté peut également essayer d'identifier la source d'un comportement problématique.
De plus, ce n'est pas une demande du milieu universitaire, les institutions sont alarmées par l'IA. L'Union européenne discute ces jours-ci de la loi sur l'IA de l'UE qui peut remodeler l'avenir des LLM. Dans le même temps, la Maison Blanche pousse le PDG de la technologie à limiter le risque d'IA. Ainsi, l'open source pourrait être en fait une future exigence pour les modèles de langage.
Pourquoi ChatGPT est-il si bon ?
Nous avons tous entendu parler de ChatGPT et de la façon dont cela semblait révolutionnaire. Mais comment a-t-il été formé ?
Tout sauf tout ce que vous devez savoir sur ChatGPTCommençons par le fait que ChatGPT a été formé sur la base d'un LLM (GPT 3.5 pour être précis). Typiquement, ces modèles de langage de type GPT sont formés en utilisant la prédiction du jeton suivant dans une séquence (à partir d'une séquence de jetons w, le modèle doit prédire le jeton suivant w+1).
Le modèle est généralement un transformateur : composé d'un codeur qui reçoit l'entrée sous forme de séquence et d'un décodeur qui génère la séquence de sortie. Le cœur de ce système est l'auto-attention multi-têtes , qui permet au modèle d'apprendre des informations sur le contexte et les dépendances entre les différentes parties de la séquence.
GPT-3 a été formé avec ce principe (comme les autres modèles de la famille Generative Pre-training Transformer, GPT), mais avec beaucoup plus de paramètres et beaucoup plus de données (570 Go de données et 176 B de paramètres).
GPT3 a d'énormes capacités, mais lorsqu'il s'agit de générer du texte, il hallucine souvent, manque d'utilité, est ininterprétable et contient souvent des biais. Cela signifie que le modèle n'est pas aligné sur ce que nous attendons d'un modèle qui génère du texte comme un humain
Comment obtenir ChatGPT à partir de GPT-3 ?
Le processus s'appelle Reinforcement Learning from Human Feedback (RHLF) et a été décrit par les auteurs dans cet article :
Ici, je vais le décrire de manière très générale et succincte. Concrètement, il se compose de trois étapes :
- La mise au point supervisée est la première étape dans laquelle le LLM est affiné pour apprendre une politique supervisée (modèle de base ou modèle SFT).
- Imitez les préférences humaines , dans cette étape, les annotateurs doivent voter sur un ensemble de sorties du modèle de référence. Cet ensemble de données organisé est utilisé pour former un nouveau modèle, le modèle de récompense.
- Proximal Policy Optimization (PPO) , ici le modèle de récompense est utilisé pour affiner le modèle SFT et obtenir le modèle de politique
Les auteurs ont utilisé comme modèle GPT-3.5 qui avait déjà été affiné sur le code de programmation, cela explique également les capacités de code de ChatGPT.
Maintenant, cette étape n'est cependant pas exactement évolutive puisqu'il s'agit d'un apprentissage supervisé. De toute façon, le modèle ainsi obtenu n'est pas encore aligné.
Les annotateurs ont noté une gamme de réponses du modèle SFT, selon le degré de désir d'une telle réponse (du pire au meilleur). Nous avons maintenant un ensemble de données beaucoup plus grand (10 x) et fournissons les réponses du modèle SFT au nouveau modèle, qui doivent être classées par ordre de préférence.
Au cours de cette étape, le modèle apprend une politique générale sur les données et comment maximiser sa récompense (quand il est capable de bien classer les sorties).
Nous avons donc le modèle SFT, et nous utilisons ses poids pour initialiser un nouveau modèle PPO. Ce modèle est affiné à l'aide de Proximal Policy Optimization (PPO).
En d'autres termes, nous utilisons un algorithme d'apprentissage par renforcement. Le modèle PPO reçoit une invite aléatoire et répond à l'invite, après quoi il reçoit une pénalité ou une récompense. Au lieu du Q-learning classique , ici la politique du modèle est mise à jour à chaque réponse (le modèle apprend directement de l'expérience, sur la politique).
De plus, les auteurs utilisent la pénalité Kullback-Leibler (KL) par jeton pour rendre la distribution de réponse du modèle similaire à celle du modèle SFT. C'est parce que nous voulons optimiser le modèle avec le RL (en raison du modèle de récompense) mais nous ne voulons toujours pas qu'il oublie ce qu'il a appris à l'étape 1, qui sont des invites organisées par des humains.
Enfin, le modèle est évalué sur trois aspects : l'utilité, la véracité et l'innocuité. Après tout, ce sont exactement les aspects que nous voulions optimiser.
Une remarque curieuse est que le modèle, lorsqu'il est évalué sur des benchmarks classiques (réponse aux questions, résumé, classification), a des performances inférieures à GPT-3. C'est le coût de l'alignement.
L'alpaga, un animal révolutionnaire
Comme mentionné, il existe un réel besoin d'étudier le comportement de ces modèles et cela n'est possible que s'ils sont open source. D'autre part, n'importe quel LM peut être aligné en utilisant RHLF.
RHLF est beaucoup moins coûteux et gourmand en calculs que la formation d'un modèle à partir de zéro. En revanche, cela nécessite qu'il y ait des annotateurs (il faut en effet un jeu de données avec des instructions). Mais ces étapes ne peuvent-elles pas être automatisées ?
La première étape était Self-instruct , dans cet article de 2022, les auteurs proposent une méthode semi-automatisée. En fait, l'idée générale est de commencer avec un ensemble d'instructions écrites manuellement. Cet ensemble d'instructions sert à la fois de point de départ et de garantie que la plupart des tâches de la PNL sont couvertes.
À partir de là, avec seulement 175 instructions, le modèle a été invité à générer le jeu de données (instructions 50k). L'ensemble de données a ensuite été utilisé pour le réglage des instructions.
Avoir une méthode ne nécessitait qu'un modèle. ChatGPT est basé sur OpenAI GPT-3.5, mais un modèle plus petit ne peut-il pas être utilisé ? A-t-il nécessairement besoin de plus de 100 paramètres B ?
Au lieu de cela, les chercheurs de Stanford ont utilisé LLaMA et plus particulièrement la version 7B et les instructions 52 K générées selon la méthode d'auto-instruction (instructions générées à l'aide du text-davinci-003 d'OpenAI). La valeur réelle d'Alpaca est que les auteurs ont simplifié le pipeline et considérablement réduit les coûts de manière à ce que n'importe quel laboratoire universitaire puisse reproduire le processus (qui se trouve dans ce référentiel ). Comme dit en fait :
Pour notre première exécution, le réglage fin d'un modèle LLaMA 7B a pris 3 heures sur 8 A100 de 80 Go, ce qui coûte moins de 100 $ sur la plupart des fournisseurs de calcul cloud. ( source )
L'évaluation initiale du modèle a montré qu'Alpaca est presque bon à GPT-3.5 (le dépassant même dans certains cas). Cela peut paraître surprenant étant donné qu'il s'agit d'un modèle 20 fois plus petit. D'autre part, le modèle s'est comporté comme GPT dans une série d'entrées (la formation agit donc comme une sorte de distillation des connaissances). D'autre part, le modèle a les mêmes limites que les modèles de langage typiques, montrant des hallucinations, une toxicité et des stéréotypes.
Alpaca démontre ensuite que n'importe quel laboratoire académique peut former sa propre version de ChatGPT (en utilisant LLaMA , qui est disponible uniquement pour la recherche). En revanche, toute entreprise utilisant un autre modèle peut s'aligner et créer sa propre version de ChatGPT. De plus, des modèles similaires pourraient encore être déployés sur des téléphones portables ou des ordinateurs Raspberry Pi .
Les auteurs ont publié une démo, mais elle a été fermée après un court laps de temps (pour des raisons de sécurité). De plus, bien qu'il fallait faire une demande pour utiliser LLaMA (et accéder aux poids du modèle), quelques jours plus tard, le modèle a été divulgué en ligne .
Les LLM sont-ils à la frontière d'une révolution ?
Il semble que cela fait des années que ChatGPT est sorti, mais à la place, ce n'était que quelques mois. Jusque-là, nous parlions de la loi de puissance, de la nécessité pour un modèle d'avoir plus de paramètres, plus de données et plus d'entraînement afin de permettre l'origine des comportements émergents.
Ces idées ont conduit à l'idée que nous pourrions définir une sorte de loi de Moore pour les modèles de langage. En un sens, ces dernières années, nous avons observé une loi presque exponentielle (nous sommes passés de 1,5 B de paramètres pour GPT-2 à 175 B pour GPT-3).
Qu'est ce qui a changé?
Le premier coup porté à cette doctrine pourrait s'appeler, l'arrivée du chinchilla . Le modèle de DeepMind a montré que ce n'est pas seulement une question de quantité de données mais aussi de qualité des données. Deuxièmement, le LLaMA de META a montré que même des modèles plus petits utilisant un ensemble de données organisé peuvent obtenir des résultats similaires, voire meilleurs, que des modèles volumineux.
Ce n'est pas qu'une question de modèles. Les données sont l'autre problème. Les humains ne produisent pas assez de données, probablement pas assez de données pour prendre en charge un GPT-5 selon les exigences de la loi de puissance. Deuxièmement, les données ne seront plus aussi accessibles qu'avant.
En fait, Reddit (une ressource de données populaire) a annoncé que les développeurs d'IA devront payer pour accéder à son contenu. Même Wikipédia a pensé la même chose et maintenant StackOverflow évolue dans le même sens, cela obligera les entreprises à payer.
"Les plates-formes communautaires qui alimentent les LLM doivent absolument être rémunérées pour leurs contributions afin que des entreprises comme la nôtre puissent réinvestir dans nos communautés pour continuer à les faire prospérer", déclare Chandrasekar de Stack Overflow. "Nous sommes très favorables à l'approche de Reddit." ( source )
Et même si l'on parvient à obtenir les données, ce n'est peut-être pas sûr de la même manière pour une entreprise. Getty a poursuivi un générateur d'art IA , mais les artistes eux-mêmes ont également intenté des poursuites. Sans oublier que les programmeurs ont fait de même avec GitHub Copilot qui a été formé avec du code dans les référentiels. De plus, l'industrie de la musique (notoirement litigieuse) s'est prononcée contre la musique générée par l'IA et a exhorté contre les services de streaming. Si même les entreprises d'IA font appel au fair use , il n'est en aucun cas acquis qu'elles auront le même accès aux données à l'avenir.
Il y a un autre facteur à considérer, à part l'extension des modèles par hétéro modalité, l'architecture du transformateur n'a pas changé depuis 2017. Tous les modèles de langage sont basés sur le dogme selon lequel seule l'auto-attention multi-tête est nécessaire et rien de plus. Jusqu'à récemment, Sam Altman était convaincu que l'évolutivité de l'architecture était la clé d'AGI. Mais comme il l'a dit lors d'un récent événement du MIT , la clé de l'AGI n'est pas dans plus de couches et plus de paramètres.
Le transformateur a des limites définies et cela se reflète dans les LM : hallucinations, toxicité et biais. Les LLM modernes ne sont pas capables de pensée critique. Des techniques telles que la chaîne de pensées et l'ingénierie rapide servent de correctifs pour tenter d'atténuer le problème.
De plus, il a été démontré que l'auto-attention multi-tête est capable de résoudre des problèmes dérivés de RNN et de permettre l'émergence de comportements, car l'apprentissage en contexte a un coût quadratique. Récemment, on a vu qu'on ne peut pas remplacer l'attention à soi par des variantes non quadratiques de l'attention sans perdre l'expressivité. Cependant, des travaux tels que Spike-GPT et Hyena montrent que des alternatives moins coûteuses non basées sur l'auto-attention existent et permettent des résultats comparables dans la construction de modèles de langage.
De plus, comme indiqué, l'alignement d'un modèle à l'aide de RHLF a un coût en termes de performances dans les différentes tâches. Les LM ne remplaceront donc pas le « modèle expert » mais seront peut-être à l'avenir les orchestrateurs d'autres modèles (comme par exemple suggéré par HuggingGPT ).
Vous ne pouvez pas arrêter l'open-source et pourquoi il est toujours gagnant
MidJourney ou DALL-E sont-ils meilleurs ? c'est difficile peut-être à dire. Ce qui est certain, c'est que la diffusion stable est la technologie gagnante. La diffusion stable par le fait qu'elle a été open-source a engendré tant d'applications et a inspiré tant de recherches dérivées (ControlNet, données synthétiques pour l'imagerie médicale, parallèles au cerveau).
Grâce au travail de la communauté, la diffusion stable dans ses différentes versions a été améliorée et les variations sont infinies. En revanche, il n'y a pas d'application de DALL-E qui n'ait pas de contrepartie basée sur la diffusion stable (mais l'inverse est vrai).
Pourquoi alors n'en a-t-il pas été de même pour les modèles de langage ?
Jusqu'à présent, le principal problème était que la formation d'un modèle linguistique était une entreprise prohibitive. BLOOM de BigScience est en effet un énorme consortium. Mais LLaMA a montré que des modèles beaucoup plus petits peuvent rivaliser avec des monstres de plus de 100 paramètres B. Alpaca a montré que l'alignement LM peut également être effectué à peu de frais (moins de 1 000 $ de coût total). Ce sont ces éléments qui ont permis à Simon Willson de dire : « Les grands modèles de langage connaissent leur moment de Stable Diffusion. ”
De Alpaca à nos jours, de nombreux modèles sont sortis qui sont open-source . Non seulement Stability AI a publié un certain nombre de modèles qui sont compétitifs avec les géants et peuvent être utilisés par tout le monde, mais d'autres sociétés ont également publié des chatbots et des modèles. En quelques semaines seulement, nous avons vu : Dolly , HuggingChat , Koala et bien d'autres
Maintenant, certains des modèles mentionnés sont oui open-source mais ils sont destinés à un usage non commercial. bien qu'ils soient ouverts à la recherche académique, cela signifie qu'ils ne peuvent pas être exploités par des entreprises intéressées.
Ce n'est qu'une partie de l'histoire. En fait, il existe déjà des modèles sur HuggingFace qui peuvent être facilement formés (modèles, jeux de données et pipelines) et il existe à ce jour plusieurs modèles qui sont disponibles dans le commerce (à ce jour plus de 10 ) :
Modèle open source, données privées et nouvelles applications
Dario Amodei, PDG d'Anthropic cherche des milliards pour battre OpenAI sur le plus grand modèle du monde. Cependant, le reste du monde évolue dans une autre direction. Par exemple, Bloomberg, qui n'est pas un acteur connu de l'IA a sorti un LLM pour la finance (formé sur 363 milliards de jetons provenant de sources financières).
Pourquoi voulons-nous un LLM pour la finance? Pourquoi ne pas utiliser uniquement ChatGPT ?
Google MedPalm a montré qu'un modèle généraliste a des performances médiocres par rapport à un modèle qui est affiné sur un sujet spécifique (dans ce cas, il s'agissait d'ensembles de données d'articles médicaux, scientifiques, etc.).
Affiner un LLM coûte clairement cher. Surtout si nous parlons de modèles avec des centaines de milliards de paramètres. Les modèles plus petits sont beaucoup moins chers, mais toujours pas indifférents. Le LLaMA de META étant open-source a en partie résolu ce problème. En fait, les auteurs de LLaMA-Adapter ont montré qu'il suffit d'ajouter 1,2 million de paramètres pour effectuer un réglage fin (la formation a duré moins d'une heure).
S'il est vrai que LLaMA n'est pas disponible dans le commerce, il existe de nombreux autres modèles disponibles (du plus petit au plus grand). Ce qui va évidemment permettre une application réussie dans un domaine donné, ce sont les données.
Comme Samsung l'a découvert désagréablement , il y a un risque à utiliser ChatGPT à l'intérieur d'une entreprise. Même si ChatGPT permet désormais aux utilisateurs de désactiver l'historique des discussions ou de refuser d'utiliser leurs données pour former le modèle, les entreprises considéreront qu'il est risqué de concéder leurs données.
Beaucoup d'entreprises considéreront qu'il est possible de former leur propre chatbot, un modèle affiné sur leurs propres données d'entreprise et qui restera interne. Après tout, la technologie est disponible et abordable même pour les entreprises à petit budget. De plus, le faible coût leur permet de pouvoir s'ajuster régulièrement à mesure que de nouvelles données arrivent ou si un meilleur modèle open source est publié. Les entreprises qui disposent désormais des données seront beaucoup plus réticentes à les accorder.
De plus, nous avons vu à quel point il est important d'avoir des données de qualité. Les données en médecine et dans de nombreux autres domaines sont difficiles à collecter (coûteuses, réglementées, rares) et les entreprises qui les possèdent ont un avantage. OpenAI pourrait dépenser des milliards pour essayer de collecter par exemple des données médicales, mais au-delà du coût, le recrutement de patients nécessite des années et un réseau établi (ce qu'il n'a pas). Les entreprises qui disposent désormais des données seront plus restrictives dans le partage de ces données avec des modèles capables de stocker ce à quoi elles sont exposées.
De plus, des travaux tels que HuggingGPT et AudioGPT montrent que le LLM est une interface permettant à l'utilisateur d'interagir avec des modèles experts (texte vers image, modèle audio, etc.). Au cours des dernières années, de nombreuses entreprises ont embauché des scientifiques des données et ont développé différents modèles spécialisés pour leurs besoins (modèles des entreprises pharmaceutiques pour la découverte et la conception de médicaments, entreprises manufacturières pour la conception de composants et la maintenance prédictive, etc.). Ainsi, les scientifiques des données peuvent désormais demander aux LLM de se connecter à leurs modèles précédemment formés et permettre aux utilisateurs internes non techniques d'interagir avec eux via des invites textuelles.
Il y a aussi un autre élément qui pointe vers un tel scénario, la réglementation sur l'IA générative n'est pas claire (par exemple, Google n'a pas publié son modèle de musique générative par crainte d'une violation du droit d'auteur). Outre la question du droit d'auteur, les questions de responsabilité restent ouvertes. Par conséquent, de nombreuses entreprises pourraient internaliser la technologie et créer leur propre assistant IA dans les mois à venir.
Pensées d'adieu
Le Dr Hinton a déclaré que lorsque les gens lui demandaient comment il pouvait travailler sur une technologie potentiellement dangereuse, il paraphrasait Robert Oppenheimer, qui a dirigé l'effort américain pour construire la bombe atomique : "Quand vous voyez quelque chose qui est techniquement doux, vous allez-y et faites-le.
Il ne dit plus ça. ( source )
Hinton a récemment déclaré que nous devons discuter des risques de l'intelligence artificielle. Mais on ne peut pas étudier les risques d'explosion d'une bombe si elle se trouve à l'intérieur d'une boîte noire. C'est pourquoi il est de plus en plus urgent que les modèles soient Open source.
Les LLM sont de toute façon dans une phase de changement. Créer des modèles de plus en plus gros n'est pas durable et ne donne pas le même avantage qu'auparavant. L'avenir des prochains LLM résidera dans les données et probablement dans de nouvelles architectures qui ne seront plus basées sur l'auto-attention.
Cependant, les données ne seront plus aussi accessibles qu'auparavant; les entreprises commencent à en bloquer l'accès. Microsoft se dit prêt à permettre aux entreprises de créer leur propre version de ChatGPT. Mais les entreprises seront sceptiques.
Certaines entreprises craignent pour leur activité (il semblerait que ChatGPT ait déjà fait sa première victime ), et d'autres craignent les fuites de données. Ou tout simplement la technologie est enfin à la portée de presque toutes les entreprises, et chacune va créer un chatbot adapté à ses besoins.
En conclusion, nous pouvons voir différentes tendances (qui en partie se produisent déjà):
- Une peur croissante de l'IA pousse aux modèles open-source
- Cela conduit à une publication croissante de modèles de LLM open source. Ce qui, à son tour, montre que vous pouvez utiliser des modèles plus petits et réduire le coût de leur alignement.
- Les modèles LLM sont une menace pour différentes entreprises et les entreprises craignent que ces modèles ne menacent leur entreprise. Ainsi, différentes entreprises réduisent l'accès à leurs données ou demandent un paiement aux entreprises d'IA.
- La réduction des coûts, la peur de la concurrence, une nouvelle pertinence pour les données propriétaires et la nouvelle disponibilité des modèles open source conduisent les entreprises à former leurs propres chatbots sur leurs propres données en utilisant des modèles open source.
Si vous avez trouvé cela intéressant :
Vous pouvez rechercher mes autres articles, vous pouvez également vous abonner pour être averti lorsque je publie des articles, vous pouvez devenir membre Medium pour accéder à toutes ses histoires (liens affiliés de la plateforme pour lesquels je reçois de petits revenus sans frais pour vous) et vous pouvez également me connecter ou me joindre sur LinkedIn .
Voici le lien vers mon référentiel GitHub, où je prévois de collecter du code et de nombreuses ressources liées à l'apprentissage automatique, à l'intelligence artificielle, etc.
ou vous pourriez être intéressé par un de mes articles récents :