A Biblioteca Babel Infinita de LLMs
“' O Poderoso Chefão da IA' Deixa o Google e Alerta para o Perigo à Frente ”, é o título do New York Times. Como podemos saber se os LMs são uma ameaça à humanidade se não são de código aberto? O que realmente está acontecendo? Como o mundo dos modelos de linguagem está à beira da Mudança.
O chamado para a cruzada do código aberto
Há pouco tempo o GPT-4 foi revelado ao público, e acho que todos nós fomos ler o relatório técnico e ficamos desapontados.
Recentemente, a Nature também abordou a questão : precisamos de modelos de linguagem grandes (LLMs) para serem de código aberto.
Muitos dos LLMs são proprietários, não liberados, e não sabemos em quais dados eles foram treinados. Isso não permite que sejam inspecionados e testados quanto a limitações, especialmente no que diz respeito ao viés.
Além disso, o compartilhamento de informações e códigos com o ChatGPT corre o risco de vazamento, conforme descoberto pela Samsung . Sem mencionar que alguns estados acreditam que o armazenamento de dados por essas empresas viola o GDPR .
É por isso que precisamos que os LLMs sejam de código aberto, e deveria haver mais investimento no desenvolvimento de novos LLMs, como o consórcio BLOOM (um LLM de 170 B parâmetro que foi desenvolvido por um consórcio acadêmico).
Muitas vezes houve sensacionalismo nos últimos meses, tanto sobre as capacidades reais desses LLMs quanto sobre os riscos da inteligência artificial. Se os pesquisadores não puderem testar os modelos, eles não poderão realmente avaliar suas capacidades, e o mesmo para analisar os riscos. Além disso, um modelo de código aberto é muito mais transparente e a comunidade também pode tentar identificar a origem do comportamento problemático.
Além disso, não é uma demanda da academia, as instituições estão alarmadas com a IA. A União Europeia está discutindo atualmente a lei de IA da UE que pode remodelar o futuro dos LLMs. Ao mesmo tempo, a Casa Branca está pressionando o CEO de tecnologia a limitar o risco da IA. Assim, o código aberto pode ser, na verdade, um requisito futuro para modelos de linguagem.
Por que o ChatGPT é tão bom?
Todos nós já ouvimos falar do ChatGPT e de como ele parecia revolucionário. Mas como foi treinado?
Tudo, mas tudo o que você precisa saber sobre o ChatGPTComecemos com o fato de que o ChatGPT foi treinado com base em um LLM (GPT 3.5 para ser mais preciso). Normalmente, esses modelos de linguagem do tipo GPT são treinados usando a previsão do próximo token em uma sequência (a partir de uma sequência de tokens w, o modelo deve prever o próximo token w+1).
O modelo normalmente é um transformador: composto por um codificador que recebe a entrada como uma sequência e um decodificador que gera a sequência de saída. O coração desse sistema é a auto-atenção multicabeça , que permite ao modelo aprender informações sobre o contexto e as dependências entre as várias partes da sequência.
O GPT-3 foi treinado com este princípio (como os outros modelos da família Generative Pre-training Transformer, GPT), apenas com muito mais parâmetros e muito mais dados (570 GB de dados e 176 B de parâmetros).
O GPT3 tem recursos tremendos, no entanto, quando se trata de gerar texto, muitas vezes alucina, carece de utilidade, não pode ser interpretado e geralmente contém vieses. Isso significa que o modelo não está alinhado com o que esperamos de um modelo que gera texto como um ser humano
Como obtemos o ChatGPT do GPT-3?
O processo é chamado de Reinforcement Learning from Human Feedback (RHLF) e foi descrito pelos autores neste artigo:
Aqui vou descrevê-lo de forma muito geral e sucinta. Especificamente, consiste em três etapas:
- O ajuste fino supervisionado é a primeira etapa em que o LLM é ajustado para aprender uma política supervisionada (modelo de linha de base ou modelo SFT).
- Imitam as preferências humanas , nesta etapa, os anotadores devem votar em um conjunto de saídas do modelo de linha de base. Esse conjunto de dados curado é usado para treinar um novo modelo, o modelo de recompensa.
- Proximal Policy Optimization (PPO) , aqui o modelo de recompensa é usado para ajustar o modelo SFT e obter o modelo de política
Os autores usaram como modelo GPT-3.5 que já havia sido ajustado no código de programação, isso também explica os recursos de código do ChatGPT.
Agora, esta etapa, no entanto, não é exatamente escalável, pois é um aprendizado supervisionado. De qualquer forma, o modelo assim obtido ainda não está alinhado.
Os anotadores observaram uma gama de respostas do modelo SFT, de acordo com o quão desejável é tal resposta (do pior para o melhor). Agora temos um conjunto de dados muito maior (10 x) e fornecemos as respostas do modelo SFT para o novo modelo, que deve ser classificado em ordem de preferência.
Durante esta etapa, o modelo está aprendendo uma política geral sobre os dados e como maximizar sua recompensa (quando ele consegue classificar bem as saídas).
Portanto, temos o modelo SFT e usamos seus pesos para inicializar um novo modelo PPO. Este modelo é ajustado usando Proximal Policy Optimization (PPO).
Em outras palavras, usamos um algoritmo de aprendizado por reforço. O modelo PPO recebe um prompt aleatório e responde ao prompt, após o qual recebe uma penalidade ou recompensa. Em vez do Q-learning clássico , aqui a política do modelo é atualizada para cada resposta (o modelo aprende diretamente com a experiência, na política).
Além disso, os autores usam a penalidade de Kullback-Leibler (KL) por token para tornar a distribuição de resposta do modelo semelhante à do modelo SFT. Isso ocorre porque queremos otimizar o modelo com o RL (devido ao modelo de recompensa), mas ainda não queremos que ele esqueça o que aprendeu na etapa 1, que são prompts curados por humanos.
Finalmente, o modelo é avaliado em três aspectos: utilidade, veracidade e inocuidade. Afinal, eram exatamente esses aspectos que queríamos otimizar.
Uma observação curiosa é que o modelo quando avaliado em benchmarks clássicos (resposta a perguntas, resumo, classificação) tem desempenho inferior ao GPT-3. Este é o custo do alinhamento.
Alpaca, um animal revolucionário
Como mencionado há uma necessidade real de estudar o comportamento desses modelos e isso só é possível se eles forem de código aberto. Por outro lado, qualquer LM pode ser alinhado usando RHLF.
O RHLF é muito menos dispendioso e computacionalmente intensivo do que treinar um modelo do zero. Por outro lado, requer que haja anotadores (você realmente precisa de um conjunto de dados com instruções). Mas essas etapas não podem ser automatizadas?
A primeira etapa foi Autoinstruir , neste artigo de 2022, os autores propõem um método semiautomatizado. Na verdade, a ideia geral é começar com um conjunto de instruções escritas manualmente. Este conjunto de instruções serve tanto como sementes quanto para garantir que a maioria das tarefas de PNL sejam cobertas.
Começar então com apenas 175 instruções levou o modelo a gerar o conjunto de dados (50k instruções). O conjunto de dados foi então usado para ajuste de instrução.
Ter um método precisava apenas de um modelo. O ChatGPT é baseado no OpenAI GPT-3.5, mas um modelo menor não pode ser usado? Precisa necessariamente de mais de 100 parâmetros B?
Em vez disso, os pesquisadores de Stanford usaram o LLaMA e, especificamente, a versão 7B e as instruções 52 K geradas seguindo o método de autoinstrução (instruções geradas usando o texto-davinci-003 do OpenAI). O valor real do Alpaca é que os autores simplificaram o pipeline e reduziram muito os custos de forma que qualquer laboratório acadêmico pudesse replicar o processo (que está neste repositório ). Como de fato afirmou:
Em nossa execução inicial, o ajuste fino de um modelo 7B LLaMA levou 3 horas em 8 A100s de 80 GB, o que custa menos de US$ 100 na maioria dos provedores de computação em nuvem. ( fonte )
A avaliação inicial do modelo mostrou que o Alpaca é quase bom em GPT-3.5 (em alguns casos até superando). Isso pode parecer surpreendente, já que se trata de um modelo 20 vezes menor. Por outro lado, o modelo se comportou como GPT em uma série de entradas (portanto, o treinamento funciona como uma espécie de destilação de conhecimento). Por outro lado, o modelo tem as mesmas limitações dos modelos de linguagem típica, apresentando alucinações, toxicidade e estereótipos.
A Alpaca então demonstra que qualquer laboratório acadêmico pode treinar sua própria versão do ChatGPT (usando o LLaMA , que está disponível apenas para pesquisa). Por outro lado, qualquer empresa que utilize outro modelo pode alinhar e criar sua própria versão do ChatGPT. Além disso, modelos semelhantes ainda podem ser implantados em telefones celulares ou computadores Raspberry Pi .
Os autores lançaram uma demonstração, mas ela foi encerrada após um curto período de tempo (por questão de segurança). Além disso, embora fosse necessário se inscrever para usar o LLaMA (e acessar os pesos do modelo), alguns dias depois o modelo vazou online .
Os LLMs estão à beira de uma revolução?
Parece que já se passaram anos desde que o ChatGPT foi lançado, mas, em vez disso, foram apenas alguns meses. Até então falávamos sobre a lei de potência, como era necessário que um modelo tivesse mais parâmetros, mais dados e mais treinamento para permitir a origem de comportamentos emergentes.
Essas ideias levaram à ideia de que poderíamos definir uma espécie de lei de Moore para modelos de linguagem. De certa forma, nos últimos anos, vimos quase uma lei exponencial (passamos de 1,5 B de parâmetros para GPT-2 a 175 B para GPT-3).
O que mudou?
Pode-se chamar o primeiro golpe a esta doutrina, a chegada de Chinchilla . O modelo da DeepMind mostrou que não é apenas uma questão de quantidade de dados, mas também de qualidade dos dados. Em segundo lugar, o LLaMA da META mostrou que mesmo modelos menores usando um conjunto de dados curados podem alcançar resultados semelhantes, se não melhores, do que modelos enormes.
Não é apenas uma questão de modelos. Os dados são a outra questão. Os humanos não produzem dados suficientes, provavelmente não dados suficientes para suportar qualquer GPT-5 de acordo com o exigido pela lei de potência. Em segundo lugar, os dados não serão tão acessíveis como antes.
Na verdade, o Reddit (um recurso de dados popular) anunciou que os desenvolvedores de IA terão que pagar para acessar seu conteúdo. Até a Wikipedia pensou o mesmo e agora o StackOverflow está se movendo da mesma maneira, exigirá que as empresas paguem.
“As plataformas comunitárias que alimentam os LLMs devem ser compensadas por suas contribuições para que empresas como nós possam reinvestir em nossas comunidades para continuar a fazê-las prosperar”, diz Chandrasekar da Stack Overflow. “Apoiamos muito a abordagem do Reddit.” ( fonte )
E mesmo que alguém consiga obter os dados, pode não ser seguro o mesmo para uma empresa. Getty processou um gerador de arte de IA , mas os próprios artistas também entraram com ações judiciais. Sem mencionar que os programadores fizeram o mesmo com o GitHub Copilot , que foi treinado com código nos repositórios. Além disso, a indústria da música (notoriamente litigiosa) se manifestou contra a música gerada por IA e instou contra os serviços de streaming. Mesmo que as empresas de IA apelem para o uso justo , não é certo que elas terão o mesmo acesso aos dados no futuro.
Há outro fator a considerar, além de estender os modelos por modalidade hetero, a arquitetura do transformador não mudou desde 2017. Todos os modelos de linguagem são baseados no dogma de que apenas a autoatenção multicabeça é necessária e nada mais. Até recentemente, Sam Altman estava convencido de que a escalabilidade da arquitetura era a chave para a AGI. Mas, como ele disse em um evento recente do MIT , a chave para AGI não está em mais camadas e mais parâmetros.
O transformador tem limitações definidas e isso se reflete nos LMs: alucinações, toxicidade e viés. LLMs modernos não são capazes de pensamento crítico. Técnicas como cadeia de pensamentos e engenharia imediata servem como patches para tentar mitigar o problema.
Além disso, a auto-atenção com várias cabeças demonstrou ser capaz de resolver problemas derivados de RNN e permitir que comportamentos surjam à medida que o aprendizado no contexto tem um custo quadrático. Recentemente, percebeu-se que não se pode substituir a autoatenção por variantes não quadráticas da atenção sem perder a expressividade. No entanto, trabalhos como Spike-GPT e Hyena mostram que existem alternativas menos caras não baseadas na autoatenção e permitem resultados comparáveis na construção de modelos de linguagem.
Também como mostrado alinhar um modelo usando RHLF tem um custo em relação ao desempenho nas diversas tarefas. Portanto, os LMs não substituirão o “modelo especialista”, mas no futuro talvez sejam orquestradores de outros modelos (como, por exemplo, sugerido pelo HuggingGPT ).
Você não pode parar o código aberto e por que ele está sempre ganhando
MidJourney ou DALL-E é melhor? talvez seja difícil dizer. O certo é que a difusão estável é a tecnologia vencedora. A difusão estável pelo fato de ser de código aberto gerou tantos aplicativos e tem sido a inspiração para tantas pesquisas derivadas (ControlNet, dados sintéticos para imagens médicas, paralelos ao cérebro).
Através do trabalho da comunidade, a difusão estável em suas várias versões foi aprimorada e existem variações infinitas. Por outro lado, não há aplicação do DALL-E que não tenha uma contrapartida baseada na difusão estável (mas o inverso é verdadeiro).
Por que, então, o mesmo não aconteceu com os modelos de linguagem?
Até agora, o principal problema é que treinar um modelo de linguagem era uma tarefa proibitiva. O BLOOM da BigScience é de fato um enorme consórcio. Mas o LLaMA mostrou que modelos muito menores podem competir com monstros de mais de 100 B de parâmetros. A Alpaca mostrou que o alinhamento linear também pode ser feito com baixo custo (custo total inferior a US$ 1.000). Esses são os elementos que permitiram a Simon Willson dizer “ Os grandes modelos de linguagem estão tendo seu momento de difusão estável. ”
Da Alpaca até os dias atuais, surgiram muitos modelos de código aberto . A Stability AI não apenas lançou vários modelos que são competitivos com gigantes e podem ser usados por todos, mas outras empresas também lançaram chatbots e modelos. Em apenas algumas semanas, vimos: Dolly , HuggingChat , Koala e muitos mais
Agora, alguns dos modelos mencionados são sim de código aberto, mas são para uso não comercial. embora estejam abertos à pesquisa acadêmica, isso significa que não podem ser explorados por empresas interessadas.
Esta é apenas uma parte da história. De fato, já existem modelos no HuggingFace que podem ser facilmente treinados (modelos, conjuntos de dados e pipelines) e existem vários modelos disponíveis comercialmente (até o momento, mais de 10 ):
Modelo de código aberto, dados privados e novos aplicativos
Dario Amodei, CEO da Anthropic está buscando bilhões para vencer o OpenAI no modelo maior do mundo. No entanto, o resto do mundo está se movendo em outra direção. Por exemplo, a Bloomberg, que não é um player conhecido em IA, lançou um LLM para finanças (treinado em 363 bilhões de tokens de fontes financeiras).
Por que queremos um LLM para finanças? Por que não usar apenas o ChatGPT?
O Google MedPalm mostrou que um modelo generalista tem desempenho ruim em comparação com um modelo que é ajustado em um tópico específico (neste caso, foram conjuntos de dados de artigos médicos, científicos e assim por diante).
O ajuste fino de um LLM é claramente caro. Principalmente se estivermos falando de modelos com centenas de bilhões de parâmetros. Modelos menores são muito mais baratos, mas ainda assim não são indiferentes. O LLaMA da META por ser de código aberto resolveu parcialmente esse problema. De fato, os autores do LLaMA-Adapter mostraram que apenas 1,2 milhão de parâmetros precisam ser adicionados para fazer o ajuste fino (o treinamento levou menos de uma hora).
Embora seja verdade que o LLaMA não está disponível comercialmente, existem muitos outros modelos disponíveis (do pequeno ao grande). O que obviamente possibilitará uma aplicação bem-sucedida em um determinado campo são os dados.
Como a Samsung descobriu desagradavelmente , é um risco usar o ChatGPT dentro de uma empresa. Mesmo que o ChatGPT agora permita que as pessoas desativem o histórico de bate-papo ou se recusem a usar seus dados para treinar o modelo, as empresas considerarão arriscado conceder seus dados.
Muitas empresas irão considerar a possibilidade de treinar seu próprio chatbot, um modelo que é ajustado em seus próprios dados corporativos e permanecerá interno. Afinal, a tecnologia está disponível e acessível até mesmo para empresas com orçamentos reduzidos. Além disso, o baixo custo permite que eles possam fazer ajustes finos regularmente à medida que novos dados chegam ou se um modelo de código aberto melhor é lançado. As empresas que agora têm os dados ficarão muito mais relutantes em concedê-los.
Além disso, vimos como é importante ter dados de qualidade. Os dados na medicina e em muitos outros campos são difíceis de coletar (caros, regulamentados, escassos) e as empresas que os possuem têm uma vantagem. A OpenAI poderia gastar bilhões tentando coletar, por exemplo, dados médicos, mas além do custo, o recrutamento de pacientes requer anos e uma rede estabelecida (o que não tem). As empresas que têm os dados agora serão mais restritivas em compartilhar esses dados com modelos que possam armazenar o que estão expostos.
Além disso, trabalhos como HuggingGPT e AudioGPT mostram que o LLM é uma interface para o usuário interagir com modelos especializados (texto para imagem, modelo de áudio e muito mais). Nos últimos anos, muitas empresas contrataram cientistas de dados e desenvolveram diferentes modelos especializados para suas necessidades (modelos de empresas farmacêuticas para descoberta e design de medicamentos, empresas de manufatura para design de componentes e manutenção preditiva e assim por diante). Assim, agora os cientistas de dados podem instruir os LLMs a se conectarem com seus modelos previamente treinados e permitir que usuários internos não técnicos interajam com eles por meio de prompts de texto.
Há também outro elemento que aponta para tal cenário, os regulamentos sobre IA generativa não são claros (por exemplo, o Google não lançou seu modelo de música generativa por medo de violação de direitos autorais). Além da questão dos direitos autorais, questões sobre responsabilidade permanecem em aberto. Portanto, muitas empresas podem internalizar a tecnologia e criar seu próprio assistente de IA nos próximos meses.
Pensamentos de despedida
Dr. Hinton disse que quando as pessoas costumavam perguntar como ele poderia trabalhar em tecnologia potencialmente perigosa, ele parafraseava Robert Oppenheimer, que liderou o esforço dos EUA para construir a bomba atômica: “Quando você vê algo que é tecnicamente bom, você Vá em frente e faça isso."
Ele não diz mais isso. ( fonte )
Hinton afirmou recentemente que precisamos discutir os riscos da inteligência artificial. Mas não podemos estudar os riscos de uma bomba explodir se ela estiver dentro de uma caixa preta. É por isso que é cada vez mais urgente que os modelos sejam de código aberto.
De qualquer forma, os LLMs estão em uma fase de mudança. Criar modelos cada vez maiores é insustentável e não oferece a mesma vantagem de antes. O futuro dos próximos LLMs estará nos dados e provavelmente em novas arquiteturas não mais baseadas na auto-atenção.
No entanto, os dados não serão tão acessíveis quanto antes; as empresas estão começando a interromper o acesso a ele. A Microsoft diz que está disposta a permitir que as empresas criem sua própria versão do ChatGPT. Mas as empresas ficarão céticas.
Algumas empresas temem por seus negócios (parece que o ChatGPT já fez sua primeira vítima ), e outras temem o vazamento de dados. Ou simplesmente a tecnologia está finalmente ao alcance de quase todas as empresas, e cada uma vai criar um chatbot à medida das suas necessidades.
Em conclusão, podemos ver diferentes tendências (que em parte já estão acontecendo):
- Um medo crescente de IA está pressionando por modelos de código aberto
- Isso está levando a uma publicação crescente de modelos de LLMs de código aberto. O que, por sua vez, mostra que você pode usar modelos menores e reduzir o custo de seu alinhamento.
- Os modelos LLM são uma ameaça para diferentes negócios e as empresas temem que esses modelos possam ameaçar seus negócios. Assim, diferentes empresas estão reduzindo o acesso aos seus dados ou pedindo pagamento de empresas de IA.
- Redução de custos, medo da concorrência, uma nova relevância para dados proprietários e a nova disponibilidade de modelos de código aberto estão levando as empresas a treinar seus próprios chatbots em seus próprios dados usando modelos de código aberto.
Se você achou isso interessante:
Você pode procurar meus outros artigos, também pode se inscrever para ser notificado quando eu publicar artigos, você pode se tornar um membro do Medium para acessar todas as suas histórias (links afiliados da plataforma pela qual recebo pequenas receitas sem custo para você) e você também pode se conectar ou entrar em contato comigo no LinkedIn .
Aqui está o link para meu repositório GitHub, onde pretendo coletar código e muitos recursos relacionados a aprendizado de máquina, inteligência artificial e muito mais.
ou você pode estar interessado em um dos meus artigos recentes: