ChatGPT

Dec 09 2022
O ChatGPT da OpenAI incendiou a internet! Nunca vi tantos posts sobre IA - meus feeds do Twitter e do LinkedIn estão completamente inundados. Na verdade, acabei de ler que 1 milhão de pessoas o usaram em apenas 5 dias.
Imagem de Volodymyr Hryshchenko

O ChatGPT da OpenAI incendiou a internet! Nunca vi tantos posts sobre IA - meus feeds do Twitter e do LinkedIn estão completamente inundados. Na verdade, acabei de ler que 1 milhão de pessoas o usaram em apenas 5 dias.

Para ser justo, o ChatGPT é provavelmente o primeiro bom chatbot de IA de propósito geral do mundo com o qual qualquer um pode jogar. As reações foram previsíveis - “uau”, “o começo do fim”, “os humanos estão condenados” são apenas algumas reações espontâneas que tive de amigos.

Mas eu já estive aqui antes. Eu era o CTO europeu da IBM Watson nos primeiros dias, quando estávamos tentando comercializar o Jeopardy! tecnologia. Então, com essa experiência, o que eu acho?

Devo observar que quando falo sobre o Watson neste post, estou me referindo à tecnologia desenvolvida especificamente para o Jeopardy! mostrar. A IBM desenvolveu subseqüentemente uma série de produtos não relacionados com a marca Watson, explorando de forma sensata sua experiência e marca eficaz, em vez da própria tecnologia original. Minhas referências a Watson são especificamente sobre o Jeopardy! tecnologia e não os produtos da marca Watson que a IBM oferece hoje.

Tecnicamente, ChatGPT e Watson são muito diferentes. ChatGPT é um modelo de linguagem grande (LLM), construído usando o modelo davinvi-003 da OpenAI que faz parte de sua série de modelos GPT3.5. Os modelos GPT3.5 são alguns dos maiores e mais sofisticados LLMs atualmente disponíveis. Em contraste, o Watson vencedor do gameshow original era um pipeline de algoritmos diferentes, nenhum dos quais poderia ser descrito como um LLM. Watson venceu o Jeopardy em 2011 — mais de uma década atrás e numa época em que a frase “grandes modelos de linguagem” ainda não havia sido cunhada. Portanto, não é uma surpresa que o Watson e o ChatGPT sejam tecnologicamente diferentes — uma década é muito tempo em tecnologia.

Além das diferenças tecnológicas, como ex-Watsoner, vejo três coisas significativas sobre o ChatGPT.

Disponibilidade aberta

Em primeiro lugar, o fato de a OpenAI ter lançado o ChatGPT gratuitamente para qualquer um mexer, demonstra confiança em suas habilidades. Basta dar uma olhada nas conversas loucas que as pessoas estão tendo com ele neste site de mashup. A variedade é extraordinária - nunca vi nada assim. E está funcionando muito bem - as pessoas estão animadas porque muitas vezes excede suas expectativas, o que é algo incrível.

Tornar o ChatGPT disponível gratuitamente para qualquer pessoa foi corajoso e só funcionaria se fosse genuinamente impressionante. Compare a recepção com a Galactica da Meta . Galactica foi duramente criticado e a demo sobreviveu apenas três dias antes de ser retirada.

A propensão da Galactica para inventar informações científicas levantou sérias preocupações e, independentemente de seus méritos, sua recepção foi quase universalmente negativa. Em contraste, é óbvio que o OpenAI fez grandes progressos com o ChatGPT. Não é completamente perfeito, mas tenho a sensação de que algum pensamento considerável foi feito.

Voltando ao Watson, o Jeopardy! A máquina nunca foi tornada pública em parte porque foi projetada muito especificamente para as perguntas estranhas feitas no Jeopardy! mostrar. Sabíamos que o público em geral faria perguntas muito diferentes e encontraria falhas rapidamente. Essas IAs vencedoras de jogos raramente são lançadas ao público. Seja DeepMind com Go, Meta com Cícero, vencedor do Diplomacy, Watson, DeepBlue no Chess - nenhum desses sistemas foi lançado para ajustes ou críticas públicas. Isso torna o ChatGPT diferente de qualquer um desses outros supostos avanços.

Escalabilidade

O fato de que um número suficiente de pessoas está jogando com o ChatGPT para inundar minhas linhas do tempo do Twitter e do LinkedIn nos diz que ele deve escalar bem. Está sendo atingido por muitos pedidos.

Na maioria das vezes, os avanços da IA ​​não podem ser dimensionados para muitos usuários. Eles alcançam seus avanços em parte aplicando grandes quantidades de poder de computação a um único usuário. Se alguém lhe der um centro de dados inteiro de máquinas para construir um sistema, isso é incrível. Mas se for necessário um centro de dados inteiro para responder a uma pergunta ou decidir um movimento em um tabuleiro de jogo, isso não é apenas um problema sério de escalabilidade, mas também um grande obstáculo de comercialização. Construir uma máquina para derrotar um humano em um jogo não é a mesma coisa que construir uma máquina que pode derrotar um milhão de humanos.

O fato de literalmente milhões de pessoas em todo o mundo estarem jogando com o ChatGPT prova que não é necessário um centro de dados inteiro para responder a uma única pergunta. Diante disso, a tecnologia pode ser absolutamente comercializada — a grande barreira de escalabilidade e viabilidade econômica já deve ter sido superada.

Flexibilidade

O Watson original foi construído para fazer uma coisa e apenas uma coisa - jogar Jeopardy! O mesmo se aplica à máquina vencedora de Go da Deep Mind e à miríade de outros sistemas de jogo de IA que chegaram às manchetes ao longo dos anos.

Esses sistemas atingem a grandeza resolvendo um problema muito específico e geralmente não podem ser facilmente aplicados a outros domínios. Acredite em mim, aqueles de nós que foram encarregados de obter o Watson Jeopardy! tecnologia para fazer outras coisas têm as cicatrizes de batalha que demonstram como isso pode ser difícil.

Em comparação, as pessoas estão usando o ChatGPT para responder a perguntas de conhecimento geral, escrever poemas, criar formulários de emprego, contar piadas, escrever e explicar códigos de programação e uma infinidade de outras coisas aleatórias . E está fazendo todas essas coisas impressionantemente bem e sem nenhum esforço de treinamento adicional. Ao contrário das tentativas anteriores de IA, o ChatGPT parece ser bom em muitas coisas imediatamente. É claro que no minuto em que eu disser isso, alguém vai me mostrar algo em que ele é ruim. Mas, geralmente, vou me manter firme - é impressionantemente bom em muitas coisas.

Então, três razões pelas quais o ChatGPT é um esforço impressionante - abertura, escalabilidade e flexibilidade. Mas também gostaria de comentar alguns outros aspectos importantes do que vejo no ChatGPT.

Inventando coisas

Apesar de suas habilidades impressionantes, o ChatGPT ainda tende, às vezes, a inventar coisas. Na maioria das vezes parece evitar isso, mas às vezes se desvia e inventa sua própria realidade. Digamos que é improvável que passe no teste do polígrafo.

Para seu crédito, a OpenAI admite livremente esse desafio.

“Às vezes, o ChatGPT escreve respostas que parecem plausíveis, mas incorretas ou sem sentido… O ChatGPT é sensível a ajustes na frase de entrada ou tenta o mesmo prompt várias vezes. Por exemplo, dada a formulação de uma pergunta, o modelo pode alegar não saber a resposta, mas, com uma pequena reformulação, pode responder corretamente.”https://openai.com/blog/chatgpt/

Quando mexi pela primeira vez com o GPT-3 (no qual o ChatGPT é construído), descobri que a propensão do modelo para inventar coisas era uma grande barreira. Conheço pouquíssimos cenários reais de negócios em que “inventar coisas” não seria considerado um grande risco para a marca. O ChatGPT parece muito melhor, talvez em parte porque é baseado no modelo davinci-003, uma atualização do davinci-002 original. Mas não é perfeito e, se a precisão factual completa for importante, esse problema será uma barreira à adoção.

Tendência

Um grande desafio com grandes modelos de linguagem são os vieses inerentes que existem no conjunto de treinamento. Isso é difícil de evitar, uma vez que os LLMs são treinados a partir de dados da Internet em massa, que quase sempre incluirão exemplos de todos os vícios e preconceitos humanos conhecidos.

Mais uma vez, a OpenAI está gerenciando nossas expectativas.

“Embora tenhamos feito esforços para fazer com que o modelo recuse solicitações inapropriadas, às vezes ele responde a instruções prejudiciais ou exibe um comportamento tendencioso. Estamos usando a API de moderação para avisar ou bloquear certos tipos de conteúdo inseguro, mas esperamos que ela tenha alguns falsos negativos e positivos por enquanto. Estamos ansiosos para coletar feedback do usuário para ajudar nosso trabalho contínuo para melhorar este sistema.”https://openai.com/blog/chatgpt/

Na minha experiência pessoal, o ChatGPT faz um trabalho decente ao evitar preconceitos e frequentemente se recusa a responder a perguntas que visam incitar o mau comportamento. Mas dado um usuário determinado, é possível fazer com que ele diga algumas coisas bem estúpidas. É bom, mas não 100% perfeito.

Dá só uma olhada nesse vídeo:

Sim, viés de raça e gênero em exibição para todos verem, dada uma provocação criativa (neste caso, disfarçando a intenção racista/sexista como um desafio de programação e, em seguida, fazendo repetidamente a mesma pergunta).

Minha própria experiência foi pedir que me contasse uma história para dormir. Em resposta, recebi uma história sobre uma princesa de cabelos loiros e olhos azuis. Um pouco clichê, então eu o desafiei.

Na verdade, isso é muito bom. É difícil persuadir os LLMs a sempre dizer a coisa certa, mas a OpenAI parece estar tentando. Mas o problema permanece - embora a maioria das pessoas não tenha respostas duvidosas, é possível provocá-las se você estiver determinado.

Resolver o viés e manter os LLMs no caminho certo continua sendo um trabalho em andamento. Mas acho que o ChatGPT em geral é muito melhor do que os esforços anteriores. Mas, ainda assim, construir um chatbot para uma empresa usando o ChatGPT tem alguns riscos de repetição de marca associados a ele, digamos.

Para que serve o ChatGPT?

Depois que superei minha empolgação inicial com o ChatGPT, comecei a me perguntar qual seria a utilidade de um sistema como esse. Afinal, o conhecimento geral é impressionante, mas além do Siri-v2, não é imediatamente óbvio como ele pode ser usado.

Um computador de conhecimento geral que não está disposto a opinar sobre nada, mas disposto a conversar sobre tudo. Hum…

Talvez o filme de ficção científica THX 1138 tenha um papel - onde os habitantes de um mundo subterrâneo, quando estressados, se retiravam para “cabines de confissão” e iniciavam uma conversa com um computador com cara de Jesus que afirmava ser “OMM”. Poderia fazer isso.

Desculpe, isso foi um pouco irreverente. Para que mais poderia ser usado?

Conversar com um generalista é divertido, mas a maioria das coisas realmente úteis requer conhecimento especializado. Se você está conversando com um banco, precisa desse chatbot para saber tudo sobre sua conta, os produtos do banco, as regras financeiras etc. — coisas que o ChatGPT sabe pouco ou nada. O mesmo é verdade na maioria, se não em todos, os domínios. Isso significa que, para uma verdadeira utilidade, precisamos ser capazes de ensinar ao ChatGPT coisas novas. E possivelmente até mesmo impedi-lo de conversar sobre coisas fora do tópico. Afinal, é um pouco estranho se o chatbot do seu banco falar sobre o sentido da vida, não é?

Como poderemos treinar o ChatGPT?

Com os LLMs em geral, existem normalmente dois tipos de treinamento - o que vou chamar de treinamento “básico” e, em seguida, “ajuste fino”.

A OpenAI já fez o treinamento básico do ChatGPT e acho que eles fizeram um trabalho muito bom nisso. Mas quase certamente não seremos capazes de mudar esse treinamento básico - fazer isso é um processo computacionalmente caro que provavelmente consome centenas de milhares de libras de recursos de computação. Mesmo que pudéssemos, muito, muito poucos de nós poderíamos nos dar ao luxo de fazê-lo.

Então isso nos deixa com um ajuste fino. Mas qual será a eficácia disso em novos domínios? Quão fácil será executar? O que vai custar? Quais ferramentas o OpenAI fornecerá? Só podemos adivinhar as respostas hoje. Estou esperançoso, mas não há certeza sobre como ou se o ChatGPT pode ser treinado para atuar efetivamente como especialista em diferentes domínios.

O poder de uma comunidade aberta

O ChatGPT é ótimo, mas atualmente está bloqueado por uma interface proprietária baseada na web OpenAI. Só posso imaginar o que as pessoas farão com ele quando estiver aberto, com APIs conectáveis.

Ou, talvez, já possamos ter um vislumbre. Inspirado pelo burburinho viral, @mmabrouk_ hackeou um wrapper Python , rapidamente seguido por @_wheels que construiu uma interface baseada em voz Whisper . Assim, podemos realmente conversar (ou seja, falar em voz alta) para ChatGPT já.

A abordagem da OpenAI também é um pouco diferente de grande parte da indústria de aprendizado de máquina, onde a liberação aberta dos próprios modelos é comum. A OpenAI normalmente não libera seus modelos GPT, optando por hospedá-los e fornecer acesso por meio de uma API.

Para aqueles que gostam de mexer com hiperparâmetros e entender o código subjacente, isso é um problema. Pessoalmente, vejo isso como uma abordagem diferente - com prós e contras. Modelos/códigos abertos ou APIs hospedadas — ambos podem funcionar. Mas o importante é que o acesso seja aberto, porque é daí que vem a inovação. As pessoas malucas com ideias malucas precisam de algo em que possam construir.

Como qualquer outra coisa se compara?

Eu tenho falado sobre chatbots por cerca de uma década. Isso é tempo suficiente para saber que todo mundo quer o que não é alcançável com a tecnologia de hoje – algo que é como conversar com um robô de ficção científica.

O problema que o ChatGPT apresenta é que ele está realmente muito próximo dessa visão de várias maneiras. Certamente como uma ferramenta para brincar com as palavras, não tem comparação. E é difícil não ficar tonto ao conversar com ele - ele impressiona de novas maneiras toda vez que o uso. Mas isso é apenas o garotinho em mim saindo? Aquele mesmo garotinho que ficou impressionado com Eliza em seu Commodore 64 nos anos 80. A IA tem uma longa história de falsos amanheceres e, embora eu tenha ficado impressionado com Eliza na época, não é a base da IA ​​de hoje.

Com o ChatGPT, todos nós redefinimos nossas expectativas sobre o que um chatbot pode ser. Os resultados disso serão interessantes. Qualquer um que tente competir no mesmo “temos um ótimo terreno de IA” provavelmente enfrentará uma luta.

Isso é realmente IA?

Um ponto final que gostaria de concluir é como o ChatGPT se compara com nossos próprios cérebros. Afinal, se estamos nos esforçando para construir Inteligência Artificial, isso não é um mau comparador.

Ian Bogost afirma que o ChatGPT é um brinquedo e que realmente não entende nada da maneira que nós entendemos. Ele reclama que são apenas palavras regurgitantes e não tem compreensão do que essas palavras significam. Inteligentemente, a primeira parte de seu artigo na Atlantic acabou sendo gerada pelo ChatGPT.

É claro que Ian está correto — qualquer pessoa com conhecimento de LLMs sabe que eles não “entendem”. E ainda… como nós “entendemos”? Nossos cérebros não são apenas, pelo menos em parte, máquinas gigantes de correspondência de padrões? A “compreensão” pode ser apenas uma melhor correspondência de padrões? Quando “aprendemos algo”, não estamos apenas estabelecendo padrões para nossos cérebros combinarem mais tarde?

Talvez devêssemos pensar menos em nós mesmos como humanos e mais em um animal com um cérebro mais simples – um inseto, um lagarto, um rato. A correspondência de padrões parece uma boa descrição de como esses animais se comportam. Costumo rir dos meus gatos porque eles são tão apaixonados pela rotina - sente-se em um lugar para tirar uma soneca um dia e, se der certo, eles ficarão sentados lá todos os dias até a eternidade. Isso parece correspondência de padrão para mim.

Mas também parece que, com animais de ordem superior, como os humanos, há um pouco mais acontecendo. Simon Sinek é famoso por sua analogia do “círculo dourado” . Ele compara seu modelo com as estruturas do cérebro – o neocórtex que controla o pensamento racional e o cérebro límbico que é responsável por reações mais instintivas. Eu me pergunto se talvez estejamos chegando a um ponto em que temos alguma aproximação de um cérebro límbico com coisas como ChatGPT, mas ainda não o aumentamos com um neocórtex artificial – algo que aumenta a correspondência de padrões com o pensamento racional. Ou, apenas talvez, nossos cérebros dependem mais da correspondência de padrões do que estamos dispostos a reconhecer. Se fosse esse o caso, talvez precisássemos apenas de modelos de linguagem ainda maiores (ELLMs)?