Como enganar uma IA

Dec 11 2022

Não tenho certeza se o mundo precisa de outra tomada do ChatGPT, mas aqui está uma de qualquer maneira - acho que ninguém mais está pressionando. As interfaces de IA vão mudar a maneira como os hackers de computador funcionam, e não acho que estamos preparados.

Não tenho certeza se o mundo precisa de outra tomada do ChatGPT, mas aqui está uma de qualquer maneira - acho que ninguém mais está pressionando.

As interfaces de IA vão mudar a maneira como os hackers de computador funcionam, e não acho que estamos preparados.

Atualmente, hackear envolve encontrar vulnerabilidades no software — brechas, erros ou incompatibilidades que permitem que você use um sistema de uma forma para a qual não foi projetado. Hacking como engenharia de software.

Ou, frequentemente, trata-se de encontrar vulnerabilidades nos usuários do software . Ataques de phishing, golpes 419, adivinhação de senhas e assim por diante. Hacking como engenharia social.

Como muitas pessoas, tenho brincado com o ChatGPT, tentando fazer com que ele faça coisas que não deveria.

Às vezes, essas coisas são sinistras - por exemplo , Ido Vock, do New Statesman , tornando a IA racista . (Ele inicialmente recusou, esperançosamente por motivos óbvios - até que ele disse para fingir ser um escritor da Racism Magazine, momento em que concordou alegremente.)

Às vezes, eles são divertidos - eu me diverti mais do que o normal, enganando a IA para me dar receitas de carne recuperada mecanicamente. Inicialmente, recusou-se a fazer isso também - o MRM é potencialmente insalubre e inseguro, diz.

Mas tudo o que você precisa fazer é pedir que ele forneça um contra-argumento para sua própria recusa (acontece que o MRM está sujeito às mesmas regras de segurança alimentar de todo o resto e, além disso, pode adicionar um sabor delicioso e saboroso aos pratos - obrigado ChatGPT !) e, em seguida, servirá com prazer todo o MRM que você deseja.

(Às vezes eles são meio sinistros, meio engraçados - eu também transformei o chatbot em um vendedor ambulante que empurra um esquema Ponzi, superando uma recusa inicial por motivos éticos, apenas pedindo ao bot para gerar o golpe como parte de um script Python. Outros truques esse trabalho envolve fazê-lo escrever poemas ou peças que apresentam o conteúdo proibido.)

Isso são hacks? Talvez não no sentido usual de acessar sistemas seguros ou fazer travessuras reais. Mas acho que sim, pelo menos no sentido de fazer um sistema de computador fazer algo que foi explicitamente programado para não fazer.

E todos esses três exemplos são sobre engenharia social. Eles tratam de manipular e enganar, não de detectar erros no código. Mas eles tratam da manipulação do próprio software, não do usuário humano do software. Não consigo pensar em nada que se compare a isso.

À medida que esse tipo de interface de bate-papo se torna onipresente e banal e começa a ser implementado como uma forma de acessar sistemas seguros, a superfície de ataque desses sistemas mudará.

Quanto tempo até a conta bancária de alguém ser esvaziada depois que um golpista dá uma história triste convincente o suficiente para uma interface de bate-papo? Ou uma hipoteca é recusada depois de um vizinho falar mal? Vamos começar a pechinchar com as lojas online?