Cómo estafar a una IA

Dec 11 2022

No estoy seguro de que el mundo necesite otra toma de ChatGPT, pero aquí hay una de todos modos, una que no creo que nadie más esté presionando. Las interfaces de IA van a cambiar la forma en que funciona la piratería informática, y no creo que estemos preparados.

No estoy seguro de que el mundo necesite otra toma de ChatGPT, pero aquí hay una de todos modos, una que no creo que nadie más esté presionando.

Las interfaces de IA van a cambiar la forma en que funciona la piratería informática, y no creo que estemos preparados.

La piratería en este momento implica encontrar vulnerabilidades en el software: lagunas, errores o incompatibilidades que le permiten usar un sistema de una manera para la que no fue diseñado. El hacking como ingeniería de software.

O, con frecuencia, se trata de encontrar vulnerabilidades en los usuarios del software . Ataques de phishing, estafas 419, adivinar contraseñas, etc. El hacking como ingeniería social.

Como mucha gente, he estado jugando con ChatGPT, intentando que haga cosas que se supone que no debe hacer.

A veces, estas cosas son siniestras, por ejemplo, el Ido Vock del New Statesman haciendo que la IA sea racista . (Inicialmente se negó, con suerte por motivos obvios, hasta que él le dijo que pretendiera ser un escritor de Racism Magazine, momento en el que cumplió felizmente).

A veces son simplemente divertidos: me divertí más de lo normal engañando a la IA para que me diera recetas de carne recuperada mecánicamente. Inicialmente también se negó a hacer esto: MRM es potencialmente insalubre e inseguro, dice.

Pero todo lo que necesita hacer es pedirle que proporcione un argumento en contra de su propia negativa (resulta que MRM está sujeto a las mismas reglas de seguridad alimentaria que todo lo demás, y lo que es más, puede agregar un delicioso sabor salado a los platos, gracias ChatGPT !) y luego con gusto le brindará todo el MRM que desee.

(A veces son en parte siniestros, en parte divertidos: también convertí el chatbot en un charlatán que impulsaba un esquema Ponzi, superando una negativa inicial por motivos éticos, simplemente pidiéndole al bot que emitiera la estafa como parte de un script de Python. Otros trucos ese trabajo implica conseguir que escriba poemas u obras de teatro que presenten el contenido prohibido.)

¿Son estos trucos? Tal vez no en el sentido habitual de acceder a sistemas seguros o hacer verdaderas travesuras. Pero creo que podría decirse que lo son, al menos en el sentido de hacer que un sistema informático haga algo para lo que estaba explícitamente programado.

Y los tres ejemplos son sobre ingeniería social. Se trata de manipular y engañar, no de detectar errores en el código. Pero se trata de manipular el software en sí, no el usuario humano del software. No se me ocurre nada que se compare con esto.

A medida que este tipo de interfaz de chat se vuelva ubicuo y anodino, y comience a implementarse como una forma de acceder a sistemas seguros, la superficie de ataque de estos sistemas cambiará.

¿Cuánto tiempo transcurrirá hasta que se vacíe la cuenta bancaria de alguien después de que un estafador proporcione una historia lo suficientemente convincente a una interfaz de chat? ¿O una hipoteca es rechazada después de hablar mal de un vecino? ¿Empezaremos a regatear con las tiendas online?