Explorando ChatGPT frente a modelos de código abierto en tareas un poco más difíciles
Los LLM de código abierto como Vicuna y MPT-7B-Chat están apareciendo por todas partes, lo que ha generado mucha discusión sobre cómo estos modelos se comparan con los LLM comerciales (como ChatGPT o Bard).
La mayor parte de la comparación se ha basado en respuestas a preguntas/instrucciones simples de un turno. Por ejemplo, la gente de LMSYSOrg hizo un análisis interesante (+1 por ser automatizado y reproducible) comparando Vicuna-13B con ChatGPT en varias preguntas breves, lo cual es excelente como comparación de los modelos como chatbots simples. Sin embargo, muchas formas interesantes de usar LLM generalmente requieren instrucciones complejas y/o conversaciones de varios turnos, y algo de ingeniería rápida. Creemos que en el "mundo real", la mayoría de las personas querrán comparar diferentes ofertas de LLM sobre su problema, con una variedad de indicaciones diferentes.
Esta publicación de blog (escrita conjuntamente con Scott Lundberg ) es un ejemplo de cómo sería una exploración de este tipo con guidance
, un proyecto de código abierto que ayuda a los usuarios a controlar los LLM. Comparamos dos modelos de código abierto (Vicuna-13B, MPT-7b-Chat) con ChatGPT (3.5) en tareas de diversa complejidad.
Calentamiento: resolución de ecuaciones
A modo de calentamiento, comencemos con la tarea de juguete de resolver ecuaciones polinómicas simples, donde podemos verificar que la salida sea correcta y no debería necesitar mucha ingeniería rápida. Esto será similar a la categoría Matemáticas aquí , con la diferencia de que evaluamos los modelos como correctos/incorrectos sobre la base, en lugar de usar GPT-4 para calificar la salida.
Digresión rápida sobre la sintaxis de chat : cada uno de estos modelos tiene su propia sintaxis de chat, con tokens especiales que separan las expresiones. Así es como se vería la misma conversación en Vicuña y MPT (dónde [generated response]
es donde el modelo generaría su salida):
Vicuña:
A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions.
USER: Can you please solve the following equation? x^2 + 2x + 1 = 0
ASSISTANT: [generated response] </s>
<|im_start|>system
- You are a helpful assistant chatbot trained by MosaicML.
- You answer questions.
- You are excited to be able to help the user, but will refuse to do anything that could be considered harmful to the user.
- You are more than just an information source, you are also able to write poetry, short stories, and make jokes.
<|im_end|>
<|im_start|>user Can you please solve the following equation? x^2 + 2x + 1 = 0<|im_end|>
<|im_start|>assistant [generated response]<|im_end|>
find_roots = guidance('''
{{#system~}}
{{llm.default_system_prompt}}
{{~/system}}
{{#user~}}
Please find the roots of the following equation: {{equation}}
Think step by step, find the roots, and then say:
ROOTS = [root1, root2...]
For example, if the roots are 1.3 and 2.2, say ROOTS = [1.3, 2.2].
Make sure to use real numbers, not fractions.
{{~/user}}
{{#assistant~}}
{{gen 'answer'}}
{{~/assistant~}}''')
import guidance
mpt = guidance.llms.transformers.MPTChat('mosaicml/mpt-7b-chat', device=1)
vicuna = guidance.llms.transformers.Vicuna('yourpath/vicuna-13b', device_map='auto')
chatgpt = guidance.llms.OpenAI("gpt-3.5-turbo")
equation = 'x^2 + 3.0x = 0'
roots = [0, -3]
answer_gpt = find_roots(llm=chatgpt, equation=equation)
answer_vicuna = find_roots(llm=vicuna, equation=equation)
answer_mpt = find_roots(llm=mpt, equation=equation)
En el cuaderno que acompaña a esta publicación, escribimos una función para generar ecuaciones cuadráticas aleatorias con raíces enteras entre -20 y 20, y ejecutamos la solicitud 20 veces con cada modelo. Los resultados fueron los siguientes:
╔═══════════╦══════════╦
║ Model ║ Accuracy ║
╠═══════════╬══════════╬
║ ChatGPT ║ 80% ║
║ Vicuna ║ 0% ║
║ MPT ║ 0% ║
╚═══════════╩══════════╩
ChatGPT comete un error de cálculo en el último paso, donde (13 +- 25) /2
debería producir [19, -6]
en lugar de [19.5, -6.5]
.
Ahora, dado que Vicuña y MPT fallaron en las ecuaciones cuadráticas, observamos ecuaciones aún más simples, como x - 10 = 0
. Para estas ecuaciones, obtenemos estos números:
╔═══════════╦══════════╦
║ Model ║ Accuracy ║
╠═══════════╬══════════╬
║ ChatGPT ║ 100% ║
║ Vicuna ║ 85% ║
║ MPT ║ 30% ║
╚═══════════╩══════════╩
Discusión
Esta fue una tarea de juguete, pero sirvió como ejemplo de cómo comparar modelos con diferentes sintaxis de chat usando el mismo indicador. Para esta combinación particular de tarea/indicación, ChatGPT supera con creces a Vicuña y MPT en términos de precisión (medida en la realidad del terreno).
Tarea: extraer fragmentos + responder preguntas sobre reuniones
Ahora pasamos a una tarea más realista, donde evaluar la precisión no es tan sencillo. Digamos que queremos que nuestro LLM responda preguntas (con los segmentos de conversación relevantes para la puesta a tierra) sobre las transcripciones de las reuniones.
Esta es una aplicación en la que algunos usuarios pueden preferir usar LLM de código abierto en lugar de comerciales, por razones de privacidad (por ejemplo, es posible que algunas empresas no deseen enviar los datos de sus reuniones a OpenAI).
Aquí hay una transcripción de la reunión de juguetes para comenzar:
Transcripción de la reunión:
John : Muy bien, estamos todos aquí para discutir la oferta que recibimos de Microsoft para comprar nuestra startup. ¿Cuáles son sus pensamientos sobre esto?
Lucy : Bueno, creo que es una gran oportunidad para nosotros. Microsoft es una gran empresa con muchos recursos y realmente podrían ayudarnos a llevar nuestro producto al siguiente nivel.
Steven : Estoy de acuerdo con Lucy. Microsoft tiene mucha experiencia en la industria de la tecnología y podría brindarnos el apoyo que necesitamos para hacer crecer nuestro negocio.
John : Entiendo tu punto, pero estoy un poco indeciso acerca de vender nuestra startup. Hemos invertido mucho tiempo y esfuerzo en construir esta empresa, y no estoy seguro si estoy listo para dejarlo ir todavía.
lucia: Entiendo de dónde vienes, John, pero tenemos que pensar en el futuro de nuestra empresa. Si vendemos a Microsoft, tendremos acceso a sus recursos y experiencia, lo que podría ayudarnos a hacer crecer nuestro negocio aún más.
Steven : Correcto, y no nos olvidemos de los beneficios económicos. Microsoft nos ofrece mucho dinero para nuestra puesta en marcha, lo que podría ayudarnos a invertir en nuevos proyectos y expandir nuestro equipo.
John : Veo tu punto, pero todavía tengo algunas reservas. ¿Qué pasa si Microsoft cambia nuestro producto o la cultura de nuestra empresa? ¿Qué pasa si perdemos el control sobre nuestro propio negocio?
Steven : ¿Sabes qué? No había pensado en esto antes, pero tal vez John tenga razón. Sería una pena que nuestra cultura cambiara.
lucia: Esas son preocupaciones válidas, pero podemos negociar los términos del trato para asegurarnos de mantener cierto control sobre nuestra empresa. Y en cuanto al producto y la cultura, podemos trabajar con Microsoft para asegurarnos de que nuestra visión siga intacta.
John : ¿Pero no cambiaremos solo por el hecho de ser absorbidos por una gran empresa? Quiero decir, somos una pequeña startup con una cultura muy específica. Microsoft es una gran corporación con una cultura muy diferente. No estoy seguro de si los dos pueden coexistir.
Steven : Pero John, ¿no siempre planeamos ser adquiridos? ¿No será esto un problema siempre?
Lucy : Correcto
John : Simplemente no quiero perder lo que hemos construido aquí.
Steven : Yo también comparto esta preocupación.
Comencemos simplemente intentando que ChatGPT resuelva la tarea por nosotros. Probaremos con la pregunta '¿Cómo se siente Steven acerca de vender?'. Aquí hay un primer intento de un mensaje
qa_attempt1 = guidance('''{{#system~}}
{{llm.default_system_prompt}}
{{~/system}}
{{#user~}}
You will read a meeting transcript, then extract the relevant segments to answer the following question:
Question: {{query}}
Here is a meeting transcript:
----
{{transcript}}
----
Please answer the following question:
Question: {{query}}
Extract from the transcript the most relevant segments for the answer, and then answer the question.
{{/user}}
{{#assistant~}}
{{gen 'answer'}}
{{~/assistant~}}''')
qa_attempt3 = guidance('''{{#system~}}
{{llm.default_system_prompt}}
{{~/system}}
{{#user~}}
You will read a meeting transcript, then extract the relevant segments to answer the following question:
Question: {{query}}
Here is a meeting transcript:
----
{{transcript}}
----
Based on the above, please answer the following question:
Question: {{query}}
Please extract from the transcript whichever conversation segments are most relevant for the answer, and then answer the question.
Note that conversation segments can be of any length, e.g. including multiple conversation turns.
Please extract at most 3 segments. If you need less than three segments, you can leave the rest blank.
As an example of output format, here is a fictitious answer to a question about another meeting transcript.
CONVERSATION SEGMENTS:
Segment 1: Peter and John discuss the weather.
Peter: John, how is the weather today?
John: It's raining.
Segment 2: Peter insults John
Peter: John, you are a bad person.
Segment 3: Blank
ANSWER: Peter and John discussed the weather and Peter insulted John.
{{/user}}
{{#assistant~}}
{{gen 'answer'}}
{{~/assistant~}}''')
qa_attempt5 = guidance('''{{#system~}}
{{llm.default_system_prompt}}
{{~/system}}
{{#user~}}
You will read a meeting transcript, then extract the relevant segments to answer the following question:
Question: What were the main things that happened in the meeting?
Here is a meeting transcript:
----
Peter: Hey
John: Hey
Peter: John, how is the weather today?
John: It's raining.
Peter: That's too bad. I was hoping to go for a walk later.
John: Yeah, it's a shame.
Peter: John, you are a bad person.
----
Based on the above, please answer the following question:
Question: {{query}}
Please extract from the transcript whichever conversation segments are most relevant for the answer, and then answer the question.
Note that conversation segments can be of any length, e.g. including multiple conversation turns.
Please extract at most 3 segments. If you need less than three segments, you can leave the rest blank.
{{/user}}
{{#assistant~}}
CONVERSATION SEGMENTS:
Segment 1: Peter and John discuss the weather.
Peter: John, how is the weather today?
John: It's raining.
Segment 2: Peter insults John
Peter: John, you are a bad person.
Segment 3: Blank
ANSWER: Peter and John discussed the weather and Peter insulted John.
{{~/assistant~}}
{{#user~}}
You will read a meeting transcript, then extract the relevant segments to answer the following question:
Question: {{query}}
Here is a meeting transcript:
----
{{transcript}}
----
Based on the above, please answer the following question:
Question: {{query}}
Please extract from the transcript whichever conversation segments are most relevant for the answer, and then answer the question.
Note that conversation segments can be of any length, e.g. including multiple conversation turns.
Please extract at most 3 segments. If you need less than three segments, you can leave the rest blank.
{{~/user}}
{{#assistant~}}
{{gen 'answer'}}
{{~/assistant~}}''')
qa_attempt5(llm=chatgpt, transcript=meeting_transcript, query=query1)
qa_guided = guidance('''{{#system~}}
{{llm.default_system_prompt}}
{{~/system}}
{{#user~}}
You will read a meeting transcript, then extract the relevant segments to answer the following question:
Question: {{query}}
----
{{transcript}}
----
Based on the above, please answer the following question:
Question: {{query}}
Please extract the three segment from the transcript that are the most relevant for the answer, and then answer the question.
Note that conversation segments can be of any length, e.g. including multiple conversation turns. If you need less than three segments, you can leave the rest blank.
As an example of output format, here is a fictitious answer to a question about another meeting transcript:
CONVERSATION SEGMENTS:
Segment 1: Peter and John discuss the weather.
Peter: John, how is the weather today?
John: It's raining.
Segment 2: Peter insults John
Peter: John, you are a bad person.
Segment 3: Blank
ANSWER: Peter and John discussed the weather and Peter insulted John.
{{/user}}
{{#assistant~}}
CONVERSATION SEGMENTS:
Segment 1: {{gen 'segment1'}}
Segment 2: {{gen 'segment2'}}
Segment 3: {{gen 'segment3'}}
ANSWER: {{gen 'answer'}}
{{~/assistant~}}''')
Por supuesto, podemos ejecutar el mismo indicador con MPT:
Si bien MPT sigue el formato, ignora la pregunta y toma fragmentos del ejemplo de formato en lugar de la transcripción real.
De ahora en adelante, solo compararemos ChatGPT y Vicuna.
Probemos con otra pregunta: "¿Quién quiere vender la empresa?"
Aquí está ChatGPT:
Vicuña:
Ambos parecen funcionar muy bien. Pasemos a la transcripción de la reunión a los primeros minutos de una entrevista con Elon Musk. La parte relevante de la pregunta que haremos es
Elon Musk : Entonces le digo, señor, que no sabe de lo que habla.
Entrevistador : ¿En serio?
Elon Musk : Sí. Porque no puedes dar un solo ejemplo de contenido odioso. Ni siquiera un tuit. Y, sin embargo, afirmó que el contenido de odio era alto. eso es falso
Entrevistador : No. Lo que dije-
Elon Musk : Acabas de mentir.
Luego hacemos la siguiente pregunta:
“¿Elon Musk insulta al entrevistador?”.
ChatGPT:
Vicuña:
Vicuña, tiene el formato correcto y hasta los segmentos correctos, pero sorprendentemente genera una respuesta completamente equivocada, cuando dice “Elon musk no lo acusa de mentir ni lo insulta de ninguna manera”.
Probamos una variedad de otras preguntas y conversaciones, y el patrón general fue que Vicuna era comparable a ChatGPT en la mayoría de las preguntas, pero respondía mal con más frecuencia que ChatGPT.
Tarea: hacer cosas con bash
Ahora tratamos de hacer que estos LLM usen iterativamente un shell bash para resolver problemas individuales. Cada vez que emiten un comando, lo ejecutamos e insertamos la salida nuevamente en el indicador, hasta que se resuelva la tarea.
Aquí está el indicador de ChatGPT (observe que shell this.command
llama a una función definida por el usuario con this.command
un argumento):
terminal = guidance('''{{#system~}}
{{llm.default_system_prompt}}
{{~/system}}
{{#user~}}
Please complete the following task:
Task: list the files in the current directory
You can give me one bash command to run at a time, using the syntax:
COMMAND: command
I will run the commands on my terminal, and paste the output back to you. Once you are done with the task, please type DONE.
{{/user}}
{{#assistant~}}
COMMAND: ls
{{~/assistant~}}
{{#user~}}
Output: guidance project
{{/user}}
{{#assistant~}}
The files or folders in the current directory are:
- guidance
- project
DONE
{{~/assistant~}}
{{#user~}}
Please complete the following task:
Task: {{task}}
You can give me one bash command to run at a time, using the syntax:
COMMAND: command
I will run the commands on my terminal, and paste the output back to you. Once you are done with the task, please type DONE.
{{/user}}
{{#geneach 'commands' stop=False}}
{{#assistant~}}
{{gen 'this.command'}}
{{~/assistant~}}
{{~#user~}}
Output: {{shell this.command)}}
{{~/user~}}
{{/geneach}}''')
De hecho, ChatGPT sigue una secuencia muy natural y resuelve la tarea. No sigue nuestras instrucciones para decir HECHO, pero podemos detener la iteración automáticamente porque no emite ningún COMANDO.
Para los modelos de código abierto, escribimos un indicador más simple (guiado) donde hay una secuencia de salida de comando:
guided_terminal = guidance('''{{#system~}}
{{llm.default_system_prompt}}
{{~/system}}
{{#user~}}
Please complete the following task:
Task: list the files in the current directory
You can run bash commands using the syntax:
COMMAND: command
OUTPUT: output
Once you are done with the task, use the COMMAND: DONE.
{{/user}}
{{#assistant~}}
COMMAND: ls
OUTPUT: guidance project
COMMAND: DONE
{{~/assistant~}}
{{#user~}}
Please complete the following task:
Task: {{task}}
You can run bash commands using the syntax:
COMMAND: command
OUTPUT: output
Once you are done with the task, use the COMMAND: DONE.
{{~/user}}
{{#assistant~}}
{{#geneach 'commands' stop=False ~}}
COMMAND: {{gen 'this.command' stop='\\n'}}
OUTPUT: {{shell this.command)}}{{~/geneach}}
{{~/assistant~}}''')
Aquí está el MPT:
En un interesante giro de los acontecimientos, Vicuña no puede resolver la tarea, pero MPT lo logra. Además de la privacidad (no estamos enviando la transcripción de la sesión a OpenAI), los modelos de código abierto tienen una ventaja significativa aquí: todo el indicador es una sola ejecución de LLM (e incluso lo aceleramos al no generar tokens de estructura de salida como COMMAND:
) .
En cambio, tenemos que hacer una nueva llamada a ChatGPT para cada comando, lo que es más lento y más caro.
Ahora probamos un comando diferente: "Encuentra todos los archivos del cuaderno jupyter en ~/work/guidance que actualmente no están rastreados por git".
Aquí está ChatGPT:
Una vez más, nos encontramos con un problema con ChatGPT que no sigue nuestra estructura de salida especificada (y, por lo tanto, nos hace imposible usarlo dentro de un programa, sin un humano en el circuito). Nuestro programa acaba de ejecutar comandos y, por lo tanto, se detuvo después del último mensaje de ChatGPT anterior.
Sospechábamos que la salida vacía descartaba ChatGPT y, por lo tanto, solucionamos este problema en particular cambiando el mensaje cuando no hay salida. Sin embargo, no podemos solucionar el problema general de no poder obligar a ChatGPT a seguir nuestra estructura de salida especificada.
ChatGPT pudo resolver el problema después de esta pequeña modificación. Veamos cómo lo hace Vicuña:
Vicuna sigue nuestra estructura de salida, pero desafortunadamente ejecuta el comando incorrecto para realizar la tarea. MPT (no se muestra) llama al estado de git repetidamente, por lo que también falla.
Ejecutamos estos programas para varias otras instrucciones y descubrimos que ChatGPT casi siempre produce la secuencia correcta de comandos, mientras que a veces no sigue el formato especificado (y, por lo tanto, necesita la intervención humana). Los modelos de código abierto no funcionaron tan bien (probablemente podamos mejorarlos con una ingeniería más rápida, pero fallaron en la mayoría de las instrucciones más difíciles).
comida para llevar
Además de los ejemplos anteriores, probamos varias entradas para ambas tareas (respuesta de preguntas y bash). También probamos una variedad de otras tareas que involucran resumen, respuesta a preguntas, generación "creativa" y tareas de manipulación de cuerdas de juguete donde podemos evaluar la precisión automáticamente.
Aquí hay un resumen de nuestros hallazgos:
- Calidad en la tarea : para cada tarea que probamos, ChatGPT (3.5) sigue siendo más fuerte que Vicuna en la tarea misma. MPT se desempeñó mal en casi todas las tareas (¿quizás lo estamos usando mal?), mientras que Vicuna a menudo estuvo cerca de ChatGPT (a veces muy cerca, a veces mucho peor como en la última tarea de ejemplo anterior).
- Facilidad de uso : es mucho más doloroso lograr que ChatGPT siga un formato de salida específico y, por lo tanto, es más difícil usarlo dentro de un programa (sin un humano en el circuito). Además, siempre tenemos que escribir analizadores de expresiones regulares para la salida (a diferencia de Vicuna, donde analizar un indicador con una sintaxis clara es trivial).
Por lo general, podemos resolver el problema de la estructura agregando más ejemplos de pocas tomas, pero es tedioso escribirlos y, a veces, ChatGPT se sale del guión de todos modos. También terminamos con indicaciones que son más largas, más torpes y más feas, lo cual es insatisfactorio.
Ser capaz de especificar la estructura de salida es un beneficio significativo de los modelos de código abierto, hasta el punto de que a veces preferimos Vicuna a ChatGPT incluso cuando es un poco peor en la tarea en sí. - Eficiencia : tener el modelo localmente significa que podemos resolver tareas en una sola ejecución de LLM (
guidance
mantiene el estado de LLM mientras se ejecuta el programa), lo cual es más rápido y económico. Esto es particularmente cierto cuando los subpasos implican llamar a otras API o funciones (por ejemplo, búsqueda, terminal, etc.), lo que siempre requiere una nueva llamada a la API de OpenAI.guidance
también acelera la generación al no tener el modelo generando los tokens de estructura de salida, lo que a veces hace una gran diferencia.
Debemos reconocer que estamos sesgados por haber usado mucho los modelos OpenAI en los últimos años, por haber escrito varios artículos que dependen de GPT-3 (por ejemplo, aquí, aquí ) y un artículo que básicamente dice "GPT-4 es increíble". , aquí hay un montón de ejemplos geniales”.
Hablando de eso, mientras que Vicuna es algo comparable a ChatGPT (3.5), creemos que GPT-4 es un modelo mucho más fuerte y estamos emocionados de ver si los modelos de código abierto pueden acercarse a eso . Si bien guidance
funciona bastante bien con los modelos OpenAI, realmente brilla cuando puede especificar la estructura de salida y acelerar la generación.
Nuevamente, estamos claramente sesgados, pero creemos que guidance
es una excelente manera de usar estos modelos, ya sea con API (OpenAI, Azure) o localmente (huggingface). Aquí hay un enlace al cuaderno jupyter con código para todos los ejemplos anteriores (y más).
Descargo de responsabilidad : esta publicación fue escrita conjuntamente por Marco Tulio Ribeiro y Scott Lundberg. Representa estrictamente nuestras opiniones personales y no las de nuestro empleador (Microsoft).
Agradecimientos: Estamos muy agradecidos a Harsha Nori por sus comentarios perspicaces en esta publicación.