¿Cuántas copias venderá Dwarf Fortress?

Dec 08 2022

Un experimento de pronóstico en estadísticas y ventas, utilizando listas de deseos de Steam

Este análisis fue realizado por un economista externo, systemchalk, por cortesía y curiosidad profesional. Kitfox aloja su análisis con permiso en un espíritu de intercambio de conocimientos y transparencia, sabiendo que puede resultar incorrecto.

Este análisis fue realizado por un economista externo, systemchalk , por cortesía y curiosidad profesional. Kitfox aloja su análisis con permiso en un espíritu de intercambio de conocimientos y transparencia, sabiendo que puede resultar incorrecto. Trate a todas las partes involucradas con la misma amabilidad y respeto intelectual. Fue escrito originalmente el 22 de noviembre de 2022.

tl;dr usando listas de deseos y tratando a Dwarf Fortress como un lanzamiento anterior de Kitfox, Dwarf Fortress podría vender aproximadamente 160,000 unidades en Steam en los primeros dos meses.

Introducción y motivación

Las listas de deseos son una medida popular para pronosticar las ventas, pero tienen un historial mixto de éxito. Con el próximo lanzamiento de Dwarf Fortress , ahora es un momento oportuno para analizar qué tan exitosas han sido las listas de deseos al pronosticar los lanzamientos anteriores de Kitfox y aplicar los métodos más prometedores para pronosticar las ventas de Dwarf Fortress . Los resultados indican que los pronósticos basados en listas de deseos deben considerarse como la "mejor fuente disponible" de pronósticos, en lugar de una buena fuente de pronósticos, pero hay algunos patrones que parecen prometedores.

¿Cuál es el mejor método para pronosticar?

Siete de los ocho juegos que Kitfox Games ha publicado en Steam se consideraron utilizando sus listas de deseos netas antes del lanzamiento. Un método común para pronosticar las ventas a partir de listas de deseos consiste en multiplicar las listas de deseos por algún número (generalmente una relación entre las ventas totales y las listas de deseos totales de versiones anteriores). Sin embargo, hay múltiples candidatos sobre qué estimar, qué información de la lista de deseos usar y qué períodos de tiempo considerar.

Cada una de las combinaciones de período de tiempo, ventas y medida de la lista de deseos se estimó y luego se clasificó en función de su precisión y la dispersión del límite inferior y superior de su intervalo de confianza. Además de las ventas totales, se consideraron las ventas medianas y luego las ventas totales se proyectaron utilizando los patrones anteriores de los comunicados anteriores.

Los resultados de los 117 candidatos fueron mixtos. El error más bajo fue el 52,52 % de las ventas, mientras que el método con el peor rendimiento tuvo un error del 99,67 %. La estimación de mejor desempeño que fue lo suficientemente creíble para usarla en un pronóstico útil tuvo un error del 56,39 % y fue el resultado de una estimación retrospectiva de la mediana.

Si bien los candidatos utilizados para pronosticar Dwarf Fortress están más cerca del extremo inferior de los errores, es importante reconocer que estas tasas de error superan la contingencia común del 30% que se recomienda con frecuencia a los desarrolladores novatos.

Puntos clave: Existe cierta evidencia de que se pueden obtener mejores pronósticos al considerar las ventas medianas en lugar de los totales. Sin embargo, las tasas de error de incluso los mejores pronósticos reafirman que son altamente inciertos.

¿Cuántas unidades venderá Dwarf Fortress?

Dwarf Fortress está cerca de su lanzamiento (6 de diciembre de 2022 al momento de escribir este artículo) y, por lo tanto, las listas de deseos disponibles deberían estar razonablemente cerca del total antes del lanzamiento. Si bien las semanas faltantes de las listas de deseos pueden sesgar la estimación a la baja, este es un caso útil para ver qué tan bien se aplica el método en la práctica sin saber cuáles son las ventas reales.

Se consideraron cuatro métodos y se describen por la proporción que utilizan. Cada método pronostica los primeros dos meses de ventas de Dwarf Fortress e informa la estimación, el límite inferior, el límite superior y la diferencia (spread) entre los límites superior e inferior. Los métodos se clasifican según la precisión del método para versiones anteriores de Kitfox, con el más preciso (57,72 %) en la parte superior y el menos (67,42 %) en la parte inferior. Cada método está etiquetado por la relación utilizada para calcular la estimación con las ventas como numerador y las listas de deseos como denominador.

Por ejemplo, Total/Mean significa que las ventas totales se calculan en función de la media de las listas de deseos, mientras que Median/Total significa que las ventas medianas se calculan utilizando las listas de deseos totales (y luego retroproyectar en el caso de las medianas). Resultados:

Tabla 1: Pronósticos de Dwarf Fortress en unidades vendidas usando un intervalo de confianza del 68%.

Una vez más, los resultados son mixtos. Dos de los resultados (incluido el de menor error) estiman unas 160.000 unidades vendidas y la media de todas las estimaciones es de 163.979. Desafortunadamente, incluso con un intervalo de confianza más estrecho de lo que sería estándar, hay bastante variabilidad en los resultados, con el diferencial de cada estimación que representa millones de dólares de ingresos si Dwarf Fortress tiene un precio comparable al de otros lanzamientos de Kitfox .

Si bien la dispersión en la tabla 1 es amplia, este es el más simple de los dos casos. El peligro cuando se usa el intervalo de confianza más estrecho es que los resultados más raros pero posibles con sorpresas tanto al alza como a la baja quedan fuera de este rango. Cuando se usa el intervalo de confianza estándar, el rango es aún mayor:

Tabla 2: Pronósticos de Dwarf Fortress en unidades vendidas usando un intervalo de confianza del 95%.

La Tabla 2 cubre una amplia gama de escenarios posibles, pero es casi tan malo como no tener ningún pronóstico. Incluso la estimación más precisa tiene un rango que abarca más de tres cuartos de millón de unidades vendidas. Esto refleja la incertidumbre presente en cualquier pronóstico basado en listas de deseos, especialmente en una muestra tan pequeña.

Lo que es importante tener en cuenta es que los valores intermedios (columna de estimación) siguen siendo los mismos, y es el rango de valores el que cambia (con un rango más amplio, estamos más seguros de que el valor real caerá dentro de él). Estimaciones como esta a menudo son más útiles cuando se informan con algún tipo de varianza o intervalo de confianza para expresar qué tan precisa es la estimación. Sin embargo, la gente a menudo quiere una sola cifra, por lo que es común informar el valor medio.

Conclusiones clave: según el análisis histórico de las listas de deseos, se pronostica que Dwarf Fortress venderá 162 905 unidades en sus primeros dos meses, más o menos 40 000 unidades (la ventaja es, de hecho, mucho mayor, como se ve en la Tabla 1). Los amplios rangos de pronósticos reflejan la significativa incertidumbre inherente a los pronósticos basados en listas de deseos. Esta variabilidad solo considera el "mejor caso" para la previsión basada en listas de deseos y no considera otros factores, como que Dwarf Fortress sea un caso especial debido a su tamaño, disponibilidad como juego fuera de Steam o tiempo disponible como lista de deseos.

Epílogo / Nota del editor

Nota del editor, de Tanya de Kitfox:

Esto también podría titularse "Entonces, ¿cuál ES exactamente el efecto del algoritmo de Steam en un efecto de 'bola de nieve'?", Porque creo que estamos a punto de averiguarlo.

Cuando compartí la estimación en Twitter , varias personas expresaron que sentían que era bastante baja. Estuve de acuerdo, y es probable que crea que 200k es más probable que 120k, principalmente debido a la forma en que Steam parece promover la venta exitosa de juegos y hace que sean cada vez más exitosos.

Cuando le mencioné mis sentimientos a systemchalk, respondieron "incluso si fuera 256,879 después de dos meses, se consideraría dentro del rango [...] esto es básicamente como tratar de conducir con el espejo retrovisor".

Mientras tanto, muchas personas inteligentes creen que Steam Followers es una herramienta más precisa para predecir las ventas ( en 2019, el factor prescrito fue ~2.5 , que se redujo a 2 en algún momento). Y nuestros seguidores de Steam están actualmente alrededor de 120k, lo que resulta en algo más alto, pero no muy lejos del rango estadístico. Sólo alimento para el pensamiento.

¡Así que ahí lo tienes! ¡Veamos cómo van las cosas!

Y para los excepcionalmente ansiosos, aquí hay un desglose más técnico de los métodos.

Apéndice técnico para nerds

Esta sección pretende ser opcional, pero para entrar en algunos de los detalles de lo que hice específicamente. El valor de esto es tanto para 'comprobar el trabajo' como para comunicar parte del razonamiento, en lugar de simplemente hacer que las tablas aparezcan de la nada.

¿Qué juegos se utilizaron?

Los juegos específicos utilizados fueron: Shattered Planet, Moon Hunters, The Shrouded Isle, Six Ages: Ride Like the Wind, Lucifer Within Us, Boyfriend Dungeon¸ y Pupperazzi . Fit for a King se eliminó del conjunto de datos porque el breve período de la lista de deseos se consideró inapropiado para la comparación.

Existen limitaciones con el conjunto de datos que deben confrontarse directamente. Esta es una muestra de 7 juegos que abarcan 8 años de un mercado que ha cambiado considerablemente. Por ejemplo, Steam introdujo reembolsos durante este período (aunque a principios del período, 2015). Dado que los reembolsos están destinados a hacer que los jugadores estén más dispuestos a comprar y probar juegos, incluir juegos antes de la introducción de los reembolsos puede reducir la estimación, ya que se espera que los jugadores después del cambio tengan más probabilidades de comprar. Hay otras
preocupaciones, pero esta es una ilustración adecuada de por qué los problemas se extienden más allá del simple uso de una pequeña muestra de conveniencia.

Si bien el análisis incluye estimaciones de variabilidad (que se espera que sea alta dado el pequeño tamaño de la muestra), las opciones realmente parecen tratar con un conjunto de datos severamente limitado o abandonar cualquier esperanza de análisis por completo. Dado que en el pasado se han utilizado proporciones similares (unas que se desempeñaron bastante mal en las pruebas históricas), pareció valioso informar los hallazgos, pero se debe enfatizar que las conclusiones deben considerarse sugerentes y una motivación para más investigación. en lugar de la
base para una decisión importante.

¿Qué estimaciones se probaron?

El ejercicio principal fue probar una amplia gama de candidatos para los pronósticos de la lista de deseos para ver cuáles se ajustaban mejor al desempeño histórico de Kitfox y luego clasificarlos en función de la precisión.

Se consideraron las siguientes medidas de listas de deseos:

Total: listas de deseos netas hasta el lanzamiento. Intuición: interés total por el juego antes del lanzamiento que se pondrá en contacto cuando el juego esté disponible.
Promedio: Media aritmética de las listas de deseos netas diarias. Intuición: el interés promedio en el juego antes del lanzamiento actúa como indicador del interés en el juego cuando está disponible para la compra.
Mediana: mediana (percentil 50) de las listas de deseos netas diarias. Intuición: similar a la intuición para el promedio, pero la mediana responde menos a los valores extremos y, por lo tanto, es un indicador del interés "central" en el juego que no está impulsado por eventos excepcionales (PAX, etc.)
Deciles: el percentil 10 al 90 de las listas de deseos diarias netas. Intuición: similar a la mediana, pero permitiendo la posibilidad de que el valor representativo (para pronosticar ventas) no sea necesariamente el valor medio.

Total: Ventas brutas después del lanzamiento. Intuición: esta es la medida más directa de lo que le interesa a un desarrollador. Las ventas netas no serían apropiadas ya que las devoluciones se deben a factores no relacionados con la lista de deseos.
Media: Media aritmética de las ventas brutas diarias. Intuición: un valor representativo de las ventas diarias puede ser más adecuado para la mayoría (todos menos el total) de los valores de la lista de deseos.
Mediana: mediana (percentil 50) de las listas de deseos netas diarias. Intuición: hay una diferencia significativa entre las ventas el día del lanzamiento y dos semanas después del lanzamiento. La justificación es similar al promedio, pero aborda mejor la variabilidad de las ventas diarias de juegos.

Cada una de las combinaciones se considera en diferentes períodos de tiempo desde 1 semana hasta 13 semanas (cubriendo el primer trimestre del lanzamiento). Al igual que con las proporciones, algunos períodos de tiempo son más intuitivos y útiles para los desarrolladores que otros, aunque los períodos más cortos pueden ser de interés analítico y, por lo tanto, no se eliminaron.

Luego, cada combinación de proporción y período de tiempo se calculó utilizando los siete juegos de Kitfox publicados. Específicamente, se calculó la relación para cada juego individual y luego se calculó un estimador utilizando la media armónica. Además, se calculó una medida de rangos probables y una medida de precisión.

Se utilizó la media armónica ya que es más apropiada al calcular una razón. La Wikipedia ofrece ejemplos del cálculo, pero a los efectos de esta discusión, la opción es superar un problema potencial en otros cálculos de esta relación, que es el uso de la media aritmética. Esto no es apropiado en este caso, por la misma razón que los resultados no parecen funcionar si tratas de calcular tu velocidad promedio en una carrera utilizando la media aritmética.

¿Cómo se evaluaron las estimaciones?

El primer criterio con el que se calificó una estimación fue el error porcentual absoluto medio (MAPE). Debido a que los alumnos consideraron medias, medianas y totales, no era apropiado comparar directamente los errores, ya que es casi seguro que un error entre medianas sea menor que un error en las ventas totales.

El MAPE implica calcular la diferencia porcentual del valor real en términos absolutos (es decir, ignorar el positivo o negativo) y luego calcular el promedio de esos errores. De ello se deduce que un MAPE más bajo
significaba que, en promedio, el pronóstico de ventas era más preciso que uno con un MAPE más alto. Sin embargo, dado que los errores son aproximadamente del 50 % al 100 %, incluso los mejores pronósticos son pronósticos muy imprecisos.

El segundo criterio fue un rango más estrecho de valores probables. La medida de rangos probables descrita en el artículo corresponde al intervalo de confianza. Mi experiencia es en economía, por lo que comencé con un intervalo de confianza del 95 %, que es estándar en ese contexto. El intervalo de confianza del 95% también se expresa cubriendo resultados que están dentro de dos desviaciones estándar. Estaba claro que estos intervalos de confianza eran demasiado amplios para ser de utilidad práctica.

Antes de discutir el cambio, puede ser útil proporcionar una intuición sobre los intervalos de confianza. Una interpretación del intervalo de confianza es decir que si un experimento se repitiera 100 veces (en este caso, 100 dimensiones paralelas donde se lanza Dwarf Fortress ), 95 de los resultados estarían dentro del intervalo de confianza. La alternativa que elegí, el intervalo de confianza del 68%, muestra los beneficios y los inconvenientes de esta elección: un rango de valores más estrecho, pero ahora solo 68 de las dimensiones paralelas estarían
dentro de ellos.

Hay dos justificaciones para relajar las restricciones. Primero, el dilema era similar a elegir trabajar con una pequeña muestra de un desarrollador en el primer caso: reportar algo que es tan útil como
nada, o reportar algo más procesable e indicar claramente dónde se hizo el compromiso.

En segundo lugar, el intervalo de confianza del 68 % (que corresponde a una desviación estándar en lugar de las dos del 95 %) parece ser más aceptable en el contexto de los juegos, como apareció en algunas de las pruebas de Epic Games vs. Apple. La elección del intervalo de confianza siempre implica compensaciones entre qué tan dispuestos estamos a arrojar resultados útiles y qué tan dispuestos estamos a tolerar errores. Es probable que la previsión de juegos justifique el tipo de rigor que, por ejemplo, hace la evaluación de políticas educativas, por lo que puede justificarse una relajación de los estándares, aunque recomienda cautela.

Si un desarrollador hipotético encontrara que el resto del análisis es sólido pero quisiera confiar más en los pronósticos para tomar decisiones importantes, debería considerar el intervalo de confianza más estricto y, en general, se esperaría que más datos reduzcan el rango.

Notas sobre los resultados

No todas las 117 estimaciones calculadas eran candidatas serias para el pronóstico. Los resultados de dos meses tendieron a agruparse y parecían ser buenos candidatos para un pronóstico. Otro factor a favor
de los resultados de dos meses fue que se alineó con el trabajo anterior que identificó patrones en las ventas diarias durante los primeros dos meses del juego. Esta es la razón por la cual la estimación con el error creíble más bajo (MAPE) no es la que se usa para calcular los pronósticos. El error creíble más bajo pertenecía a un pronóstico de 12 semanas, lo que sugiere que puede valer la pena analizar los pronósticos del primer trimestre, pero se determinó que brindan un beneficio suficiente para ignorar el mejor ajuste con el trabajo anterior en períodos de 2 meses.

Cabe señalar que el método de predicción retrospectiva se basa en los resultados de los juegos que también se utilizan en el trabajo de pronóstico. Esto crea una dificultad en el sentido de que las estimaciones representan un caso "ideal" y que la retrospectiva introduce más errores de los esperados en las estimaciones de ventas. Algunas verificaciones al azar para dar cuenta de esto mostraron que el error solo aumentó en una cantidad comparable a la diferencia entre dos buenos estimadores candidatos (alrededor de 1 o 2%), pero introduce otra precaución al considerar las estimaciones medianas.

Una debilidad general de este método en general es que las mejores métricas de la lista de deseos tienden a ser listas de deseos totales y listas de deseos medias. Es una pena, ya que las listas de deseos totales y medias se vuelven más útiles cuanto más cerca están de su lanzamiento (aunque las medias pueden ser informativas siempre que los valores atípicos sean lo suficientemente grandes como para evitar que los días omitidos alteren demasiado la media). Un método ideal sería usar una medida de lista de deseos que podría obtenerse lo antes posible en el desarrollo de un juego y sigue siendo un objetivo para futuras
investigaciones.

¿Por qué reportar resultados sobre los que tiene dudas?

A lo largo del artículo original y esta nota técnica ha habido precauciones y compromisos. Si me preguntaran mis sentimientos personales acerca de la previsión basada en listas de deseos, diría que soy escéptico, pero no descartaría la posibilidad. Sin embargo, mi valor agregado no proviene de mi opinión sino de mi análisis. Al presentar el trabajo, el objetivo es proporcionar información adicional y, con suerte, provocar más investigaciones sobre las vías de investigación más prometedoras.

Es justo decir que el estimador de punto relativamente bajo para el pronóstico de ventas de Dwarf Fortress ya molestó a algunas personas. Lo interesante es que la mayoría de las alternativas que propusieron las personas se encontraban dentro del intervalo de confianza de la tabla 1. Esto puede reflejar una menor familiaridad con los intervalos de confianza. Las medidas de variabilidad aún no son comunes en los artículos de datos populares (aunque espero que esto pueda cambiar en el futuro). Lo que es más importante es saber de dónde provienen estas alternativas. Las intuiciones son comprobaciones buenas y útiles de nuestras estimaciones, pero si fueran una buena herramienta de previsión a largo plazo, no se dedicaría tanto esfuerzo a desarrollar alternativas.

El objetivo no ha sido solo pronosticar Dwarf Fortress por sí solo, sino evaluar las listas de deseos como un método de pronóstico más general. Debajo del resultado que llamó la atención hay más de 100 pronósticos potenciales que no se usaron. El propósito de pronosticar Dwarf Fortress era dar un ejemplo 'en vivo' de los mejores candidatos a partir de un amplio examen de las medidas de la lista de deseos en su conjunto y presentarlo de una manera que no pudiera depender de lo que era "obvio" solo en retrospectiva. La crítica no es aquí un resultado negativo, sino un resultado deseable (siempre que sea constructivo).

Hay diferentes fuentes potenciales de error. Una puede ser que no sea apropiado comparar Dwarf Fortress con los lanzamientos anteriores de Kitfox (como parece probable que sea el caso). Esto es diferente a pensar que el uso de la media armónica es erróneo, o que un MAPE mínimo del 50 % es demasiado grande para hacer una declaración significativa. Esto último arroja dudas sobre la capacidad de derivar pronósticos significativos de las listas de deseos.

La esperanza es que al presentar tanto el razonamiento como la cuantificación de la incertidumbre que rodea a estos pronósticos, las respuestas puedan ir más allá de la simple objeción y, en cambio, ofrezcan su propio razonamiento o promuevan alguna reflexión sobre la práctica de los pronósticos y el intercambio de mejores prácticas.