Quantas cópias o Dwarf Fortress venderá?

Dec 08 2022

Um experimento de previsão em estatísticas e vendas, usando listas de desejos do Steam

Esta análise foi realizada por um economista terceirizado, systemchalk, por curiosidade e cortesia profissional. A Kitfox hospeda sua análise com permissão em um espírito de compartilhamento de conhecimento e transparência, sabendo que pode ser incorreta.

Esta análise foi realizada por um economista terceirizado, systemchalk , por curiosidade e cortesia profissional. A Kitfox hospeda sua análise com permissão em um espírito de compartilhamento de conhecimento e transparência, sabendo que pode ser incorreta. Por favor, trate todas as partes envolvidas com gentileza e respeito intelectual semelhantes. Foi originalmente escrito em 22 de novembro de 2022.

tl;dr usando listas de desejos e tratando Dwarf Fortress como um lançamento anterior da Kitfox, Dwarf Fortress poderia vender cerca de 160.000 unidades no Steam nos primeiros dois meses.

Introdução e motivação

As listas de desejos são uma medida popular para prever as vendas, mas têm um histórico misto de sucesso. Com o próximo lançamento de Dwarf Fortress , agora é um momento oportuno para analisar como as listas de desejos foram bem-sucedidas na previsão dos lançamentos anteriores de Kitfox e aplicar os métodos mais promissores para prever as vendas de Dwarf Fortress . Os resultados indicam que as previsões baseadas em listas de desejos devem ser consideradas como a “melhor fonte disponível” de previsões, em vez de uma boa fonte de previsões, mas existem alguns padrões que se mostram promissores.

Qual é o melhor método de previsão?

Sete dos oito jogos que a Kitfox Games publicou no Steam foram considerados usando suas listas de desejos antes do lançamento. Um método comum para prever as vendas das listas de desejos envolve multiplicar as listas de desejos por algum número (geralmente uma proporção do total de vendas para o total de listas de desejos de lançamentos anteriores). No entanto, existem vários candidatos para o que estimar, quais informações da lista de desejos usar e quais períodos de tempo considerar.

Cada uma das combinações de período de tempo, vendas e medida de lista de desejos foi estimada e, em seguida, classificada com base em sua precisão e na dispersão do limite inferior e superior de seu intervalo de confiança. Além das vendas totais, as vendas medianas foram consideradas e, em seguida, as vendas totais foram convertidas usando os padrões anteriores dos lançamentos anteriores.

Os resultados dos 117 candidatos foram mistos. O menor erro foi de 52,52% das vendas, enquanto o método de pior desempenho teve um erro de 99,67%. A estimativa de melhor desempenho que era crível o suficiente para ser usada em uma previsão útil teve um erro de 56,39% e foi o resultado de um retrocesso da mediana.

Embora os candidatos usados para prever o Dwarf Fortress estejam mais próximos do limite inferior dos erros, é importante reconhecer que essas taxas de erro excedem a contingência comum de 30% frequentemente recomendada para desenvolvedores novatos.

Principais conclusões: Há algumas evidências de que melhores previsões podem ser obtidas considerando as vendas medianas em vez dos totais. No entanto, as taxas de erro mesmo das melhores previsões reafirmam que são altamente incertas.

Quantas unidades Dwarf Fortress venderá?

Dwarf Fortress está próximo do lançamento (6 de dezembro de 2022 no momento em que este livro foi escrito) e, portanto, as listas de desejos disponíveis devem estar razoavelmente próximas do total antes do lançamento. Embora as semanas ausentes das listas de desejos possam influenciar a estimativa para baixo, este é um caso útil para ver como o método se aplica na prática sem conhecimento de quais são as vendas reais.

Quatro métodos foram considerados e são descritos pela proporção que usam. Cada método prevê os primeiros dois meses de vendas para Dwarf Fortress e relata a estimativa, limite inferior, limite superior e a diferença (spread) entre os limites superior e inferior. Os métodos são classificados pela precisão do método para versões anteriores do Kitfox, com o mais preciso (57,72%) na parte superior e o mínimo (67,42%) na parte inferior. Cada método é rotulado pela proporção usada para calcular a estimativa com vendas como numerador e listas de desejos como denominador.

Por exemplo, Total/Mean significa que as vendas totais são calculadas com base na média das listas de desejos, enquanto Median/Total significa que as vendas medianas são calculadas usando listas de desejos totais (e, em seguida, retroativas no caso de medianas). Resultados:

Tabela 1: Previsões do Dwarf Fortress em unidades vendidas usando um intervalo de confiança de 68%.

Mais uma vez, os resultados são mistos. Dois dos resultados (incluindo o de menor erro) estimam cerca de 160.000 unidades vendidas e a média de todas as estimativas é de 163.979. Infelizmente, mesmo com um intervalo de confiança mais apertado do que seria o padrão, há um pouco de variabilidade nos resultados, com o spread para cada estimativa representando milhões de dólares de receita se o Dwarf Fortress tiver um preço comparável a outros lançamentos da Kitfox.

Embora o spread na tabela 1 seja amplo, este é o mais simples dos dois casos. O perigo ao usar o intervalo de confiança mais estreito é que os resultados mais raros, mas possíveis, com surpresas para cima e para baixo, ficam fora desse intervalo. Ao usar o intervalo de confiança padrão, o intervalo é ainda maior:

Tabela 2: Previsões do Dwarf Fortress em unidades vendidas usando um intervalo de confiança de 95%.

A Tabela 2 cobre uma ampla gama de cenários possíveis, mas é quase tão ruim quanto nenhuma previsão. Mesmo a estimativa mais precisa tem um alcance que abrange mais de três quartos de milhão de unidades vendidas. Isso reflete a incerteza presente em qualquer previsão baseada em listas de desejos, especialmente com base em uma amostra tão pequena.

O que é importante observar é que os valores intermediários (coluna de estimativa) permanecem os mesmos e é o intervalo de valores que muda (com um intervalo mais amplo, temos mais confiança de que o valor verdadeiro cairá dentro dele). Estimativas como essa geralmente são mais úteis quando relatadas com algum tipo de variação ou intervalo de confiança para expressar o quão precisa é a estimativa. No entanto, muitas vezes as pessoas querem um único valor e por isso é comum relatar o valor do meio.

Principais conclusões: Com base na análise histórica das listas de desejos, Dwarf Fortress está previsto para vender 162.905 unidades nos primeiros dois meses, mais ou menos 40.000 unidades (a vantagem é, de fato, muito maior, como visto na Tabela 1). As amplas gamas de previsões refletem a significativa incerteza inerente à previsão baseada em listas de desejos. Essa variabilidade considera apenas o 'melhor caso' para previsão com base em listas de desejos e não considera outros fatores, como Dwarf Fortress, sendo um caso especial devido ao seu tamanho, disponibilidade como um jogo fora do Steam ou tempo disponível como uma lista de desejos.

Epílogo / Nota do Editor

Nota do editor, de Tanya da Kitfox:

Isso também poderia ser intitulado “Então, qual é o efeito do algoritmo do Steam em um efeito 'bola de neve', exatamente?”, porque acho que estamos prestes a descobrir.

Quando compartilhei a estimativa no Twitter , várias pessoas expressaram que achavam que era muito baixo. Eu concordei e provavelmente acredito que 200k é mais provável do que 120k, principalmente devido à maneira como o Steam parece promover a venda de jogos com sucesso e faz com que eles se tornem cada vez mais bem-sucedidos.

Quando mencionei minha sensação ao systemchalk, eles responderam “mesmo que fosse 256.879 depois de dois meses, seria considerado na faixa [...] isso é basicamente como tentar dirigir com o espelho retrovisor”.

Enquanto isso, muitas pessoas inteligentes acreditam que o Steam Followers é uma ferramenta mais precisa para prever vendas ( em 2019, o fator prescrito era de aproximadamente 2,5 , que caiu para 2 em algum momento). E nossos seguidores do Steam estão atualmente em torno de 120k, o que resulta em algo maior, mas não muito longe da faixa estatística. Apenas comida para reflexão.

Então aí está! Vamos ver como as coisas correm!

E para os excepcionalmente ansiosos, aqui está uma análise mais técnica dos métodos.

Apêndice Técnico para Nerds

Esta seção pretende ser opcional, mas para entrar em alguns dos detalhes sobre o que eu fiz especificamente. O valor disso é 'verificar o trabalho' e também comunicar parte do raciocínio, em vez de apenas ter tabelas aparecendo do nada.

Quais jogos foram usados?

Os jogos específicos utilizados foram: Shattered Planet, Moon Hunters, The Shrouded Isle, Six Ages: Ride Like the Wind, Lucifer Within Us, Boyfriend Dungeon¸ e Pupperazzi . Fit for a King foi removido do conjunto de dados, pois o curto período da lista de desejos foi considerado inadequado para comparação.

Existem limitações com o conjunto de dados que devem ser confrontadas diretamente. Esta é uma amostra de 7 jogos que abrangem 8 anos de um mercado que mudou consideravelmente. Por exemplo, o Steam introduziu reembolsos nesse período (embora no início do período, 2015). Como os reembolsos visam tornar os jogadores mais dispostos a comprar e experimentar jogos, incluir jogos antes da introdução de reembolsos pode reduzir a estimativa, pois espera-se que os jogadores após a mudança tenham maior probabilidade de comprar. Existem outras
preocupações, mas esta é uma ilustração adequada de por que os problemas vão além do simples uso de uma pequena amostra de conveniência.

Embora a análise inclua estimativas de variabilidade (que se espera ser alta devido ao pequeno tamanho da amostra), as opções realmente parecem lidar com um conjunto de dados severamente limitado ou abandonar completamente qualquer esperança de análise. Dado que proporções semelhantes (aquelas com desempenho bastante ruim nos testes históricos) foram usadas no passado, pareceu válido relatar os resultados, mas deve-se enfatizar que as conclusões devem ser consideradas sugestivas e uma motivação para mais pesquisas, e não a
base para uma decisão importante.

Que estimativas foram testadas?

O exercício principal foi testar uma ampla gama de candidatos para previsões de lista de desejos para ver quais deles se encaixam melhor no desempenho histórico da Kitfox e, em seguida, classificá-los com base na precisão.

Foram consideradas as seguintes medidas de listas de desejos:

Total: listas de desejos líquidas até o lançamento. Intuição: interesse total pelo jogo antes do lançamento que será contatado quando o jogo estiver disponível.
Média: média aritmética das listas de desejos líquidas diárias. Intuição: o interesse médio no jogo antes do lançamento funciona como um proxy para o interesse no jogo quando ele está disponível para compra.
Mediana: mediana (50º percentil) de listas de desejos líquidas diárias. Intuição: semelhante à intuição para a média, mas a mediana é menos responsiva a valores extremos e, portanto, é uma proxy para o interesse 'central' no jogo que não é impulsionado por eventos excepcionais (PAX etc.)
Decis: O percentil 10 a 90 das listas de desejos líquidas diárias. Intuição: semelhante à mediana, mas permitindo a possibilidade de que o valor representativo (para previsão de vendas) não seja necessariamente o valor médio.

Total: Vendas brutas após o lançamento. Intuição: Esta é a medida mais direta do interesse de um desenvolvedor. As vendas líquidas não seriam apropriadas, pois os retornos serão devidos a fatores não relacionados à lista de desejos.
Average: Média aritmética das vendas diárias brutas. Intuição: um valor representativo das vendas diárias pode ser mais adequado para a maioria (todos menos o total) dos valores da lista de desejos.
Mediana: mediana (50º percentil) de listas de desejos líquidas diárias. Intuição: há uma diferença significativa entre as vendas no dia do lançamento e duas semanas após o lançamento. A justificativa é semelhante à média, mas aborda melhor a variabilidade das vendas diárias de jogos.

Cada uma das combinações é considerada em diferentes períodos de tempo de 1 semana a 13 semanas (cobrindo o primeiro trimestre de lançamento). Assim como nas proporções, alguns períodos de tempo são mais intuitivos e úteis para os desenvolvedores do que outros, embora períodos mais curtos possam ser de interesse analítico e, portanto, não foram removidos.

Cada combinação de proporção e período de tempo foi então calculada usando os sete jogos Kitfox publicados. Especificamente, a proporção foi calculada para cada jogo individual e, em seguida, um estimador foi calculado usando a média harmônica. Além disso, uma medida de faixas prováveis e uma medida de precisão foram calculadas.

A média harmônica foi utilizada por ser mais apropriada no cálculo de uma razão. A Wikipedia oferece exemplos do cálculo, mas para os propósitos desta discussão a escolha é superar um problema potencial em outros cálculos desta razão que é o uso da média aritmética. Isso não é apropriado neste caso, pelo mesmo motivo que os resultados parecem não funcionar se você tentar calcular sua velocidade média em uma corrida usando a média aritmética.

Como as estimativas foram avaliadas?

O primeiro critério em que uma estimativa foi classificada foi o erro percentual médio absoluto (MAPE). Como os candidatos consideraram médias, medianas e totais, não era apropriado comparar erros diretamente, pois é quase certo que um erro entre medianas seja menor do que um erro nas vendas totais.

O MAPE envolve o cálculo da diferença percentual do valor verdadeiro em termos absolutos (ou seja, ignorando o positivo ou negativo) e, em seguida, o cálculo da média desses erros. Conclui-se que um MAPE menor
significava que, em média, a previsão de vendas era mais precisa do que uma com MAPE maior. No entanto, dado que os erros são de aproximadamente 50% a 100%, mesmo as melhores previsões são previsões muito imprecisas.

O segundo critério foi uma faixa mais estreita de valores prováveis. A medida dos intervalos prováveis descritos no artigo corresponde ao intervalo de confiança. Minha formação é em economia, então comecei com um intervalo de confiança de 95%, que é padrão nesse contexto. O intervalo de confiança de 95% também é expresso como abrangendo resultados que estão dentro de dois desvios padrão. Ficou claro que esses intervalos de confiança eram muito amplos para serem de qualquer uso prático.

Antes de discutir a mudança, pode ser útil fornecer uma intuição sobre os intervalos de confiança. Uma interpretação do intervalo de confiança é dizer que se um experimento fosse repetido 100 vezes (neste caso, 100 dimensões paralelas onde Dwarf Fortress é lançado), 95 dos resultados cairiam dentro do intervalo de confiança. A alternativa que escolhi, o intervalo de confiança de 68%, mostra o benefício e a desvantagem dessa escolha: uma faixa de valores mais estreita, mas agora apenas 68 das dimensões paralelas cairiam
dentro deles.

Há duas justificativas para afrouxar as restrições. Primeiro, o dilema era semelhante a escolher trabalhar com uma pequena amostra de um desenvolvedor no primeiro caso: relatar algo que é tão útil quanto
nada ou relatar algo mais acionável e indicar claramente onde o compromisso foi feito.

Em segundo lugar, o intervalo de confiança de 68% (que corresponde a um desvio padrão em vez de dois dos 95%) parece ser mais aceitável no contexto de jogos, como apareceu em algumas das exibições da Epic Games v. Apple. A escolha do intervalo de confiança sempre envolve compensações entre o quanto estamos dispostos a descartar resultados úteis e o quanto estamos dispostos a tolerar erros. A previsão de jogos provavelmente justifica o tipo de rigor que, digamos, a avaliação de políticas educacionais justifica e, portanto, um relaxamento dos padrões pode ser justificado, embora recomende cautela.

Se um desenvolvedor hipotético achasse o restante da análise sólida, mas desejasse confiar mais nas previsões ao tomar decisões importantes, ele deveria considerar o intervalo de confiança mais estrito e, em geral, esperar-se-ia que mais dados diminuíssem o intervalo.

Notas sobre os resultados

Nem todas as 117 estimativas calculadas eram candidatas sérias para previsão. Os resultados de dois meses tenderam a se agrupar e pareciam ser bons candidatos para uma previsão. Outro fator a favor
dos resultados de dois meses foi que eles se alinharam com trabalhos anteriores que identificaram padrões nas vendas diárias nos primeiros dois meses do jogo. É por isso que a estimativa com o menor erro credível (MAPE) não é aquela que é utilizada no cálculo das previsões. O menor erro crível pertencia a uma previsão de 12 semanas, o que sugere que vale a pena examinar as previsões do 1º trimestre, mas foi determinado fornecer um benefício suficiente para ignorar o melhor ajuste com o trabalho anterior em períodos de 2 meses.

Deve-se notar que o método backcasting se baseia em resultados de jogos que também são usados no trabalho de previsão. Isso cria uma dificuldade em que as estimativas representam um caso 'ideal' e que o backcasting introduz mais erros do que o esperado nas estimativas de vendas. Algumas verificações pontuais para explicar isso mostraram que o erro aumentou apenas em uma quantidade comparável à diferença entre dois bons estimadores candidatos (cerca de 1 ou 2%), mas introduz outro cuidado ao considerar estimativas medianas.

Uma fraqueza geral desse método é que as melhores métricas de lista de desejos tendem a ser listas de desejos totais e listas de desejos médias. Isso é uma pena, já que as listas de desejos totais e médias se tornam mais úteis quanto mais próximas estão do lançamento (embora as médias possam ser informativas, desde que os valores discrepantes sejam grandes o suficiente para impedir que os dias omitidos alterem muito a média). Um método ideal seria usar uma medida de lista de desejos que pudesse ser obtida o mais cedo possível no desenvolvimento de um jogo e continuasse sendo um alvo para
pesquisas futuras.

Por que relatar resultados sobre os quais você tem dúvidas?

Ao longo do artigo original e desta nota técnica, houve cautelas e concessões. Se perguntado sobre meus sentimentos pessoais sobre previsões baseadas em listas de desejos, eu diria que sou cético, mas não descartaria a possibilidade. No entanto, meu valor agregado não vem da minha opinião, mas da minha análise. Ao apresentar o trabalho, o objetivo é fornecer informações adicionais e, espera-se, provocar novas pesquisas sobre os caminhos de pesquisa mais promissores.

É justo dizer que o estimador de ponto relativamente baixo para a previsão de vendas do Dwarf Fortress já incomodou algumas pessoas. O que é interessante é que a maioria das alternativas propostas pelas pessoas caiu dentro do intervalo de confiança na tabela 1. Isso pode refletir menos familiaridade com os intervalos de confiança. Medidas de variabilidade ainda não são comuns em artigos de dados populares (embora seja minha esperança que isso possa mudar no futuro). O mais importante é saber de onde vieram essas alternativas. As intuições são verificações boas e úteis de nossas estimativas, mas se fossem uma boa ferramenta de previsão de longo prazo, não haveria tanto esforço no desenvolvimento de alternativas.

O objetivo não foi apenas prever o Dwarf Fortress por conta própria, mas avaliar as listas de desejos como um método de previsão em geral. Abaixo do resultado que chamou a atenção estão mais de 100 previsões potenciais que não foram usadas. O objetivo da previsão do Dwarf Fortress era dar um exemplo 'ao vivo' dos melhores candidatos a partir de um amplo exame das medidas da lista de desejos como um todo e apresentá-lo de uma forma que não pudesse depender do que era "óbvio" apenas em retrospectiva. A crítica não é negativa aqui, mas sim um resultado desejável (desde que construtivo).

Existem diferentes fontes potenciais de erro. Pode ser que seja inapropriado comparar Dwarf Fortress com os lançamentos anteriores de Kitfox (como parece ser o caso). Isso é diferente de pensar que o uso da média harmônica está errado ou que um MAPE mínimo de 50% é muito grande para fazer qualquer afirmação significativa. Este último lança dúvidas sobre a capacidade de derivar previsões significativas de listas de desejos.

A esperança é que, ao apresentar o raciocínio e quantificar a incerteza em torno dessas previsões, as respostas possam ir além da simples objeção e, em vez disso, oferecer seu próprio raciocínio ou promover alguma reflexão sobre a prática de previsão e o compartilhamento de melhores práticas.