Videogames — Prevendo classificações 'ESRB' usando aprendizado de máquina

Introdução
Este blog é uma continuação do nosso blog anterior - Video Games — Analyzing Genres, Features, and Scores - que incluiu nossa coleta de dados e processo de análise exploratória de dados. Agora vamos demonstrar como treinamos modelos de aprendizado de máquina para prever classificações e relatar sua eficiência.
Recapitular
Conjunto de dados: o conjunto de dados inicial era a classificação de videogames por 'ESRB', da Kaggle ( fonte ), que incluía apenas o título do jogo, seus recursos e a classificação do ESRB. ESRB significa Entertainment Software Ratings Board. Usando os títulos de jogos do conjunto de dados ESRB para fazer ping em metacritic.com, obtivemos dados sobre pontuação, data de lançamento, editora e gêneros do Metacritic. Mesclamos os conjuntos de dados e resolvemos as inconsistências.
Variáveis: títulos, desenvolvedor e editor, data de lançamento, recursos, gêneros, pontuação Metacritic, classificação ESRB.
Insights de análise exploratória de dados
- Há uma representação desigual de gêneros.
- Uma correlação insignificante entre o número de jogos lançados por um desenvolvedor e a pontuação média do Metacritic/usuário gerada por seus jogos
- Acordo geral entre o Metacritic e os usuários sobre quais gêneros são mais populares (têm uma pontuação média mais alta) durante vários meses do ano.
- Certos gêneros geralmente permaneceram populares em períodos específicos.
- Existe uma correlação positiva geralmente forte entre a pontuação do Metacritic e a pontuação do usuário.
- O Metacritic e os usuários têm opiniões diferentes sobre seus 10 desenvolvedores mais bem avaliados.
- O Heatmap sugere uma correlação mais alta entre conteúdo sexual forte e violência em videogames.
- Falta de descritores, linguagem/violência moderada e humor grosseiro correlacionam-se negativamente com o Metacritic e as pontuações do usuário.
- Os jogos 'Adultos' têm a pontuação média mais alta do Metacritic em comparação com outros, e os jogos para 'Todos' têm a menor.
Aprendizado de máquina para prever classificações ESRB
Objetivo: Nossa variável de interesse é a característica — classificação ESRB — que pretendemos prever com nosso modelo.
Conjuntos de treinamento e teste
Dividimos nosso conjunto de dados em conjuntos de treinamento e teste usando uma divisão de 80 a 20. Descartamos os títulos dos jogos e mantivemos apenas os dados numéricos. A forma dos conjuntos de dados é a seguinte:
train_X: (1895, 32) train_Y: (1895, 1)
text_X: (500, 32) train_Y: (500, 1)
Treinamento
Como os dados eram muito ruidosos e não estruturados para caber em um modelo linear, decidimos tentar modelos não lineares. Experimentamos vários conjuntos de parâmetros para todos os modelos, e os parâmetros finais são baseados apenas naqueles que forneceram a maior precisão.
K-vizinho mais próximo (KNN)
Parâmetros:
n_neighbors é o número de vizinhos mais próximos que usamos para determinar a variável prevista de um videogame (classificação). Tentamos diferentes valores inteiros no intervalo de 3 a 7.
pesos: peso uniforme significa que cada um dos 'n' vizinhos tem a mesma importância na determinação da saída média. O peso da distância implica que a extensão varia inversamente com sua distância ou nível de diferença do jogo que estamos classificando. Por exemplo, o vizinho (jogo no conjunto de dados de treinamento) que não é muito semelhante ao jogo que estamos classificando terá menos importância/impacto na determinação do resultado médio (rating).
p: 1 significa distância de Manhattan e 2 significa distância euclidiana.
Os melhores parâmetros que encontramos foram:

O relatório de classificação e a matriz de confusão usando KNN com esses parâmetros são os seguintes:


Classificador de vetores de suporte (SVC)
Parâmetros:
C é o parâmetro de regularização; tentamos 20 valores no intervalo 0–1.
Kernel: a função do kernel usada para transformar os dados; experimentamos funções polinomiais, RBF (função de base radial) e kernel sigmoide.
Grau: o grau da função kernel polinomial, tentamos de quadrática a 4 graus.
Formato da função de decisão: tentamos treinar uma função de decisão um contra descanso ou um contra um
Os melhores parâmetros que encontramos foram:

O relatório de classificação e a matriz de confusão usando SVC com esses parâmetros são os seguintes:


floresta aleatória
Parâmetros:
n_estimators é o número de árvores na floresta; tentamos 20 valores diferentes entre 10 e 200.
Profundidade máxima: tentamos 10 valores diferentes de 10 a 100.
O critério é como uma função de perda para avaliar a qualidade de uma divisão; tentamos as funções Gini, entropia e perda de log.
Max_features: características que consideramos quando dividimos um nó; tentamos sqrt, log2 e None.
Os melhores parâmetros que encontramos foram:

O relatório de classificação e a matriz de confusão usando Random Forest com esses parâmetros são os seguintes:


Importância do recurso
Traçamos um gráfico de barras de recursos em nosso modelo Random Forest para determinar os recursos essenciais.

O gráfico mostra que os recursos essenciais que a floresta aleatória possui para determinar as classes são a falta de descritores e a linguagem forte, indicando que esses dois recursos, mais do que qualquer outro, ajudam a classificar corretamente o jogo.
Conclusão
A partir da análise e modelagem dos dados, pode-se concluir que é melhor evitar gêneros como ação, tiro e RPG, pois são superpopulados e competitivos. Além disso, o número de jogos lançados pelo desenvolvedor não necessariamente tem uma relação causal com a pontuação média desses jogos no Metacritic, mas um grande número de jogos ainda pode resultar em uma pontuação média diminuída.
A popularidade de diferentes gêneros mudou constantemente ao longo dos anos, com RPGs japoneses e de estilo japonês se saindo melhor do que todos os outros atualmente. Esses gêneros podem oferecer aos desenvolvedores jogos com melhor desempenho no momento. No entanto, a incorporação de conteúdo adulto não tem necessariamente um impacto na pontuação Metacritic do jogo.
Quanto às classificações do ESRB, de todos os recursos dos jogos, linguagem forte, sangue, sangue coagulado e violência fantasiosa tiveram o impacto mais drástico na classificação do ESRB. Assim, esses recursos podem desempenhar um papel significativo na previsão da classificação ESRB de um videogame, as previsões mais precisas a esse respeito provenientes do classificador SVM treinado no conjunto de dados.
Grupo 4
Eimaan Saqib, Muhammad Hamza, Harris Ahmad, Neha Nadeem, Maaz Owais