Видеоигры — анализ жанров, особенностей и результатов

Dec 05 2022
Введение Мы намерены проанализировать различные аспекты видеоигр, обучив модель машинного обучения с использованием рейтингов видеоигр от ESRB и собранных нами данных. В этом блоге мы рассмотрим процесс сбора и исследовательского анализа данных с помощью визуальных представлений.
источник изображения

Введение

Мы намерены анализировать различные аспекты видеоигр, обучая модель машинного обучения, используя рейтинги видеоигр от ESRB и собранные нами данные. В этом блоге мы рассмотрим процесс сбора и исследовательского анализа данных с помощью визуальных представлений.

Набор данных

Вторичный набор данных

Мы получили наш первоначальный набор данных «Рейтинги видеоигр по ESRB» от Kaggle ( источник ), который включал только название игры, ее функции и рейтинг ESRB. ESRB расшифровывается как Совет по рейтингам развлекательного программного обеспечения.

Парсинг данных

Мы решили добавить больше информации. Используя названия игр из набора данных ESRB для проверки связи с metacritic.com, мы получили данные о рейтинге Metacritic, дате выпуска, издателе и жанрах. Metacritic хранит и обслуживает игры для каждой платформы отдельно; кроме того, оценки игр на Metacritic также зависят от платформы. Поэтому мы собрали данные об играх для консолей, включая ПК, PS4, PS3, PS5, Xbox-one и Xbox 360.

Слияние и очистка

После объединения наборов данных у нас были противоречивые данные о рейтинге Metacritic и дате выпуска. У некоторых игр были разные даты выпуска и оценки на разных платформах. Оценки были решены путем получения максимального значения, и мы сохранили последнюю дату выпуска. Жанры и информация об издателе были одинаковыми на всех платформах.

Переменные:

  • Заголовки: название игры
  • Разработчик и издатель: имена и компании
  • Дата выпуска: месяц и год выпуска игры
  • Особенности : насилие, наркотики и т. д.
  • Жанры: боевик, аркада, спорт и т. д.
  • Metacritic Score: средневзвешенное значение индивидуальных оценок критиков, диапазон от 0 до 100.
  • Рейтинг ESRB: категориальная переменная, определяющая, для какой аудитории подходит игра (для всех E, для всех ET 10+, для подростков T, для взрослых M).

Индексация

Поскольку все названия игр уникальны, мы можем установить столбец с названием в качестве индекса для нашего фрейма данных.

Несоответствия данных

Жанр: Существует много избыточности в том, как игры классифицируются. Например, мы хотим классифицировать все игры, подпадающие под категории «Автомобили» и «Аркады». Для одной и той же категории используется несколько ключевых слов; следовательно, каждый жанр, который должен быть похож, трактуется по-разному.

«Автомобили» и «Аркады» — две широкие категории, которые мы должны учитывать.

Орфографические ошибки. Еще одно наблюдение, которое вызвало абсолютный шок, — это также орфографические ошибки:

Посмотрите, как название разработчика «3D Clouds» трижды пишется по-разному. К каждому прилагается уникальный счетчик. Мы уравновесили это.

Вопросы ЭДА

  1. Какой жанр самый популярный?

2. Сколько игр в среднем выпускают разработчики и каков их средний рейтинг? У разработчиков с большим количеством игр более высокий средний рейтинг?

Судя по графикам, существует незначительная корреляция между количеством игр, выпущенных разработчиком, и средней оценкой Metacritic, полученной их играми. Таким образом, рейтинги могут зависеть не только от количества игр, выпущенных разработчиком, но и от других факторов. Однако разработчики, разрабатывающие одну игру, почти всегда имеют более высокий средний балл на Metacritic.

3. Как меняются популярные жанры в течение года?

Между Metacritic и пользователями существует общее соглашение о том, какие жанры более популярны (имеют более высокий средний балл) в разные месяцы года. Однако корреляцию между типом популярного жанра и соответствующим месяцем проследить сложно. Например, интуитивно понятно, что жанр ужасов может быть популярен в октябре. Но поскольку уже было замечено, что все жанры представлены в данных неравномерно (существует только одна видеоигра ужасов), такие корреляции могут быть незаметны.

4. Как эта тенденция в жанрах меняется с годами?

Боевики и приключенческие игры в целом оставались популярными (2010–2022 гг.). В 2016–2017 годах наблюдался рост популярности спортивных игр. 2019 и 2020 годы ознаменовались ростом популярности игр в стек и песочниц. И что интересно, японские жанры взяли верх в 2022 году.

5. Какие разработчики стабильно получают самые высокие оценки? Есть ли тенденция в популярных жанрах среди этих разработчиков с высоким рейтингом?

Предыдущий вывод о недавней популярности японских жанров очевиден: две японские студии входят в десятку лучших разработчиков.

6. Разрабатывают ли 10 лучших разработчиков больше игр в определенных жанрах?

Популярность жанров экшн и приключения отражает тот факт, что самые популярные разработчики постоянно сосредотачиваются на этих жанрах, что может быть причиной их высоких рейтингов на Metacritic.

7. Есть ли связь между различными функциями видеоигр и полученными рейтингами?

Тепловая карта предполагает более высокую корреляцию между откровенным сексуальным содержанием и насилием в видеоиграх. Как правило, насилие, кровь и сексуальные темы имеют заметную корреляцию. Более того, эти функции также коррелируют с оценками Metacritic и пользователей. Эта тенденция будет подробно изучена и количественно оценена с помощью машинного обучения.

8. Какие характеристики имеют отрицательную корреляцию с оценками?

Отсутствие дескрипторов, алкоголь, умеренное насилие и кровь отрицательно коррелируют с оценками Metacritic. Таким образом, разработчики могут захотеть избежать этих жанров.

9. Классифицировать игры в соответствии с ESRB (доска рейтинга развлекательного программного обеспечения).

Здесь E для игр, в которые может играть каждый, M для взрослых (17+), T для подростков, а ET для 10+. Создается впечатление, что больше игр для подростков и зрелой аудитории разрабатывается, а для детей меньше. Эта тенденция будет дополнительно изучена в моделях машинного обучения, чтобы увидеть, какие функции определяют рейтинги этих игр.

10. Какой рейтинг ESRB получил самый высокий рейтинг пользователей?

Различные игры с рейтингом ESRB, похоже, имеют одинаковые средние баллы на Metacritic. Таким образом, похоже, что нет никакого предубеждения в отношении определенного рейтинга ESRB.

11. Как изменился рейтинг ESRB за несколько месяцев? Количество игр с рейтингом M продолжает расти?

Заключительная тенденция не фиксируется. Однако один из вопросов, на который мы пытаемся ответить, звучит так: «Жанры игр меняются в зависимости от времени года (например, Хэллоуина). Отражается ли это в наборе данных?» Да, это так. Игры или фильмы, которые выходят во время Хэллоуина, по понятным причинам имеют рейтинг M, а Хэллоуин приходится на октябрь. Мы видим, что эта тенденция достигла пика в октябре для игр с рейтингом M.

Что дальше?

Машинное обучение: после исследовательского анализа данных мы решили обучить нашу модель машинного обучения:

  1. Классифицировать ESRB на основе содержимого игры, используя функции, которые показали значительную (положительную или отрицательную) корреляцию в EDA.
  2. Прогнозируйте баллы Metacritic на основе рейтинга ESRB, жанров и функций.

Эйман Сакиб, Мухаммад Хамза, Харрис Ахмад, Неха Надим, Мааз Овайс