Аналитика больших данных - Методология
С точки зрения методологии, аналитика больших данных существенно отличается от традиционного статистического подхода к планированию экспериментов. Аналитика начинается с данных. Обычно мы моделируем данные таким образом, чтобы объяснить ответ. Цели этого подхода - предсказать поведение отклика или понять, как входные переменные связаны с откликом. Обычно в статистических экспериментальных планах проводится эксперимент, и в результате извлекаются данные. Это позволяет генерировать данные таким образом, чтобы их можно было использовать в статистической модели, где выполняются определенные предположения, такие как независимость, нормальность и рандомизация.
В аналитике больших данных нам представлены данные. Мы не можем разработать эксперимент, который соответствует нашей любимой статистической модели. В крупномасштабных приложениях аналитики большой объем работы (обычно 80% усилий) требуется только для очистки данных, поэтому их можно использовать в модели машинного обучения.
У нас нет уникальной методологии, которой можно было бы следовать в реальных крупномасштабных приложениях. Обычно после определения бизнес-проблемы требуется стадия исследования для разработки методологии, которая будет использоваться. Однако следует упомянуть общие рекомендации, которые применимы почти ко всем проблемам.
Одна из важнейших задач аналитики больших данных - это statistical modeling, что означает контролируемые и неконтролируемые задачи классификации или регрессии. После того, как данные очищены и предварительно обработаны и доступны для моделирования, следует внимательно отнестись к оценке различных моделей с разумными метриками потерь, а затем, когда модель будет реализована, следует сообщить о дальнейшей оценке и результатах. Распространенная ошибка в прогнозном моделировании - просто реализовать модель и никогда не измерять ее производительность.