Agile Data Science - papel das previsões

Neste capítulo, vamos aprender sobre o papel das previsões na ciência de dados ágil. Os relatórios interativos expõem diferentes aspectos dos dados. As previsões formam a quarta camada do sprint ágil.

Ao fazer previsões, sempre nos referimos aos dados anteriores e os usamos como inferências para iterações futuras. Nesse processo completo, fazemos a transição dos dados do processamento em lote de dados históricos para dados em tempo real sobre o futuro.

O papel das previsões inclui o seguinte -

  • As previsões ajudam na previsão. Algumas previsões são baseadas em inferências estatísticas. Algumas das previsões são baseadas em opiniões de especialistas.

  • A inferência estatística está envolvida com previsões de todos os tipos.

  • Às vezes, as previsões são precisas, enquanto às vezes as previsões são imprecisas.

Análise preditiva

A análise preditiva inclui uma variedade de técnicas estatísticas de modelagem preditiva, aprendizado de máquina e mineração de dados que analisam fatos atuais e históricos para fazer previsões sobre eventos futuros e desconhecidos.

A análise preditiva requer dados de treinamento. Os dados treinados incluem recursos independentes e dependentes. Os recursos dependentes são os valores que um usuário está tentando prever. Recursos independentes são recursos que descrevem as coisas que desejamos prever com base em recursos dependentes.

O estudo de recursos é chamado de engenharia de recursos; isso é crucial para fazer previsões. A visualização de dados e a análise exploratória de dados são partes da engenharia de recursos; estes formam o núcleo deAgile data science.

Fazendo previsões

Existem duas maneiras de fazer previsões na ciência de dados ágil -

  • Regression

  • Classification

A construção de uma regressão ou classificação depende completamente dos requisitos de negócios e de sua análise. A previsão da variável contínua leva ao modelo de regressão e a previsão das variáveis ​​categóricas leva ao modelo de classificação.

Regressão

A regressão considera exemplos que compreendem recursos e, portanto, produz uma saída numérica.

Classificação

A classificação recebe a entrada e produz uma classificação categórica.

Note - O conjunto de dados de exemplo que define a entrada para a previsão estatística e que permite que a máquina aprenda é chamado de “dados de treinamento”.