Agile Data Science - papel das previsões
Neste capítulo, vamos aprender sobre o papel das previsões na ciência de dados ágil. Os relatórios interativos expõem diferentes aspectos dos dados. As previsões formam a quarta camada do sprint ágil.
Ao fazer previsões, sempre nos referimos aos dados anteriores e os usamos como inferências para iterações futuras. Nesse processo completo, fazemos a transição dos dados do processamento em lote de dados históricos para dados em tempo real sobre o futuro.
O papel das previsões inclui o seguinte -
As previsões ajudam na previsão. Algumas previsões são baseadas em inferências estatísticas. Algumas das previsões são baseadas em opiniões de especialistas.
A inferência estatística está envolvida com previsões de todos os tipos.
Às vezes, as previsões são precisas, enquanto às vezes as previsões são imprecisas.
Análise preditiva
A análise preditiva inclui uma variedade de técnicas estatísticas de modelagem preditiva, aprendizado de máquina e mineração de dados que analisam fatos atuais e históricos para fazer previsões sobre eventos futuros e desconhecidos.
A análise preditiva requer dados de treinamento. Os dados treinados incluem recursos independentes e dependentes. Os recursos dependentes são os valores que um usuário está tentando prever. Recursos independentes são recursos que descrevem as coisas que desejamos prever com base em recursos dependentes.
O estudo de recursos é chamado de engenharia de recursos; isso é crucial para fazer previsões. A visualização de dados e a análise exploratória de dados são partes da engenharia de recursos; estes formam o núcleo deAgile data science.
Fazendo previsões
Existem duas maneiras de fazer previsões na ciência de dados ágil -
Regression
Classification
A construção de uma regressão ou classificação depende completamente dos requisitos de negócios e de sua análise. A previsão da variável contínua leva ao modelo de regressão e a previsão das variáveis categóricas leva ao modelo de classificação.
Regressão
A regressão considera exemplos que compreendem recursos e, portanto, produz uma saída numérica.
Classificação
A classificação recebe a entrada e produz uma classificação categórica.
Note - O conjunto de dados de exemplo que define a entrada para a previsão estatística e que permite que a máquina aprenda é chamado de “dados de treinamento”.