Ilmu Data Agile - Peran Prediksi

Dalam bab ini, kita akan mempelajari peran prediksi dalam ilmu data tangkas. Laporan interaktif memperlihatkan berbagai aspek data. Prediksi membentuk lapisan keempat dari sprint tangkas.

Saat membuat prediksi, kami selalu mengacu pada data masa lalu dan menggunakannya sebagai kesimpulan untuk iterasi di masa mendatang. Dalam proses lengkap ini, kami mentransisikan data dari pemrosesan batch data historis ke data waktu nyata tentang masa depan.

Peran prediksi meliputi:

  • Prediksi membantu dalam peramalan. Beberapa perkiraan didasarkan pada kesimpulan statistik. Beberapa prediksi didasarkan pada pendapat para pakar.

  • Inferensi statistik terlibat dengan semua jenis prediksi.

  • Terkadang prakiraan akurat, sementara terkadang prakiraan tidak akurat.

Analisis Prediktif

Analisis prediktif mencakup berbagai teknik statistik dari pemodelan prediktif, pembelajaran mesin, dan penggalian data yang menganalisis fakta terkini dan historis untuk membuat prediksi tentang peristiwa yang akan datang dan tidak diketahui.

Analisis prediktif membutuhkan data pelatihan. Data yang dilatih mencakup fitur independen dan dependen. Fitur dependen adalah nilai yang coba diprediksi oleh pengguna. Fitur independen adalah fitur yang menjelaskan hal-hal yang ingin kita prediksi berdasarkan fitur dependen.

Studi tentang fitur disebut rekayasa fitur; ini penting untuk membuat prediksi. Visualisasi data dan analisis data eksplorasi adalah bagian dari rekayasa fitur; ini membentuk intiAgile data science.

Membuat Prediksi

Ada dua cara untuk membuat prediksi dalam ilmu data agile -

  • Regression

  • Classification

Membangun regresi atau klasifikasi sepenuhnya bergantung pada persyaratan bisnis dan analisisnya. Prediksi variabel kontinu mengarah ke model regresi dan prediksi variabel kategori mengarah ke model klasifikasi.

Regresi

Regresi mempertimbangkan contoh yang terdiri dari fitur dan dengan demikian, menghasilkan keluaran numerik.

Klasifikasi

Klasifikasi mengambil masukan dan menghasilkan klasifikasi kategoris.

Note - Contoh set data yang menentukan input ke prediksi statistik dan yang memungkinkan mesin untuk belajar disebut "data pelatihan".