लापता आँकड़े?
हम सभी उस भावना को जानते हैं - अंत में आपको एक रसदार डेटा सेट पर अपना हाथ मिलता है, जो कुछ छिपी हुई अंतर्दृष्टि को उजागर करने के लिए तैयार होता है, केवल यह पता लगाने के लिए कि यह लापता मूल्यों से भरा हुआ है। यहां तक कि सबसे अनुभवी विश्लेषक भी अपने बालों को बाहर निकालना चाहते हैं! सौभाग्य से हमारे लिए, डेटा विश्लेषण शस्त्रागार में एक शक्तिशाली उपकरण है जो इस बाधा को दूर करने में मदद कर सकता है - इटरेटिव इम्प्यूटेशन।
इटरेटिव इंप्यूटेशन उपलब्ध डेटा के आधार पर अनुमानों के साथ लापता डेटा बिंदुओं को भरने की प्रक्रिया है, और यह विश्लेषण के लिए गेम-चेंजर हो सकता है।
शुरुआती लोगों के लिए इस व्यावहारिक मार्गदर्शिका में, हम सबसे प्रभावी और उपयोगकर्ता के अनुकूल इंप्यूटेशन तकनीकों में से एक में गहराई से गोता लगाएंगे - पुनरावृत्त इम्प्यूटेशन । चाहे आप एक अनुभवी विशेषज्ञ हों या अभी-अभी अपनी डेटा विश्लेषण यात्रा शुरू कर रहे हों, यह मार्गदर्शिका आपको अपने विश्लेषण को बेहतर बनाने और अपने डेटा का अधिकतम लाभ उठाने के लिए आवश्यक ज्ञान और उपकरण प्रदान करेगी।
इस ट्यूटोरियल में, हम कैलिफ़ोर्निया हाउसिंग प्राइस डेटासेट नामक डेटासेट के साथ काम करेंगे । यह डेटासेट लोगों को मशीन लर्निंग एल्गोरिदम के बारे में जानने में मदद करने के लिए कागल द्वारा बनाया गया था। हालाँकि, हमने इस ट्यूटोरियल के लिए अपनी आवश्यकताओं के अनुरूप डेटासेट में कुछ बदलाव किए हैं। यदि आप इस ट्यूटोरियल का अनुसरण करना चाहते हैं और उसी डेटासेट का उपयोग करना चाहते हैं जिसका हम उपयोग कर रहे हैं, तो आप इस लिंक से संशोधित संस्करण डाउनलोड कर सकते हैं ।
# Packages
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import random
# Read Data
data1 = pd.read_csv("California_Housing_Data_Part1.csv")
print(data1.head(5))
# About 300 random indices were chosen
indices = random.sample(range(len(data1)), 300)
# Indices were utilized to replace values with NaN
data1.loc[indices, 'median_house_value'] = np.nan
# Check Null values
data1.info()
# Standardize dataset
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
data1[data1.columns] = scaler.fit_transform(data1[data1.columns])
print(data1.head(5))
# Visualization - Before Imputation
# Bar Plot for Missing Values in each column
plt.figure(figsize=(15, 8))
sns.heatmap(data1.isnull(), cmap='viridis', cbar_kws={'ticks': [0, 1]}, vmin=0, vmax=1)
plt.title('Heat Map Describing Missing Data')
plt.xlabel('Dataset Columns')
plt.ylabel('Observation/Index values')
plt.show()
# Line Plot for Missing Values Column
plt.figure(figsize=(15, 8))
plt.plot(data1['median_house_value'], label='Median House Value', linewidth=2, color = 'Green')
plt.xlabel('Index Values')
plt.ylabel('Median House Value')
plt.title('Line Plot Describing Median House Data')
plt.show()
For the heatmap, a value of 1 (Yellow) indicates a Null value, while a value of 0 (Purple) indicates Non-Null.
इटरेटिव इम्प्यूटेशन एक उन्नत विधि है, जिसमें गैर-अनुपलब्ध मूल्यों के आधार पर एक मॉडल बनाकर और फिर उस मॉडल का उपयोग करके लापता मूल्यों की भविष्यवाणी करने के लिए डेटासेट में लापता मूल्यों को भरना है। डिफ़ॉल्ट रूप से, Iterative Imputation इस मॉडल को बनाने के लिए 'BayesianRidge' आकलनकर्ता का उपयोग करता है, लेकिन अन्य अनुमानकों जैसे रैखिक प्रतिगमन, ElasticNet, और अन्य का उपयोग करना भी संभव है। दस्तावेज़ीकरण जांचें !
# Iterative Imputer from Scikit-learn
from sklearn.impute import IterativeImputer
# Setup the Imputer and perform Imputation
imputer = IterativeImputer()
data1[data1.columns] = imputer.fit_transform(data1[data1.columns])
data1.info()
लेकिन, क्या ये नए मूल्य उचित हैं? क्या वे डेटा के अनुसार समझ में आता है? हम जाँच करने के लिए एक बार फिर से विज़ुअलाइज़ेशन करते हैं!
# Visualization - After Imputation
# Bar Plot for Missing Values in each column
plt.figure(figsize=(15, 8))
sns.heatmap(data1.isnull(), cmap='viridis', cbar_kws={'ticks': [0, 1]}, vmin=0, vmax=1)
plt.title('Heat Map Describing Missing Data')
plt.xlabel('Dataset Columns')
plt.ylabel('Observation/Index values')
plt.show()
# Line Plot for Missing Values Column
plt.figure(figsize=(15, 8))
plt.plot(data1['median_house_value'], label='Median House Value', linewidth=2, color = 'Green')
plt.xlabel('Index Values')
plt.ylabel('Median House Value')
plt.title('Line Plot Describing Median House Data')
plt.show()
For the heatmap, a value of 1 (Yellow) indicates a Null value, while a value of 0 (Purple) indicates Non-Null.
स्रोत कोड यहां पाया जा सकता है ।