Menjaga Data Anda Tetap Segar dan Bersih

Nov 29 2022

Daftar Putar untuk Data Bersih yang Mendecit Saya telah mengonsumsi banyak ilmu data dan konten analisis, dan salah satu kesimpulan utama yang saya temukan adalah bahwa tidak ada model yang dapat Anda bangun yang akan menghasilkan wawasan yang dapat ditindaklanjuti jika Anda memberinya data sampah. Salah satu instruktur saya berpendapat bahwa hal pertama yang perlu dipelajari pemula adalah prinsip GIGO.

Daftar Putar untuk Data Bersih yang Melengking

Foto oleh Marcela Laskoski di Unsplash

Saya telah mengonsumsi banyak ilmu data dan konten analisis, dan salah satu kesimpulan utama yang saya temukan adalah bahwa tidak ada model yang dapat Anda buat yang akan menghasilkan wawasan yang dapat ditindaklanjuti jika Anda memberinya data sampah. Salah satu instruktur saya berpendapat bahwa hal pertama yang perlu dipelajari pemula adalah prinsip GIGO. Yah, dia akan mengatakannya dengan lebih ringkas dan mengatakan bahwa akan lebih baik menghabiskan 80% waktu Anda untuk membersihkan data Anda daripada membuat model mengkilap yang Anda beri makan Sampah.

Prinsip GIGO (Garbage In = Garbage Out) menyatakan bahwa model serupa dengan manusia dan apa yang mereka konsumsi. Selain itu, jika Anda memasukkan data yang tidak dimurnikan ke model Anda, Anda dapat mengharapkan metrik Anda dikurangi oleh ketidakakuratan yang digabungkan di sepanjang saluran data Anda.

Dengan mengingat hal ini, saya membuat daftar putar agar pikiran saya tetap fokus saat membersihkan data dan berpikir bahwa Anda mungkin merasa terbantu jika Anda baru menggali data seperti saya.

Mari kita mulai dengan data dalam .csvformat file, dan kita juga telah mengimpor semua pustaka dan paket visualisasi yang diperlukan untuk membuat model.

Jadi langkah pertama saya yang khas adalah membuat kerangka data yang disebut dfyang saya gunakan pd.read_csvuntuk membuat.

df = pd.read_csv('myfile.csv', index_col = 0)

Setelah saya memiliki bingkai data awal, saya membersihkan data. Lagu awal dalam daftar saya yang biasanya saya dengarkan saat membaca .csvfile dan membuat bingkai data awal saya adalah:

Emas Jill Scott

Membersihkan Data

Untuk membersihkan data, saya sering menghabiskan banyak waktu:

Menghapus Duplikat — duplikat menghabiskan ruang, dapat memperlambat penerapan model, dan dapat menyebabkan kesalahan wawasan.
Mengganti Nilai yang Hilang — meskipun tidak ada cara optimal untuk menangani nilai yang hilang, mempelajari cara menangani nilai yang hilang adalah keterampilan yang harus dikembangkan oleh kutu buku data pemula.
Mengganti nilai Placeholder — placeholder seperti: '—,' NAN,' ?', dan '#' secara konsisten mengotori pekerjaan dan menyebabkan kesalahan baik yang terlihat maupun yang tidak terlihat dalam analisis. Jika Anda beruntung, banyak pesan kesalahan; jika Anda sangat tidak beruntung, Anda menyadarinya setelah mencoba memvisualisasikan korelasi antara variabel dependen dan independen dan mendapatkan grafik yang sangat tidak mungkin.
Mentransmisikan tipe data ke tipe data yang lebih sesuai —Seringkali, ini muncul ketika saya secara naif memperlakukan variabel kategori (pikirkan sesuatu dengan jumlah nilai tetap) seolah-olah itu kontinu (sesuatu yang dapat memiliki nilai antara minimum dan maksimum) .

Saya melihat bentuk bingkai data, cukup banyak yang perlu saya ketahui berapa banyak baris dan kolom yang saya kerjakan dan perlu berselisih untuk pengiriman. Saat saya mendengarkan vokalis legendaris dari Philadelphia, Pennsylvania, saya menggunakan yang berikut ini:

df.shape— Tinjau dimensi data
df.info()- Tinjau ringkasan singkat dari data
df.head()— Tinjau lima baris pertama dari data (Anda dapat menambah angka ini dengan menambahkan angka n di dalam tanda kurung ex df.head(10)akan menghasilkan sepuluh baris pertama dari data.

Setelah saya mempelajari fitur dasar data, saya memeriksa seluruh bingkai data untuk placeholder, seringkali dengan tampilan seperti berikut:

df.isin['?', '#', 'NaN', 'null', 'N/A', '-']).any()

Ini biasanya ketika saya mulai mendengarkan Artis Reggae jadul seperti Baby Cham, Capleton, dan Sean Paul, yang membawa kembali nostalgia proyek sekolah menengah saya di lab fisika bersama Mr. Green, yang memiliki soundtrack reggae ritmis terbaik di akhir tahun 90-an di East Side of New Providence tidak ada yang melarang.

Meninjau Perubahan

Setelah mengidentifikasi placeholder, saya menggunakan langkah-langkah seperti ini saat nge-jam ke Reggae jadul:

df['column_with_placeholder'] = pd.to_numeric(df['column_with_placeholder'], errors = "coerce")

Menjaga Alur Tetap Berjalan

Saya biasanya beralih ke kemacetan Selatan yang kotor sambil menghapus duplikat dan memutuskan apakah saya akan menghapus baris dari bingkai data dengan nilai nol atau menggantinya dengan median atau mode. Artis favorit saya dalam genre itu berasal dari Keluarga Dungeon.

Daftar putar saya biasanya terlihat seperti ini:

Jill Scott — Emas
Baby Cham menampilkan Alicia Keys — Kisah Ghetto
Wayne Wonder - Tidak Melepaskan
Sean Paul — Temperatur
Beenie Man— Romie
Keluarga Penjara Bawah Tanah — Excalibur
Erykah Badu — Terus dan terus
Outkast - Hei Ya!
Outkast — Taman Rosa
Lauryn Hill — Ex Factor

Saya ingin membuat lebih banyak fleksibilitas dan variasi daftar putar saya:

Bagaimana cara menggunakan ilmu data untuk membuat daftar putar yang lebih baik?

Saat ini saya sedang mengerjakan pembuatan alat perencanaan perjalanan untuk membantu perjalanan saya yang akan datang ke Bahama untuk membantu merayakan 50 tahun Kemerdekaan kita.

Jika Anda ingin diperbarui dengan artikel terbaru saya, ikuti saya di Medium . Anda juga dapat terhubung dengan saya di LinkedIn atau email saya di [email protected].