การรักษาข้อมูลของคุณให้สดใหม่และสะอาดอยู่เสมอ
เพลย์ลิสต์สำหรับข้อมูลที่สะอาดสะอ้าน
ฉันใช้วิทยาศาสตร์ข้อมูลและเนื้อหาการวิเคราะห์จำนวนมาก และหนึ่งในประเด็นสำคัญที่ฉันพบคือไม่มีแบบจำลองใดที่คุณสามารถสร้างได้ซึ่งจะให้ข้อมูลเชิงลึกที่นำไปปฏิบัติได้หากคุณป้อนข้อมูลขยะ อาจารย์คนหนึ่งของฉันถือว่าสิ่งแรกที่มือใหม่ต้องเรียนรู้คือหลักการของ GIGO เขาจะกล่าวอย่างรวบรัดมากขึ้นและบอกว่าจะเป็นการดีกว่าถ้าคุณใช้เวลา 80% ของคุณในการล้างข้อมูลของคุณ แทนที่จะสร้างแบบจำลองเงาที่คุณป้อนขยะ
หลักการ GIGO (Garbage In = Garbage Out) ถือได้ว่าแบบจำลองมีความคล้ายคลึงกับมนุษย์และเป็นสิ่งที่พวกเขาบริโภค ยิ่งไปกว่านั้น หากคุณป้อนข้อมูลที่ไม่ได้รับการขัดเกลาให้กับแบบจำลองของคุณ คุณสามารถคาดหวังได้ว่าเมตริกของคุณจะได้รับผลกระทบจากความไม่ถูกต้องที่ประกอบขึ้นตามไปป์ไลน์ข้อมูลของคุณ
เมื่อคำนึงถึงสิ่งนี้ ฉันจึงสร้างเพลย์ลิสต์เพื่อให้จิตใจมีสมาธิในขณะที่ล้างข้อมูล และคิดว่าอาจมีประโยชน์หากคุณยังใหม่กับการขุดคุ้ยข้อมูลเหมือนฉัน
เริ่มจากข้อมูลที่อยู่ใน.csv
รูปแบบไฟล์ และเราได้นำเข้าไลบรารี่และแพ็คเกจการแสดงภาพทั้งหมดที่จำเป็นต่อการสร้างโมเดล
ดังนั้นขั้นตอนแรกโดยทั่วไปของฉันคือการสร้าง data frame df
ที่ฉันใช้pd.read_csv
สร้าง
df = pd.read_csv('myfile.csv', index_col = 0)
หลังจากที่ฉันมีเฟรมข้อมูลเริ่มต้นแล้ว ฉันจะล้างข้อมูล เพลงเริ่มต้นในรายการของฉันที่ฉันมักจะฟังในขณะที่อ่าน.csv
ไฟล์และสร้างเฟรมข้อมูลเริ่มต้นของฉันคือ:
โกลเด้นของ Jill Scott
การทำความสะอาดข้อมูล
ในการล้างข้อมูล ฉันมักจะใช้เวลามากมาย:
- การนำรายการที่ซ้ำออก — รายการที่ซ้ำกันจะใช้พื้นที่ อาจทำให้การนำโมเดลไปใช้ได้ช้าลง และอาจนำไปสู่ข้อมูลเชิงลึกที่ผิดพลาด
- การแทนที่ค่าที่ขาดหายไป แม้ว่าจะไม่มีวิธีที่เหมาะสมที่สุดในการจัดการกับค่าที่ขาดหายไป แต่การเรียนรู้วิธีจัดการกับค่าที่ขาดหายไปเป็นทักษะที่เนิร์ดข้อมูลควรทำงานเพื่อสร้างเสริม
- การแทนที่ค่าตัวยึดตำแหน่ง — ตัวยึดตำแหน่งเช่น: '—,' NANs,' ?' และ '#' ทำให้งานเสียหายอย่างต่อเนื่องและนำไปสู่ข้อผิดพลาดทั้งที่มองเห็นและมองไม่เห็นในการวิเคราะห์ หากคุณโชคดี ข้อความแสดงข้อผิดพลาดมีมากมาย หากคุณโชคไม่ดี คุณจะสังเกตเห็นหลังจากพยายามนึกภาพความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระ และได้รับกราฟที่ไม่น่าจะเป็นไปได้อย่างเห็นได้ชัด
- การส่งประเภทข้อมูลไปยังประเภทข้อมูลที่เหมาะสมกว่า — บ่อยครั้งที่สิ่งนี้ปรากฏขึ้นเมื่อฉันปฏิบัติต่อตัวแปรตามหมวดหมู่อย่างไร้เดียงสา (คิดว่าบางสิ่งที่มีค่าเป็นจำนวนคงที่) ราวกับว่ามันต่อเนื่องกัน (บางสิ่งที่สามารถมีค่าระหว่างค่าต่ำสุดและค่าสูงสุด) .
ฉันดูที่รูปร่างของ data frame ค่อนข้างมากที่ฉันต้องรู้ว่าฉันกำลังทำงานด้วยแถวและคอลัมน์กี่แถวและต้องโต้แย้งเพื่อส่ง เมื่อฉันส่งเสียงร้องถึงนักร้องในตำนานจากฟิลาเดลเฟีย รัฐเพนซิลเวเนีย ฉันใช้สิ่งต่อไปนี้:
df.shape
— ตรวจสอบขนาดของข้อมูลdf.info()
— ตรวจสอบสรุปข้อมูลที่กระชับdf.head()
— ทบทวนข้อมูลห้าแถวแรก (คุณสามารถเพิ่มตัวเลขนี้ได้โดยการเพิ่มตัวเลข n ภายในวงเล็บ exdf.head(10)
จะได้ข้อมูลสิบแถวแรก
หลังจากที่ฉันได้เรียนรู้คุณลักษณะพื้นฐานของข้อมูลแล้ว ฉันจะตรวจสอบเฟรมข้อมูลทั้งหมดเพื่อหาตัวยึด ซึ่งมักจะมีลักษณะดังต่อไปนี้:
df.isin['?', '#', 'NaN', 'null', 'N/A', '-']).any()
โดยปกติแล้วจะเป็นตอนที่ฉันเริ่มฟังศิลปินเร็กเก้สมัยเก่าอย่าง Baby Cham, Capleton และ Sean Paul ซึ่งนำความคิดถึงเกี่ยวกับโปรเจ็กต์สมัยมัธยมของฉันในแล็บฟิสิกส์กับ Mr. Green ผู้มีซาวด์แทร็กเร็กเก้เข้าจังหวะได้ดีที่สุดกลับมา ปลายยุค 90 ทางฝั่งตะวันออกของแถบ New Providence ไม่มีเลย
การทบทวนการเปลี่ยนแปลง
หลังจากระบุตัวยึดตำแหน่งแล้ว ฉันใช้ขั้นตอนแบบนี้ในขณะที่อัดเพลงเร็กเก้แบบเก่า:
df['column_with_placeholder'] = pd.to_numeric(df['column_with_placeholder'], errors = "coerce")
รักษาร่องไป
ฉันมักจะเปลี่ยนไปใช้ South jams ที่สกปรกในขณะที่ลบรายการที่ซ้ำกันและตัดสินใจว่าฉันจะทิ้งแถวจาก data frame ด้วยค่า null หรือแทนที่ด้วยค่ามัธยฐานหรือโหมด ศิลปินที่ฉันชอบในประเภทนั้นมาจาก Dungeon Family
เพลย์ลิสต์ของฉันมักจะมีลักษณะดังนี้:
- จิลล์ สก็อตต์ — โกลเด้น
- Baby Cham เนื้อเรื่อง Alicia Keys - Ghetto Story
- Wayne Wonder - อย่าปล่อยให้ไป
- ฌอน พอล — อุณหภูมิ
- บีนี่แมน — โรมี
- Dungeon Family — เอ็กซ์คาลิเบอร์
- Erykah Badu — เปิดและเปิด
- Outkast — เฮ้ ย่า!
- เอาท์คาสต์ — โรซา พาร์คส์
- ลอรีน ฮิลล์ - อดีตปัจจัย
ฉันต้องการสร้างเพลย์ลิสต์ที่มีความยืดหยุ่นและหลากหลายมากขึ้น:
- ฉันจะใช้วิทยาศาสตร์ข้อมูลเพื่อสร้างเพลย์ลิสต์ที่ดีขึ้นได้อย่างไร
- ขณะนี้ฉันกำลังทำงานเกี่ยวกับการสร้างเครื่องมือวางแผนการเดินทางเพื่อช่วยในการเดินทางที่กำลังจะมาถึงบาฮามาสเพื่อช่วยเฉลิมฉลอง 50 ปีแห่งการประกาศอิสรภาพของเรา
หากคุณต้องการรับข่าวสารล่าสุดเกี่ยวกับบทความล่าสุดของฉัน โปรดติดตามฉันบนสื่อ คุณสามารถติดต่อกับฉันทางLinkedIn หรือส่งอีเมลถึงฉันที่[email protected]