การรักษาข้อมูลของคุณให้สดใหม่และสะอาดอยู่เสมอ

Nov 29 2022
เพลย์ลิสต์สำหรับ Squeaky Clean Data ฉันใช้วิทยาศาสตร์ข้อมูลและเนื้อหาการวิเคราะห์จำนวนมาก และหนึ่งในประเด็นหลักที่ฉันพบคือไม่มีแบบจำลองใดที่คุณสามารถสร้างได้ซึ่งจะให้ข้อมูลเชิงลึกที่นำไปปฏิบัติได้หากคุณป้อนข้อมูลขยะ อาจารย์คนหนึ่งของฉันถือว่าสิ่งแรกที่มือใหม่ต้องเรียนรู้คือหลักการของ GIGO

เพลย์ลิสต์สำหรับข้อมูลที่สะอาดสะอ้าน

ภาพถ่ายโดย Marcela Laskoski บน Unsplash

ฉันใช้วิทยาศาสตร์ข้อมูลและเนื้อหาการวิเคราะห์จำนวนมาก และหนึ่งในประเด็นสำคัญที่ฉันพบคือไม่มีแบบจำลองใดที่คุณสามารถสร้างได้ซึ่งจะให้ข้อมูลเชิงลึกที่นำไปปฏิบัติได้หากคุณป้อนข้อมูลขยะ อาจารย์คนหนึ่งของฉันถือว่าสิ่งแรกที่มือใหม่ต้องเรียนรู้คือหลักการของ GIGO เขาจะกล่าวอย่างรวบรัดมากขึ้นและบอกว่าจะเป็นการดีกว่าถ้าคุณใช้เวลา 80% ของคุณในการล้างข้อมูลของคุณ แทนที่จะสร้างแบบจำลองเงาที่คุณป้อนขยะ

หลักการ GIGO (Garbage In = Garbage Out) ถือได้ว่าแบบจำลองมีความคล้ายคลึงกับมนุษย์และเป็นสิ่งที่พวกเขาบริโภค ยิ่งไปกว่านั้น หากคุณป้อนข้อมูลที่ไม่ได้รับการขัดเกลาให้กับแบบจำลองของคุณ คุณสามารถคาดหวังได้ว่าเมตริกของคุณจะได้รับผลกระทบจากความไม่ถูกต้องที่ประกอบขึ้นตามไปป์ไลน์ข้อมูลของคุณ

เมื่อคำนึงถึงสิ่งนี้ ฉันจึงสร้างเพลย์ลิสต์เพื่อให้จิตใจมีสมาธิในขณะที่ล้างข้อมูล และคิดว่าอาจมีประโยชน์หากคุณยังใหม่กับการขุดคุ้ยข้อมูลเหมือนฉัน

เริ่มจากข้อมูลที่อยู่ใน.csvรูปแบบไฟล์ และเราได้นำเข้าไลบรารี่และแพ็คเกจการแสดงภาพทั้งหมดที่จำเป็นต่อการสร้างโมเดล

ดังนั้นขั้นตอนแรกโดยทั่วไปของฉันคือการสร้าง data frame dfที่ฉันใช้pd.read_csvสร้าง

df = pd.read_csv('myfile.csv', index_col = 0)

หลังจากที่ฉันมีเฟรมข้อมูลเริ่มต้นแล้ว ฉันจะล้างข้อมูล เพลงเริ่มต้นในรายการของฉันที่ฉันมักจะฟังในขณะที่อ่าน.csvไฟล์และสร้างเฟรมข้อมูลเริ่มต้นของฉันคือ:

โกลเด้นของ Jill Scott

การทำความสะอาดข้อมูล

ในการล้างข้อมูล ฉันมักจะใช้เวลามากมาย:

  • การนำรายการที่ซ้ำออก — รายการที่ซ้ำกันจะใช้พื้นที่ อาจทำให้การนำโมเดลไปใช้ได้ช้าลง และอาจนำไปสู่ข้อมูลเชิงลึกที่ผิดพลาด
  • การแทนที่ค่าที่ขาดหายไป แม้ว่าจะไม่มีวิธีที่เหมาะสมที่สุดในการจัดการกับค่าที่ขาดหายไป แต่การเรียนรู้วิธีจัดการกับค่าที่ขาดหายไปเป็นทักษะที่เนิร์ดข้อมูลควรทำงานเพื่อสร้างเสริม
  • การแทนที่ค่าตัวยึดตำแหน่ง — ตัวยึดตำแหน่งเช่น: '—,' NANs,' ?' และ '#' ทำให้งานเสียหายอย่างต่อเนื่องและนำไปสู่ข้อผิดพลาดทั้งที่มองเห็นและมองไม่เห็นในการวิเคราะห์ หากคุณโชคดี ข้อความแสดงข้อผิดพลาดมีมากมาย หากคุณโชคไม่ดี คุณจะสังเกตเห็นหลังจากพยายามนึกภาพความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระ และได้รับกราฟที่ไม่น่าจะเป็นไปได้อย่างเห็นได้ชัด
  • การส่งประเภทข้อมูลไปยังประเภทข้อมูลที่เหมาะสมกว่า — บ่อยครั้งที่สิ่งนี้ปรากฏขึ้นเมื่อฉันปฏิบัติต่อตัวแปรตามหมวดหมู่อย่างไร้เดียงสา (คิดว่าบางสิ่งที่มีค่าเป็นจำนวนคงที่) ราวกับว่ามันต่อเนื่องกัน (บางสิ่งที่สามารถมีค่าระหว่างค่าต่ำสุดและค่าสูงสุด) .

ฉันดูที่รูปร่างของ data frame ค่อนข้างมากที่ฉันต้องรู้ว่าฉันกำลังทำงานด้วยแถวและคอลัมน์กี่แถวและต้องโต้แย้งเพื่อส่ง เมื่อฉันส่งเสียงร้องถึงนักร้องในตำนานจากฟิลาเดลเฟีย รัฐเพนซิลเวเนีย ฉันใช้สิ่งต่อไปนี้:

  • df.shape— ตรวจสอบขนาดของข้อมูล
  • df.info()— ตรวจสอบสรุปข้อมูลที่กระชับ
  • df.head()— ทบทวนข้อมูลห้าแถวแรก (คุณสามารถเพิ่มตัวเลขนี้ได้โดยการเพิ่มตัวเลข n ภายในวงเล็บ ex df.head(10)จะได้ข้อมูลสิบแถวแรก

หลังจากที่ฉันได้เรียนรู้คุณลักษณะพื้นฐานของข้อมูลแล้ว ฉันจะตรวจสอบเฟรมข้อมูลทั้งหมดเพื่อหาตัวยึด ซึ่งมักจะมีลักษณะดังต่อไปนี้:

df.isin['?', '#', 'NaN', 'null', 'N/A', '-']).any()

โดยปกติแล้วจะเป็นตอนที่ฉันเริ่มฟังศิลปินเร็กเก้สมัยเก่าอย่าง Baby Cham, Capleton และ Sean Paul ซึ่งนำความคิดถึงเกี่ยวกับโปรเจ็กต์สมัยมัธยมของฉันในแล็บฟิสิกส์กับ Mr. Green ผู้มีซาวด์แทร็กเร็กเก้เข้าจังหวะได้ดีที่สุดกลับมา ปลายยุค 90 ทางฝั่งตะวันออกของแถบ New Providence ไม่มีเลย

การทบทวนการเปลี่ยนแปลง

หลังจากระบุตัวยึดตำแหน่งแล้ว ฉันใช้ขั้นตอนแบบนี้ในขณะที่อัดเพลงเร็กเก้แบบเก่า:

df['column_with_placeholder'] = pd.to_numeric(df['column_with_placeholder'], errors = "coerce")

รักษาร่องไป

ฉันมักจะเปลี่ยนไปใช้ South jams ที่สกปรกในขณะที่ลบรายการที่ซ้ำกันและตัดสินใจว่าฉันจะทิ้งแถวจาก data frame ด้วยค่า null หรือแทนที่ด้วยค่ามัธยฐานหรือโหมด ศิลปินที่ฉันชอบในประเภทนั้นมาจาก Dungeon Family

เพลย์ลิสต์ของฉันมักจะมีลักษณะดังนี้:

  1. จิลล์ สก็อตต์ — โกลเด้น
  2. Baby Cham เนื้อเรื่อง Alicia Keys - Ghetto Story
  3. Wayne Wonder - อย่าปล่อยให้ไป
  4. ฌอน พอล — อุณหภูมิ
  5. บีนี่แมน — โรมี
  6. Dungeon Family — เอ็กซ์คาลิเบอร์
  7. Erykah Badu — เปิดและเปิด
  8. Outkast — เฮ้ ย่า!
  9. เอาท์คาสต์ — โรซา พาร์คส์
  10. ลอรีน ฮิลล์ - อดีตปัจจัย

ฉันต้องการสร้างเพลย์ลิสต์ที่มีความยืดหยุ่นและหลากหลายมากขึ้น:

  • ฉันจะใช้วิทยาศาสตร์ข้อมูลเพื่อสร้างเพลย์ลิสต์ที่ดีขึ้นได้อย่างไร
  • ขณะนี้ฉันกำลังทำงานเกี่ยวกับการสร้างเครื่องมือวางแผนการเดินทางเพื่อช่วยในการเดินทางที่กำลังจะมาถึงบาฮามาสเพื่อช่วยเฉลิมฉลอง 50 ปีแห่งการประกาศอิสรภาพของเรา

หากคุณต้องการรับข่าวสารล่าสุดเกี่ยวกับบทความล่าสุดของฉัน โปรดติดตามฉันบนสื่อ คุณสามารถติดต่อกับฉันทางLinkedIn หรือส่งอีเมลถึงฉันที่[email protected]