ของข้อมูล

ข้อมูลคืออะไร?
ข้อมูล กล่าวอย่างง่าย ๆ คือการรวบรวมข้อเท็จจริงเกี่ยวกับบางสิ่งบางอย่าง นั่นคือ เรารวบรวมคำ ตัวเลข การวัด การสังเกต และ/หรือคำอธิบายที่เกี่ยวข้องกับปัญหาที่เราอาจสนใจหรือส่วนประกอบของปัญหา จากนั้นนำเสนอในรูปแบบที่ช่วยให้เราเข้าใจปัญหาได้เร็วขึ้น โดยทั่วไปงานนำเสนอนี้จะเป็นตารางซึ่งข้อเท็จจริงจะถูกจัดเรียงตามสิ่งที่พวกเขาพยายามสื่อเกี่ยวกับปัญหาที่เราสนใจ ประเภทที่พวกเขาสนใจ ฯลฯ ซึ่งทำให้อ่านได้ง่ายกว่าคำและตัวเลขจำนวนมากที่สับสน และโยนลงบนหน้า
ข้อมูลและข้อมูล:
คำว่า 'ข้อมูล' มักจะใช้แทนกันได้กับ 'ข้อมูล' เมื่อเรากำลังสนทนาในชีวิตประจำวัน — ข้อมูลบางชนิด นำเสนอในลักษณะบางอย่าง ฯลฯ แต่ไม่คำนึงถึงข้อมูล อย่างไรก็ตาม มีความแตกต่างกันเล็กน้อยในความหมายของคำสองคำนี้ ข้อมูลโดยตัวของมันเองนั้นไม่ได้รับการขัดเกลาและดิบ และเราจำเป็นต้องประมวลผลเพิ่มเติมก่อนที่เราจะสามารถดึงข้อมูลเชิงลึกจากข้อมูลนั้นได้
อย่างไรก็ตามข้อมูลคือข้อมูลที่ได้รับการประมวลผล จัดระเบียบ และให้บริบท ข้อมูลขึ้นอยู่กับข้อมูล (กล่าวคือจะไม่มีข้อมูลหากไม่มีข้อมูล) และโดยทั่วไปเพียงพอในการตัดสินใจ เราสามารถดึงข้อมูลเชิงลึกที่แท้จริงจากข้อมูลและทำการตัดสินใจตามข้อมูลเชิงลึกเหล่านี้ ซึ่งไม่สามารถทำได้จากข้อมูลในรูปแบบที่ดิบที่สุด
ตัวอย่างเช่น แผนกธุรการของมหาวิทยาลัยทั่วไปจะมีประวัติของนักเรียน ระดับปริญญาและหลักสูตรที่ลงทะเบียนเรียน ประวัติการศึกษา เกรดปัจจุบัน ปีที่คาดว่าจะสำเร็จการศึกษา การเข้าห้องเรียน (หากติดตาม) กิจกรรมนอกห้องเรียน เช่นการเป็นสมาชิกสโมสรนักศึกษา ฯลฯ บันทึกทั้งหมดนี้จะรวมกันเป็นข้อมูล กล่าว คือกองและกองข้อเท็จจริงเกี่ยวกับตัวนักศึกษาในความรุ่งโรจน์ที่ยังไม่ได้ประมวลผลทั้งหมดของพวกเขา
อย่างไรก็ตาม หากบริษัทต้องการจ้างนักศึกษาในการฝึกงานในวิทยาเขต บริษัทจำเป็นต้องทราบข้อมูลบางอย่างเกี่ยวกับพวกเขา ซึ่งจะสื่อสารกับมหาวิทยาลัย ตอนนี้มหาวิทยาลัยไม่สามารถส่งข้อมูลนักศึกษาได้เหมือนที่เป็นอยู่ พวกเขาจำเป็นต้องจัดเรียงข้อมูลและระบุเฉพาะสิ่งที่เกี่ยวข้องกับการขับเคลื่อนตำแหน่ง ตัวอย่างเช่น รายชื่อนักศึกษาที่คาดว่าจะสำเร็จการศึกษาในปีนั้น คุณสมบัติและประสบการณ์งาน (ถ้ามี) ผลการเรียน ที่ไม่ใช่ด้านวิชาการ ประสิทธิภาพการทำงาน ฯลฯ ข้อมูลที่ส่งไปยังบริษัทได้รับการประมวลผล วิเคราะห์ และวางในบริบท ทำให้เป็นข้อมูล
แผนกธุรการของมหาวิทยาลัยโดยทั่วไปมักจะไม่ทิ้งข้อมูลไว้เฉยๆ อย่างน้อยก็จัดเรียง ประมวลผล และดึงข้อมูลเชิงลึกจากข้อมูลนั้น มหาวิทยาลัยมักจะมีข้อมูลบางอย่างเกี่ยวกับนักศึกษาอยู่ในมือ เพื่อใช้ได้ทันทีเมื่อมีความจำเป็น ซึ่งหมายความว่า กระบวนการแบ่งปันข้อมูลกับบริษัทต่างๆ ที่สนใจว่าจ้างนักศึกษามักจะเร็วกว่าที่ตัวอย่างข้างต้นแนะนำ
การแสดงข้อมูลเป็นตาราง:
เรามักจะนำข้อมูลมาวิเคราะห์ในรูปแบบของตารางเพื่อจัดระเบียบข้อมูลตามลักษณะเฉพาะ ตารางคือการจัดเรียงข้อมูลเป็นรูปสี่เหลี่ยมผืนผ้าโดยมีแถวและคอลัมน์ที่มีความหมายเฉพาะ ตัวอย่างเช่น สมมติว่าร้านขายจักรยานขายจักรยานสิบคันในวันหนึ่งๆ และเจ้าของบันทึกชื่อลูกค้าแต่ละรายที่ซื้อจักรยาน รุ่นของจักรยานที่ซื้อและราคา เขาจะจัดระเบียบข้อมูลในลักษณะนี้เพื่อให้อ้างอิงได้ง่ายขึ้นในภายหลัง:

อาร์เรย์แนวนอนแต่ละแถวในตารางคือแถว แสดงถึงข้อสังเกตหรือกรณีในข้อมูล เช่น การขายแต่ละรายการจากร้านขายจักรยาน และคุณลักษณะทั้งหมดสำหรับการขายนั้น: ใครซื้อจักรยาน รุ่นและราคา ถ้าคนสิบคนมาซื้อจักรยานจากร้านนี้ จะมีสิบแถว
ในขณะเดียวกัน อาร์เรย์แนวตั้งแต่ละรายการในตารางจะเรียกว่าคอลัมน์หรือตัวแปร กล่าวคือ เราคาดว่าจะพบค่าที่แตกต่างกันสำหรับแอตทริบิวต์ทั่วไปของคลาส ตัวอย่างเช่น ตารางด้านบนมีหนึ่งคอลัมน์สำหรับลูกค้าที่ซื้อมอเตอร์ไซค์ หนึ่งคอลัมน์สำหรับ รุ่นและหนึ่งสำหรับราคา หากจักรยานยนต์เหล่านี้มีคุณสมบัติที่เหมือนกันมากกว่า ตารางจะแสดงเป็นคอลัมน์
ตารางเรียกอีกอย่างว่ากรอบข้อมูลหรือชุดข้อมูล และต่อมาสามารถใช้สร้างกราฟและรูปภาพได้ ซึ่งช่วยให้เข้าใจได้ง่ายขึ้นสำหรับผู้ที่ไม่มีประสบการณ์ในการอ่านตาราง (หรือแม้แต่นักวิทยาศาสตร์ข้อมูลที่ต้องการเข้าใจว่าข้อมูลของพวกเขามีลักษณะอย่างไรใน แวบเดียวก่อนที่จะเข้าสู่การวิเคราะห์ข้อมูลที่ซับซ้อนมากขึ้น)
ประเภทของตัวแปร:
ตัวแปรในตารางสามารถเป็นหนึ่งในสองประเภทพื้นฐาน โดยขึ้นอยู่กับชนิดของค่าที่เก็บไว้:
- ตัวแปรเชิงปริมาณซึ่งเก็บเฉพาะค่าตัวเลข ดังนั้นค่าบางค่าจึงมากกว่าค่าอื่น ซึ่งแสดงถึงความแตกต่างเชิงปริมาณในเชิงขนาด
นอกจากนี้ การสังเกตที่มีค่าใกล้เคียงกันคาดว่าจะมีคุณสมบัติใกล้เคียงกัน นั่นคือ ถ้านักเรียนสองคนมีคะแนนใกล้เคียงกัน คนหนึ่งอาจคาดว่าพวกเขาใช้เวลาเรียนเท่ากัน เป็นต้น - ตัวแปรเชิงคุณภาพ/เชิงหมวดหมู่ซึ่งคาดว่าค่าของตัวแปรจะอยู่ในชุดของหมวดหมู่ที่จำกัด เช่น ปีที่นักศึกษาคาดว่าจะสำเร็จการศึกษา หรือพำนักอยู่ในหอพักของมหาวิทยาลัยหรือไม่ เป็นต้น
โดยทั่วไปแล้ว ตัวแปรตามหมวดหมู่จะไม่อนุญาตให้จัดลำดับ/จัดลำดับที่ชัดเจนระหว่างหมวดหมู่ นั่นคือ นักศึกษาที่สำเร็จการศึกษาในปี 2022 ไม่มีทางที่จะเหนือกว่านักศึกษาที่สำเร็จการศึกษาในปี 2023 โดยพิจารณาจากปีที่สำเร็จการศึกษาเพียงอย่างเดียว
อย่างไรก็ตาม มีประเภทย่อยของตัวแปรหมวดหมู่ ซึ่งเรียกว่าตัวแปรหมวดหมู่ตามคำสั่งที่อนุญาตให้มีการจัดอันดับระหว่างหมวดหมู่ ตัวอย่างเช่น นักเรียนอาจได้อันดับหนึ่ง สองหรือสามในชั้นเรียนของพวกเขา อย่างไรก็ตาม ไม่มีขนาดคงที่และวัดค่าได้ระหว่างอันดับเหล่านี้ นั่นคือความแตกต่างระหว่างอันดับที่หนึ่งและอันดับที่สองอาจไม่เหมือนกับความแตกต่างระหว่างอันดับที่สองและอันดับที่สาม นอกจากนี้ ความแตกต่างระหว่างอันดับที่หนึ่งและสองในคลาสหนึ่งอาจไม่เหมือนกับความแตกต่างระหว่างอันดับที่หนึ่งและสองในอีกคลาสหนึ่ง
เป็นเพียงว่านักเรียนที่ได้อันดับหนึ่งมีผลการเรียนในชั้นเรียนดีกว่านักเรียนที่ได้อันดับสอง ซึ่งในทางกลับกันก็มีผลการเรียนดีกว่านักเรียนที่ได้อันดับสาม
เมื่อเราต้องการวิเคราะห์ข้อมูลใน python อันดับแรก เราต้องการนำข้อมูลของเราเข้าสู่คอมไพเลอร์ (ในกรณีของฉันคือ Jupyter Notebook) เราสามารถทำได้สองวิธี:
- สร้างตารางด้วยตนเอง:
ที่นี่เราป้อนข้อมูลด้วยตนเอง จากนั้นสร้างตารางจากนั้น ไม่เหมือนกับ SQL ที่เราป้อนแต่ละแถวแยกกัน เราสามารถสร้างพจนานุกรมใน Python โดยมีส่วนหัวของคอลัมน์เป็นดัชนี และแปลงเป็นกรอบข้อมูลโดยใช้ไลบรารีแพนด้า
ตัวอย่างเช่น ลองสร้างชุดข้อมูลการขายของเล่นสำหรับร้านขายจักรยาน โดยแสดงชื่อลูกค้าที่ซื้อจักรยาน รุ่นของจักรยาน และราคา
import pandas as pd
Data = {'Customer':['A','B','C','D','E','F','G','H','I','J'],
'Model': ['a','b','c','d','e', 'b', 'd', 'c', 'e','a'],
'Price':[2000, 2500, 3000, 4000, 1200,2500,4000,3000,1200,2000]}
df = pd.DataFrame(Data)
df # df is now the name of our dataframe

นอกจากนี้ โปรดทราบว่าการใช้รายการเพื่อสร้างชุดข้อมูลเป็นเพียงหนึ่งในหลายๆ วิธีในการดำเนินการดังกล่าว วิธีนี้เป็นวิธีที่ง่ายที่สุดในการดำเนินการ
2. การนำเข้าข้อมูลโดยตรง:
ตัวอย่างด้านบนแสดงตารางที่มีเพียง 10 แถวและ 3 คอลัมน์ อย่างไรก็ตาม ข้อมูลในชีวิตจริงมักประกอบด้วยแถวและคอลัมน์หลายพันแถว ซึ่งต้องใช้เวลาตลอดไปในการป้อนด้วยตนเอง และอาจต้องเสียเงินและเวลาเป็นจำนวนมาก
ดังนั้น Python จึงมีวิธีการนำเข้าไฟล์ข้อมูลโดยตรงจากคอมพิวเตอร์ของผู้อื่น เช่นเดียวกับกรณีข้างต้น การนำเข้าข้อมูลโดยตรงยังใช้ไลบรารีแพนด้า
df = pd.read_csv('toy_dataset.csv', sep=',',header=0)
df # df is now the name of our dataframe

โปรดทราบว่าชุดข้อมูลนี้มี 150,000 แถวและ 6 คอลัมน์ ซึ่งเป็นข้อมูลจำนวนมาก!
ดังนั้นเราจึงใช้ขั้นตอนแรกในการวิเคราะห์ข้อมูล: ค้นหาข้อมูลเพื่อวิเคราะห์และตั้งค่าในเครื่องมือ ตอนนี้เราต้องสำรวจคุณสมบัติของมันก่อนที่เราจะก้าวไปข้างหน้า นี้ฉันจะกล่าวถึงในโพสต์ในอนาคต
ขอบคุณที่แวะมา!
ป.ล.มีข้อมูลมากมายมากกว่าที่ฉันเขียนไว้ที่นี่ อินเทอร์เน็ตมีแหล่งข้อมูลมากมายที่ครอบคลุมแง่มุมต่างๆ ของข้อมูล — และฉันได้ทดสอบน้ำด้วยโพสต์ของฉันเท่านั้น