Agile Data Science - การประมวลผลข้อมูลแบบ Agile
ในบทนี้เราจะเน้นไปที่ความแตกต่างระหว่างข้อมูลที่มีโครงสร้างกึ่งโครงสร้างและไม่มีโครงสร้าง
ข้อมูลที่มีโครงสร้าง
ข้อมูลที่มีโครงสร้างเกี่ยวข้องกับข้อมูลที่จัดเก็บในรูปแบบ SQL ในตารางที่มีแถวและคอลัมน์ ประกอบด้วยคีย์เชิงสัมพันธ์ซึ่งแมปลงในฟิลด์ที่ออกแบบไว้ล่วงหน้า ข้อมูลที่มีโครงสร้างถูกนำไปใช้ในระดับที่ใหญ่ขึ้น
ข้อมูลที่มีโครงสร้างเป็นเพียง 5 ถึง 10 เปอร์เซ็นต์ของข้อมูลสารสนเทศทั้งหมด
ข้อมูลกึ่งโครงสร้าง
ข้อมูลโครงสร้าง Sem ประกอบด้วยข้อมูลที่ไม่ได้อยู่ในฐานข้อมูลเชิงสัมพันธ์ รวมถึงคุณสมบัติขององค์กรบางอย่างที่ช่วยให้วิเคราะห์ได้ง่ายขึ้น รวมถึงกระบวนการเดียวกันในการจัดเก็บไว้ในฐานข้อมูลเชิงสัมพันธ์ ตัวอย่างของฐานข้อมูลกึ่งโครงสร้าง ได้แก่ ไฟล์ CSV เอกสาร XML และ JSON ฐานข้อมูล NoSQL ถือเป็นกึ่งโครงสร้าง
ข้อมูลที่ไม่มีโครงสร้าง
ข้อมูลที่ไม่มีโครงสร้างแสดงถึง 80 เปอร์เซ็นต์ของข้อมูล มักมีเนื้อหาที่เป็นข้อความและมัลติมีเดีย ตัวอย่างที่ดีที่สุดของข้อมูลที่ไม่มีโครงสร้าง ได้แก่ ไฟล์เสียงงานนำเสนอและหน้าเว็บ ตัวอย่างของข้อมูลที่ไม่มีโครงสร้างที่เครื่องสร้างขึ้น ได้แก่ ภาพถ่ายดาวเทียมข้อมูลทางวิทยาศาสตร์ภาพถ่ายและวิดีโอข้อมูลเรดาร์และโซนาร์
โครงสร้างพีระมิดข้างต้นเน้นเฉพาะปริมาณข้อมูลและอัตราส่วนที่กระจัดกระจาย
ข้อมูลกึ่งโครงสร้างจะปรากฏเป็นประเภทระหว่างข้อมูลที่ไม่มีโครงสร้างและข้อมูลกึ่งโครงสร้าง ในบทช่วยสอนนี้เราจะเน้นไปที่ข้อมูลกึ่งโครงสร้างซึ่งเป็นประโยชน์สำหรับวิธีการแบบว่องไวและการวิจัยวิทยาศาสตร์ข้อมูล
ข้อมูลกึ่งโครงสร้างไม่มีรูปแบบข้อมูลที่เป็นทางการ แต่มีรูปแบบและโครงสร้างที่อธิบายได้ด้วยตนเองชัดเจนซึ่งพัฒนาโดยการวิเคราะห์