Hadoop - ภาพรวมข้อมูลขนาดใหญ่
“ ข้อมูล 90% ของโลกถูกสร้างขึ้นในช่วงไม่กี่ปีที่ผ่านมา”
เนื่องจากการถือกำเนิดของเทคโนโลยีอุปกรณ์และวิธีการสื่อสารใหม่ ๆ เช่นเว็บไซต์เครือข่ายสังคมปริมาณข้อมูลที่มนุษย์ผลิตขึ้นจึงเติบโตอย่างรวดเร็วทุกปี จำนวนข้อมูลที่ผลิตโดยเราตั้งแต่เริ่มต้นจนถึงปี 2546 คือ 5 พันล้านกิกะไบต์ หากคุณรวบรวมข้อมูลในรูปแบบของดิสก์ข้อมูลอาจเต็มสนามฟุตบอลทั้งหมด จำนวนเท่ากันถูกสร้างขึ้นในทุกๆสองวันใน2011และทุกๆสิบนาทีใน 2013. อัตรานี้ยังคงเติบโตอย่างมาก แม้ว่าข้อมูลทั้งหมดที่จัดทำขึ้นจะมีความหมายและมีประโยชน์เมื่อได้รับการประมวลผล แต่ก็ถูกละเลย
Big Data คืออะไร?
Big dataคือชุดข้อมูลขนาดใหญ่ที่ไม่สามารถประมวลผลได้โดยใช้เทคนิคการคำนวณแบบดั้งเดิม ไม่ใช่เทคนิคหรือเครื่องมือเดียว แต่กลายเป็นเรื่องที่สมบูรณ์ซึ่งเกี่ยวข้องกับเครื่องมือเทคนิคและกรอบงานต่างๆ
อะไรมาภายใต้ Big Data?
ข้อมูลขนาดใหญ่เกี่ยวข้องกับข้อมูลที่ผลิตโดยอุปกรณ์และแอปพลิเคชันต่างๆ ด้านล่างนี้คือฟิลด์บางส่วนที่อยู่ภายใต้ร่มของ Big Data
Black Box Data - เป็นส่วนประกอบของเฮลิคอปเตอร์เครื่องบินและเครื่องบินไอพ่น ฯลฯ โดยจะบันทึกเสียงของลูกเรือการบินการบันทึกไมโครโฟนและหูฟังและข้อมูลประสิทธิภาพของเครื่องบิน
Social Media Data - โซเชียลมีเดียเช่น Facebook และ Twitter เก็บข้อมูลและมุมมองที่โพสต์โดยผู้คนนับล้านทั่วโลก
Stock Exchange Data - ข้อมูลตลาดหลักทรัพย์มีข้อมูลเกี่ยวกับการตัดสินใจ 'ซื้อ' และ 'ขาย' ที่เกิดจากการแบ่งปันของ บริษัท ต่างๆที่ทำโดยลูกค้า
Power Grid Data - ข้อมูลกริดพลังงานเก็บข้อมูลที่ใช้โดยโหนดเฉพาะที่เกี่ยวกับสถานีฐาน
Transport Data - ข้อมูลการขนส่งรวมถึงรุ่นความจุระยะทางและความพร้อมของยานพาหนะ
Search Engine Data - เครื่องมือค้นหาดึงข้อมูลจำนวนมากจากฐานข้อมูลต่างๆ
ดังนั้นข้อมูลขนาดใหญ่จึงมีข้อมูลจำนวนมากความเร็วสูงและข้อมูลที่หลากหลายที่ขยายได้ ข้อมูลในนั้นจะเป็นสามประเภท
Structured data - ข้อมูลเชิงสัมพันธ์
Semi Structured data - ข้อมูล XML
Unstructured data - Word, PDF, ข้อความ, บันทึกสื่อ
ประโยชน์ของข้อมูลขนาดใหญ่
การใช้ข้อมูลที่เก็บไว้ในเครือข่ายโซเชียลเช่น Facebook หน่วยงานการตลาดกำลังเรียนรู้เกี่ยวกับการตอบสนองสำหรับแคมเปญโปรโมชั่นและสื่อโฆษณาอื่น ๆ
การใช้ข้อมูลในโซเชียลมีเดียเช่นความชอบและการรับรู้ผลิตภัณฑ์ของผู้บริโภค บริษัท ผลิตภัณฑ์และองค์กรค้าปลีกกำลังวางแผนการผลิต
การใช้ข้อมูลเกี่ยวกับประวัติทางการแพทย์ของผู้ป่วยก่อนหน้านี้โรงพยาบาลจะให้บริการที่ดีขึ้นและรวดเร็ว
เทคโนโลยีข้อมูลขนาดใหญ่
เทคโนโลยีข้อมูลขนาดใหญ่มีความสำคัญในการให้การวิเคราะห์ที่แม่นยำยิ่งขึ้นซึ่งอาจนำไปสู่การตัดสินใจที่เป็นรูปธรรมมากขึ้นซึ่งส่งผลให้ประสิทธิภาพในการดำเนินงานดีขึ้นลดต้นทุนและลดความเสี่ยงสำหรับธุรกิจ
ในการควบคุมพลังของข้อมูลขนาดใหญ่คุณจะต้องมีโครงสร้างพื้นฐานที่สามารถจัดการและประมวลผลข้อมูลที่มีโครงสร้างและไม่มีโครงสร้างจำนวนมหาศาลได้แบบเรียลไทม์และสามารถปกป้องความเป็นส่วนตัวและความปลอดภัยของข้อมูลได้
มีเทคโนโลยีต่างๆในตลาดจากผู้ขายที่แตกต่างกันเช่น Amazon, IBM, Microsoft และอื่น ๆ เพื่อจัดการกับข้อมูลขนาดใหญ่ ในขณะที่พิจารณาเทคโนโลยีที่จัดการข้อมูลขนาดใหญ่เราจะตรวจสอบเทคโนโลยีสองประเภทต่อไปนี้ -
ข้อมูลขนาดใหญ่เชิงปฏิบัติการ
ซึ่งรวมถึงระบบต่างๆเช่น MongoDB ที่ให้ความสามารถในการดำเนินงานสำหรับปริมาณงานแบบโต้ตอบแบบเรียลไทม์ซึ่งข้อมูลจะถูกบันทึกและจัดเก็บเป็นหลัก
ระบบ NoSQL Big Data ได้รับการออกแบบมาเพื่อใช้ประโยชน์จากสถาปัตยกรรมการประมวลผลแบบคลาวด์ใหม่ที่เกิดขึ้นในช่วงทศวรรษที่ผ่านมาเพื่อให้การประมวลผลจำนวนมากทำงานได้ในราคาประหยัดและมีประสิทธิภาพ ทำให้ปริมาณงานข้อมูลขนาดใหญ่ในการดำเนินงานง่ายต่อการจัดการมากขึ้นถูกลงและดำเนินการได้เร็วขึ้น
ระบบ NoSQL บางระบบสามารถให้ข้อมูลเชิงลึกเกี่ยวกับรูปแบบและแนวโน้มตามข้อมูลแบบเรียลไทม์โดยมีการเข้ารหัสน้อยที่สุดและไม่จำเป็นต้องใช้นักวิทยาศาสตร์ข้อมูลและโครงสร้างพื้นฐานเพิ่มเติม
ข้อมูลขนาดใหญ่เชิงวิเคราะห์
ซึ่งรวมถึงระบบต่างๆเช่นระบบฐานข้อมูล Massively Parallel Processing (MPP) และ MapReduce ที่ให้ความสามารถในการวิเคราะห์สำหรับการวิเคราะห์ย้อนหลังและการวิเคราะห์ที่ซับซ้อนซึ่งอาจสัมผัสข้อมูลส่วนใหญ่หรือทั้งหมด
MapReduce นำเสนอวิธีการใหม่ในการวิเคราะห์ข้อมูลที่เสริมกับความสามารถที่จัดเตรียมโดย SQL และระบบที่ใช้ MapReduce ซึ่งสามารถปรับขนาดได้จากเซิร์ฟเวอร์เครื่องเดียวไปจนถึงเครื่องระดับสูงและระดับต่ำหลายพันเครื่อง
เทคโนโลยีทั้งสองประเภทนี้เสริมและนำมาใช้งานร่วมกันบ่อยครั้ง
ระบบปฏิบัติการเทียบกับระบบวิเคราะห์
ปฏิบัติการ | เชิงวิเคราะห์ | |
---|---|---|
เวลาแฝง | 1 มิลลิวินาที - 100 มิลลิวินาที | 1 นาที - 100 นาที |
ภาวะพร้อมกัน | 1,000 - 100,000 | 1 - 10 |
รูปแบบการเข้าถึง | การเขียนและการอ่าน | อ่าน |
แบบสอบถาม | เลือก | ไม่เลือก |
ขอบเขตข้อมูล | ปฏิบัติการ | ย้อนหลัง |
ผู้ใช้ | ลูกค้า | นักวิทยาศาสตร์ข้อมูล |
เทคโนโลยี | NoSQL | MapReduce ฐานข้อมูล MPP |
ความท้าทายของข้อมูลขนาดใหญ่
ความท้าทายที่สำคัญที่เกี่ยวข้องกับข้อมูลขนาดใหญ่มีดังนี้ -
- การจับข้อมูล
- Curation
- Storage
- Searching
- Sharing
- Transfer
- Analysis
- Presentation
เพื่อตอบสนองความท้าทายข้างต้นโดยปกติองค์กรต่างๆจะต้องใช้ความช่วยเหลือจากเซิร์ฟเวอร์ขององค์กร