Hadoop - โซลูชันข้อมูลขนาดใหญ่

แนวทางดั้งเดิม

ด้วยวิธีนี้องค์กรจะมีคอมพิวเตอร์สำหรับจัดเก็บและประมวลผลข้อมูลขนาดใหญ่ สำหรับวัตถุประสงค์ในการจัดเก็บโปรแกรมเมอร์จะใช้ความช่วยเหลือในการเลือกผู้จำหน่ายฐานข้อมูลเช่น Oracle, IBM เป็นต้นในแนวทางนี้ผู้ใช้จะโต้ตอบกับแอปพลิเคชันซึ่งจะจัดการกับส่วนของการจัดเก็บและการวิเคราะห์ข้อมูล

ข้อ จำกัด

วิธีนี้ใช้ได้ดีกับแอพพลิเคชั่นเหล่านั้นที่ประมวลผลข้อมูลปริมาณน้อยที่เซิร์ฟเวอร์ฐานข้อมูลมาตรฐานรองรับได้หรือไม่เกินขีด จำกัด ของโปรเซสเซอร์ที่กำลังประมวลผลข้อมูล แต่เมื่อต้องจัดการกับข้อมูลจำนวนมากที่ปรับขนาดได้การประมวลผลข้อมูลดังกล่าวผ่านคอขวดฐานข้อมูลเดียวเป็นเรื่องที่ยุ่งยาก

โซลูชันของ Google

Google แก้ปัญหานี้โดยใช้อัลกอริทึมที่เรียกว่า MapReduce อัลกอริทึมนี้แบ่งงานออกเป็นส่วนเล็ก ๆ และกำหนดให้กับคอมพิวเตอร์หลายเครื่องและรวบรวมผลลัพธ์จากพวกเขาซึ่งเมื่อรวมเข้าด้วยกันจะสร้างชุดข้อมูลผลลัพธ์

Hadoop

ใช้โซลูชันที่จัดทำโดย Google Doug Cutting และทีมของเขาได้พัฒนาโครงการโอเพ่นซอร์สที่เรียกว่า HADOOP.

Hadoop เรียกใช้แอปพลิเคชันโดยใช้อัลกอริทึม MapReduce ซึ่งข้อมูลจะถูกประมวลผลควบคู่ไปกับอื่น ๆ กล่าวโดยย่อ Hadoop ใช้ในการพัฒนาแอปพลิเคชันที่สามารถทำการวิเคราะห์ทางสถิติที่สมบูรณ์กับข้อมูลจำนวนมหาศาล