คลังข้อมูล - ภาพรวม

คลังข้อมูลประกอบด้วยข้อมูลจาก multiple heterogeneous data sourcesและใช้สำหรับการรายงานเชิงวิเคราะห์และการตัดสินใจ คลังข้อมูลเป็นสถานที่กลางที่จัดเก็บข้อมูลจากแหล่งข้อมูลและแอปพลิเคชันต่างๆ

คำว่าคลังข้อมูลถูกคิดค้นขึ้นครั้งแรกโดย Bill Inmom ในปี 1990 คลังข้อมูลจะถูกแยกออกจากฐานข้อมูลเชิงปฏิบัติการเสมอ

ข้อมูลในระบบ DW ถูกโหลดจากระบบธุรกรรมการดำเนินงานเช่น -

  • Sales
  • Marketing
  • HR
  • SCM ฯลฯ

อาจผ่านที่เก็บข้อมูลการดำเนินงานหรือการเปลี่ยนแปลงอื่น ๆ ก่อนที่จะโหลดไปยังระบบ DW เพื่อประมวลผลข้อมูล

คลังข้อมูลใช้สำหรับรายงานและวิเคราะห์ข้อมูลและจัดเก็บข้อมูลทั้งในอดีตและปัจจุบัน ข้อมูลในระบบ DW ใช้สำหรับการรายงานเชิงวิเคราะห์ซึ่งต่อมานักวิเคราะห์ธุรกิจผู้จัดการฝ่ายขายหรือผู้มีความรู้จะใช้ในการตัดสินใจ

ในภาพด้านบนคุณจะเห็นว่าข้อมูลมาจาก multiple heterogeneous dataแหล่งที่มาไปยังคลังข้อมูล แหล่งข้อมูลทั่วไปสำหรับคลังข้อมูลประกอบด้วย -

  • ฐานข้อมูลการดำเนินงาน
  • SAP และแอปพลิเคชันที่ไม่ใช่ SAP
  • ไฟล์แบบแบน (xls, csv, ไฟล์ txt)

ข้อมูลในคลังข้อมูลถูกเข้าถึงโดยผู้ใช้ BI (Business Intelligence) สำหรับการรายงานเชิงวิเคราะห์การขุดข้อมูลและการวิเคราะห์ สิ่งนี้ใช้สำหรับการตัดสินใจของผู้ใช้ทางธุรกิจผู้จัดการฝ่ายขายนักวิเคราะห์เพื่อกำหนดกลยุทธ์ในอนาคต

คุณสมบัติของคลังข้อมูล

เป็นที่เก็บข้อมูลส่วนกลางที่จัดเก็บข้อมูลจากแหล่งข้อมูลที่แตกต่างกันอย่างน้อยหนึ่งแหล่ง ระบบ DW เก็บข้อมูลทั้งในปัจจุบันและในอดีต โดยปกติระบบ DW จะเก็บข้อมูลย้อนหลัง 5-10 ปี ระบบ DW จะแยกออกจากระบบธุรกรรมด้านปฏิบัติการเสมอ

ข้อมูลในระบบ DW ใช้สำหรับการรายงานเชิงวิเคราะห์ประเภทต่างๆตั้งแต่การเปรียบเทียบรายไตรมาสไปจนถึงการเปรียบเทียบรายปี

คลังข้อมูล Vs ฐานข้อมูลการดำเนินงาน

ความแตกต่างระหว่างคลังข้อมูลและฐานข้อมูลปฏิบัติการมีดังนี้ -

  • อัน Operational System ได้รับการออกแบบมาสำหรับปริมาณงานและธุรกรรมที่ทราบเช่นการอัปเดตเรกคอร์ดผู้ใช้การค้นหาเรกคอร์ดเป็นต้นอย่างไรก็ตามธุรกรรมคลังข้อมูลมีความซับซ้อนมากขึ้นและนำเสนอรูปแบบข้อมูลทั่วไป

  • อัน Operational System มีข้อมูลปัจจุบันขององค์กรและคลังข้อมูลโดยปกติจะมีข้อมูลประวัติ

  • อัน Operational Databaseรองรับการประมวลผลแบบขนานของธุรกรรมหลายรายการ จำเป็นต้องมีกลไกการควบคุมและการกู้คืนพร้อมกันเพื่อรักษาความสอดคล้องของฐานข้อมูล

  • อัน Operational Database แบบสอบถามอนุญาตให้อ่านและแก้ไขการดำเนินการ (แทรกลบและอัปเดต) ในขณะที่แบบสอบถาม OLAP ต้องการการเข้าถึงข้อมูลที่จัดเก็บแบบอ่านอย่างเดียว (เลือกคำสั่ง)

สถาปัตยกรรมของคลังข้อมูล

Data Warehousing เกี่ยวข้องกับการล้างข้อมูลการรวมข้อมูลและการรวมข้อมูล คลังข้อมูลมีสถาปัตยกรรม 3 ชั้น -

ชั้นแหล่งข้อมูล

กำหนดวิธีที่ข้อมูลมาสู่คลังข้อมูล มันเกี่ยวข้องกับแหล่งข้อมูลและระบบธุรกรรมการดำเนินงานไฟล์แฟลตแอปพลิเคชัน ฯลฯ

ชั้นการรวม

ประกอบด้วย Operational Data Store และ Staging area พื้นที่การจัดเตรียมใช้เพื่อดำเนินการล้างข้อมูลการแปลงข้อมูลและการโหลดข้อมูลจากแหล่งต่างๆไปยังคลังข้อมูล เนื่องจากแหล่งข้อมูลหลายแหล่งพร้อมใช้งานสำหรับการแยกในเขตเวลาที่แตกต่างกันพื้นที่การจัดเตรียมจึงถูกใช้เพื่อจัดเก็บข้อมูลและใช้การแปลงกับข้อมูลในภายหลัง

เลเยอร์การนำเสนอ

ใช้เพื่อดำเนินการรายงาน BI โดยผู้ใช้ปลายทาง ข้อมูลในระบบ DW ถูกเข้าถึงโดยผู้ใช้ BI และใช้สำหรับการรายงานและการวิเคราะห์

ภาพประกอบต่อไปนี้แสดงสถาปัตยกรรมทั่วไปของระบบคลังข้อมูล

ลักษณะของคลังข้อมูล

ต่อไปนี้เป็นลักษณะสำคัญของคลังข้อมูล -

  • Subject Oriented - ในระบบ DW ข้อมูลจะถูกจัดหมวดหมู่และจัดเก็บตามหัวเรื่องทางธุรกิจแทนที่จะเป็นแอปพลิเคชันเช่นแผนการถือหุ้นหุ้นเงินกู้ ฯลฯ

  • Integrated - ข้อมูลจากแหล่งข้อมูลหลายแหล่งรวมอยู่ในคลังข้อมูล

  • Non Volatile- ข้อมูลในคลังข้อมูลไม่ลบเลือน หมายความว่าเมื่อข้อมูลถูกโหลดในระบบ DW จะไม่มีการเปลี่ยนแปลง

  • Time Variant- ระบบ DW มีข้อมูลย้อนหลังเมื่อเทียบกับระบบธุรกรรมที่มีเฉพาะข้อมูลปัจจุบัน ในคลังข้อมูลคุณสามารถดูข้อมูล 3 เดือน 6 ​​เดือน 1 ปี 5 ปี ฯลฯ

OLTP กับ OLAP

ประการแรก OLTP ย่อมาจาก Online Transaction Processingในขณะที่ OLAP ย่อมาจาก Online Analytical Processing

ในระบบ OLTP มีธุรกรรมออนไลน์สั้น ๆ จำนวนมากเช่น INSERT, UPDATE และ DELETE

ในขณะที่ในระบบ OLTP มาตรการที่มีประสิทธิภาพคือเวลาในการประมวลผลของธุรกรรมที่สั้นและน้อยมาก ควบคุมความสมบูรณ์ของข้อมูลในสภาพแวดล้อมแบบหลายการเข้าถึง สำหรับระบบ OLTP จำนวนธุรกรรมต่อวินาทีจะวัดประสิทธิภาพ ระบบคลังข้อมูล OLTP ประกอบด้วยข้อมูลปัจจุบันและรายละเอียดและได้รับการดูแลในสกีมาในโมเดลเอนทิตี (3NF)

For Example -

ระบบการทำธุรกรรมแบบวันต่อวันในร้านค้าปลีกที่มีการแทรกข้อมูลของลูกค้าอัปเดตและลบในแต่ละวัน ให้การประมวลผลการสืบค้นเร็วขึ้น ฐานข้อมูล OLTP ประกอบด้วยข้อมูลรายละเอียดและข้อมูลปัจจุบัน สคีมาที่ใช้ในการจัดเก็บฐานข้อมูล OLTP คือโมเดลเอนทิตี

ในระบบ OLAP มีจำนวนธุรกรรมน้อยกว่าเมื่อเทียบกับระบบธุรกรรม คำค้นหาที่ดำเนินการมีลักษณะซับซ้อนและเกี่ยวข้องกับการรวมข้อมูล

Aggregation คืออะไร?

เราบันทึกตารางที่มีข้อมูลรวมเช่นรายปี (1 แถว) รายไตรมาส (4 แถว) รายเดือน (12 แถว) หรือมากกว่านั้นหากมีใครต้องทำการเปรียบเทียบแบบปีต่อปีจะมีการประมวลผลเพียงแถวเดียว อย่างไรก็ตามในตารางที่ไม่ได้รวมจะเปรียบเทียบแถวทั้งหมด สิ่งนี้เรียกว่า Aggregation

มีฟังก์ชัน Aggregation ต่างๆที่สามารถใช้ในระบบ OLAP เช่น Sum, Avg, Max, Min เป็นต้น

For Example -

SELECT Avg(salary)
FROM employee
WHERE title = 'Programmer';

ความแตกต่างที่สำคัญ

นี่คือความแตกต่างที่สำคัญระหว่าง OLAP และระบบ OLTP

  • Indexes - ระบบ OLTP มีดัชนีเพียงไม่กี่รายการในขณะที่ในระบบ OLAP มีดัชนีมากมายสำหรับการเพิ่มประสิทธิภาพ

  • Joins- ในระบบ OLTP การรวมและข้อมูลจำนวนมากจะถูกทำให้เป็นมาตรฐาน อย่างไรก็ตามในระบบ OLAP มีการรวมน้อยและถูกยกเลิกการทำให้เป็นมาตรฐาน

  • Aggregation - ในระบบ OLTP ข้อมูลจะไม่ถูกรวมในขณะที่อยู่ในฐานข้อมูล OLAP จะใช้การรวมมากกว่า

  • Normalization - ระบบ OLTP มีข้อมูลที่ทำให้เป็นมาตรฐาน แต่ข้อมูลไม่ได้ถูกทำให้เป็นมาตรฐานในระบบ OLAP

Data Mart Vs Data Warehouse

Data mart มุ่งเน้นไปที่พื้นที่การทำงานเดียวและแสดงถึงรูปแบบที่ง่ายที่สุดของคลังข้อมูล พิจารณาคลังข้อมูลที่มีข้อมูลสำหรับการขายการตลาดทรัพยากรบุคคลและการเงิน Data mart มุ่งเน้นไปที่พื้นที่การทำงานเดียวเช่นการขายหรือการตลาด

ในภาพด้านบนคุณจะเห็นความแตกต่างระหว่างคลังข้อมูลและดาต้ามาร์ท

ตารางข้อเท็จจริงเทียบกับมิติข้อมูล

ตารางข้อเท็จจริงแสดงถึงมาตรการที่ดำเนินการวิเคราะห์ นอกจากนี้ยังมีคีย์ต่างประเทศสำหรับคีย์มิติ

For example - ทุกการขายคือข้อเท็จจริง

รหัส Cust รหัสผลิตภัณฑ์ รหัสเวลา จำนวนขาย
1110 25 2 125
1210 28 4 252

ตารางมิติแสดงลักษณะของมิติ มิติข้อมูลลูกค้าสามารถมี Customer_Name, Phone_No, Sex เป็นต้น

รหัส Cust Cust_Name โทรศัพท์ เพศ
1110 แซลลี่ 1113334444
1210 อดัม 2225556666