OBIEE - คลังข้อมูล

ในตลาดที่มีการแข่งขันสูงในปัจจุบัน บริษัท ที่ประสบความสำเร็จส่วนใหญ่จะตอบสนองอย่างรวดเร็วต่อการเปลี่ยนแปลงและโอกาสของตลาด ความต้องการที่จะตอบสนองอย่างรวดเร็วคือการใช้ข้อมูลและสารสนเทศอย่างมีประสิทธิผลและประสิทธิภาพ“Data Warehouse”เป็นที่เก็บข้อมูลส่วนกลางที่จัดระเบียบตามหมวดหมู่เพื่อสนับสนุนผู้มีอำนาจตัดสินใจขององค์กร เมื่อข้อมูลถูกเก็บไว้ในคลังข้อมูลแล้วจะสามารถเข้าถึงเพื่อวิเคราะห์ได้

คำว่า "คลังข้อมูล" ถูกคิดค้นขึ้นครั้งแรกโดย Bill Inmon ในปี 1990 ตามที่เขากล่าวว่า "คลังข้อมูลคือการรวบรวมข้อมูลที่มุ่งเน้นไปที่เรื่องบูรณาการตัวแปรเวลาและไม่ลบเลือนเพื่อสนับสนุนกระบวนการตัดสินใจของผู้บริหาร"

Ralph Kimball ให้คำจำกัดความของคลังข้อมูลตามฟังก์ชันการทำงาน เขากล่าวว่า“ คลังข้อมูลคือสำเนาของข้อมูลธุรกรรมที่มีโครงสร้างเฉพาะสำหรับการสืบค้นและการวิเคราะห์”

Data Warehouse (DW หรือ DWH) เป็นระบบที่ใช้สำหรับการวิเคราะห์ข้อมูลและการรายงาน เป็นที่เก็บที่บันทึกข้อมูลจากแหล่งข้อมูลที่แตกต่างกันอย่างน้อยหนึ่งแหล่ง จัดเก็บทั้งข้อมูลปัจจุบันและข้อมูลในอดีตและใช้สำหรับสร้างรายงานเชิงวิเคราะห์ DW สามารถใช้เพื่อสร้างแดชบอร์ดแบบโต้ตอบสำหรับผู้บริหารระดับสูง

ตัวอย่างเช่นรายงานการวิเคราะห์อาจมีข้อมูลสำหรับการเปรียบเทียบรายไตรมาสหรือสำหรับการเปรียบเทียบรายงานการขายประจำปีสำหรับ บริษัท

ข้อมูลใน DW มาจากระบบปฏิบัติการหลายระบบเช่นการขายทรัพยากรบุคคลการตลาดการจัดการคลังสินค้าเป็นต้นซึ่งมีข้อมูลประวัติจากระบบธุรกรรมที่แตกต่างกัน แต่ยังสามารถรวมข้อมูลจากแหล่งอื่นได้ด้วย DW ใช้เพื่อแยกภาระงานการประมวลผลและการวิเคราะห์ข้อมูลออกจากภาระงานธุรกรรมและช่วยให้สามารถรวมข้อมูลจากแหล่งข้อมูลต่างๆได้

ความต้องการคลังข้อมูล

ตัวอย่างเช่น - คุณมีหน่วยงานสินเชื่อบ้านซึ่งข้อมูลมาจากแอปพลิเคชัน SAP / ที่ไม่ใช่ SAP หลายรายการเช่นการตลาดการขาย ERP HRM เป็นต้นข้อมูลนี้จะถูกแยกแปลงและโหลดเป็น DW หากคุณต้องทำการเปรียบเทียบยอดขายรายไตรมาส / รายปีของผลิตภัณฑ์คุณไม่สามารถใช้ฐานข้อมูลการดำเนินงานได้เนื่องจากจะทำให้ระบบธุรกรรมค้าง นี่คือจุดที่ความจำเป็นในการใช้ DW เกิดขึ้น

ลักษณะของคลังข้อมูล

ลักษณะสำคัญบางประการของ DW ได้แก่ -

  • ใช้สำหรับการรายงานและการวิเคราะห์ข้อมูล
  • จัดเตรียมที่เก็บส่วนกลางพร้อมข้อมูลที่รวมจากแหล่งที่มาหนึ่งแหล่งขึ้นไป
  • จัดเก็บข้อมูลปัจจุบันและในอดีต

คลังข้อมูลเทียบกับระบบธุรกรรม

ต่อไปนี้เป็นความแตกต่างเล็กน้อยระหว่างคลังข้อมูลและฐานข้อมูลการดำเนินงาน (ระบบธุรกรรม) -

  • ระบบธุรกรรมได้รับการออกแบบมาสำหรับปริมาณงานและธุรกรรมที่เป็นที่รู้จักเช่นการอัปเดตบันทึกผู้ใช้การค้นหาบันทึก ฯลฯ อย่างไรก็ตามธุรกรรม DW มีความซับซ้อนมากกว่าและนำเสนอรูปแบบข้อมูลทั่วไป

  • ระบบธุรกรรมมีข้อมูลปัจจุบันขององค์กรในขณะที่ DW มีข้อมูลประวัติ

  • ระบบธุรกรรมรองรับการประมวลผลแบบขนานของธุรกรรมหลายรายการ จำเป็นต้องมีกลไกการควบคุมและการกู้คืนพร้อมกันเพื่อรักษาความสอดคล้องของฐานข้อมูล

  • แบบสอบถามฐานข้อมูลการดำเนินการอนุญาตให้อ่านและแก้ไขการดำเนินการ (ลบและอัปเดต) ในขณะที่แบบสอบถาม OLAP ต้องการการเข้าถึงข้อมูลที่จัดเก็บแบบอ่านอย่างเดียว (คำสั่งเลือก)

  • DW เกี่ยวข้องกับการล้างข้อมูลการรวมข้อมูลและการรวมข้อมูล

DW มีสถาปัตยกรรมสามชั้น ได้แก่ Data Source Layer, Integration Layer และ Presentation Layer แผนภาพต่อไปนี้แสดงสถาปัตยกรรมทั่วไปของระบบคลังข้อมูล

ประเภทของระบบคลังข้อมูล

ต่อไปนี้เป็นประเภทของระบบ DW -

  • ข้อมูลมาร์ท
  • การประมวลผลเชิงวิเคราะห์ออนไลน์ (OLAP)
  • การประมวลผลธุรกรรมออนไลน์ (OLTP)
  • การวิเคราะห์เชิงคาดการณ์

ข้อมูลมาร์ท

Data Mart เป็นรูปแบบ DW ที่ง่ายที่สุดและโดยปกติจะเน้นไปที่พื้นที่การทำงานเดียวเช่นการขายการเงินหรือการตลาด ดังนั้นดาต้ามาร์ทมักจะได้รับข้อมูลจากแหล่งข้อมูลเพียงไม่กี่แหล่งเท่านั้น

แหล่งที่มาอาจเป็นระบบธุรกรรมภายในคลังข้อมูลกลางหรือแอปพลิเคชันแหล่งข้อมูลภายนอก De-normalization เป็นบรรทัดฐานสำหรับเทคนิคการสร้างแบบจำลองข้อมูลในระบบนี้

การประมวลผลเชิงวิเคราะห์ออนไลน์ (OLAP)

ระบบ OLAP มีจำนวนธุรกรรมน้อยกว่า แต่เกี่ยวข้องกับการคำนวณที่ซับซ้อนเช่นการใช้ Aggregations - Sum, Count, Average เป็นต้น

Aggregation คืออะไร?

เราบันทึกตารางที่มีข้อมูลรวมเช่นรายปี (1 แถว) รายไตรมาส (4 แถว) รายเดือน (12 แถว) และตอนนี้เราต้องการเปรียบเทียบข้อมูลเช่นรายปีจะมีการประมวลผลเพียง 1 แถวเท่านั้น อย่างไรก็ตามในข้อมูลที่ไม่ได้รวบรวมทุกแถวจะได้รับการประมวลผล

โดยปกติระบบ OLAP จะจัดเก็บข้อมูลในรูปแบบหลายมิติเช่น Star Schema, Galaxy schemas (ด้วยตาราง Fact และ Dimensional จะเชื่อมโยงกันในลักษณะตรรกะ)

ในระบบ OLAP เวลาตอบสนองในการดำเนินการสืบค้นเป็นการวัดประสิทธิผล แอปพลิเคชัน OLAP ใช้กันอย่างแพร่หลายโดยเทคนิคการขุดข้อมูลเพื่อรับข้อมูลจากระบบ OLAP ฐานข้อมูล OLAP จัดเก็บข้อมูลประวัติที่รวบรวมไว้ในสกีมาหลายมิติ ระบบ OLAP มีเวลาในการตอบสนองของข้อมูลไม่กี่ชั่วโมงเมื่อเทียบกับ Data Marts ซึ่งโดยปกติเวลาแฝงจะอยู่ใกล้กว่าไม่กี่วัน

การประมวลผลธุรกรรมออนไลน์ (OLTP)

ระบบ OLTP เป็นที่รู้จักสำหรับการทำธุรกรรมออนไลน์สั้น ๆ จำนวนมากเช่นการแทรกอัปเดตลบ ฯลฯ ระบบ OLTP ให้การประมวลผลการสืบค้นที่รวดเร็วและยังรับผิดชอบในการจัดเตรียมความสมบูรณ์ของข้อมูลในสภาพแวดล้อมการเข้าถึงหลาย

สำหรับระบบ OLTP ประสิทธิภาพจะวัดจากจำนวนธุรกรรมที่ประมวลผลต่อวินาที โดยปกติระบบ OLTP จะมีเฉพาะข้อมูลปัจจุบัน สคีมาที่ใช้ในการจัดเก็บฐานข้อมูลธุรกรรมคือแบบจำลองเอนทิตี Normalization ใช้สำหรับเทคนิคการสร้างแบบจำลองข้อมูลในระบบ OLTP

OLTP กับ OLAP

ภาพประกอบต่อไปนี้แสดงความแตกต่างที่สำคัญระหว่างระบบ OLTP และ OLAP

Indexes - ในระบบ OLTP มีดัชนีเพียงไม่กี่ตัวในขณะที่ในระบบ OLAP มีดัชนีมากมายสำหรับการเพิ่มประสิทธิภาพ

Joins- ในระบบ OLTP การรวมและข้อมูลจำนวนมากจะถูกทำให้เป็นมาตรฐาน อย่างไรก็ตามในระบบ OLAP จะมีการรวมและ de-normalized น้อยกว่า

Aggregation - ในระบบ OLTP ข้อมูลจะไม่ถูกรวมในขณะที่อยู่ในฐานข้อมูล OLAP จะใช้การรวมมากกว่า