คลังข้อมูล - คู่มือฉบับย่อ

คำว่า "คลังข้อมูล" ได้รับการประกาศเกียรติคุณเป็นครั้งแรกโดย Bill Inmon ในปี 1990 จากข้อมูลของ Inmon คลังข้อมูลคือการรวบรวมข้อมูลที่เน้นหัวเรื่องแบบบูรณาการตัวแปรเวลาและไม่ลบเลือน ข้อมูลนี้ช่วยให้นักวิเคราะห์สามารถตัดสินใจอย่างชาญฉลาดในองค์กร

ฐานข้อมูลการปฏิบัติงานมีการเปลี่ยนแปลงบ่อยครั้งในแต่ละวันโดยพิจารณาจากธุรกรรมที่เกิดขึ้น สมมติว่าผู้บริหารธุรกิจต้องการวิเคราะห์ความคิดเห็นก่อนหน้าเกี่ยวกับข้อมูลใด ๆ เช่นผลิตภัณฑ์ซัพพลายเออร์หรือข้อมูลผู้บริโภคใด ๆ ผู้บริหารจะไม่มีข้อมูลให้วิเคราะห์เนื่องจากข้อมูลก่อนหน้านี้ได้รับการอัปเดตเนื่องจากการทำธุรกรรม

คลังข้อมูลให้ข้อมูลทั่วไปและข้อมูลรวมในมุมมองหลายมิติ นอกเหนือจากมุมมองข้อมูลทั่วไปและแบบรวมแล้วคลังข้อมูลยังมีเครื่องมือ Online Analytical Processing (OLAP) ให้เราอีกด้วย เครื่องมือเหล่านี้ช่วยเราในการวิเคราะห์ข้อมูลเชิงโต้ตอบและมีประสิทธิภาพในพื้นที่หลายมิติ การวิเคราะห์นี้ส่งผลให้เกิดข้อมูลทั่วไปและการขุดข้อมูล

ฟังก์ชันการขุดข้อมูลเช่นการเชื่อมโยงการทำคลัสเตอร์การจัดหมวดหมู่การทำนายสามารถรวมเข้ากับการดำเนินการของ OLAP เพื่อเพิ่มประสิทธิภาพการขุดแบบโต้ตอบของความรู้ในระดับนามธรรมหลายระดับ นั่นเป็นเหตุผลว่าทำไมคลังข้อมูลจึงกลายเป็นแพลตฟอร์มสำคัญสำหรับการวิเคราะห์ข้อมูลและการประมวลผลเชิงวิเคราะห์ออนไลน์

การทำความเข้าใจคลังข้อมูล

  • คลังข้อมูลคือฐานข้อมูลซึ่งแยกออกจากฐานข้อมูลการปฏิบัติงานขององค์กร

  • ไม่มีการอัปเดตบ่อยครั้งในคลังข้อมูล

  • มีข้อมูลในอดีตที่รวมเข้าด้วยกันซึ่งช่วยให้องค์กรสามารถวิเคราะห์ธุรกิจได้

  • คลังข้อมูลช่วยให้ผู้บริหารจัดระเบียบทำความเข้าใจและใช้ข้อมูลเพื่อตัดสินใจเชิงกลยุทธ์

  • ระบบคลังข้อมูลช่วยในการผสมผสานความหลากหลายของระบบแอปพลิเคชัน

  • ระบบคลังข้อมูลช่วยในการวิเคราะห์ข้อมูลย้อนหลังแบบรวม

เหตุใดคลังข้อมูลจึงแยกออกจากฐานข้อมูลเชิงปฏิบัติการ

คลังข้อมูลจะถูกแยกออกจากฐานข้อมูลปฏิบัติการเนื่องจากเหตุผลดังต่อไปนี้ -

  • ฐานข้อมูลการปฏิบัติงานถูกสร้างขึ้นสำหรับงานและปริมาณงานที่เป็นที่รู้จักเช่นการค้นหาเรกคอร์ดโดยเฉพาะการจัดทำดัชนีเป็นต้นในสัญญาการสืบค้นคลังข้อมูลมักจะซับซ้อนและนำเสนอรูปแบบข้อมูลทั่วไป

  • ฐานข้อมูลเชิงปฏิบัติการสนับสนุนการประมวลผลธุรกรรมหลายรายการพร้อมกัน จำเป็นต้องมีกลไกการควบคุมและการกู้คืนพร้อมกันสำหรับฐานข้อมูลปฏิบัติการเพื่อให้แน่ใจว่าฐานข้อมูลมีความแข็งแรงและสอดคล้องกัน

  • แบบสอบถามฐานข้อมูลการดำเนินงานอนุญาตให้อ่านและแก้ไขการดำเนินการในขณะที่แบบสอบถาม OLAP ต้องการเท่านั้น read only การเข้าถึงข้อมูลที่จัดเก็บ

  • ฐานข้อมูลการดำเนินงานจะเก็บรักษาข้อมูลปัจจุบัน ในทางกลับกันคลังข้อมูลจะเก็บรักษาข้อมูลในอดีต

คุณสมบัติคลังข้อมูล

คุณสมบัติที่สำคัญของคลังข้อมูลจะกล่าวถึงด้านล่าง -

  • Subject Oriented- คลังข้อมูลเป็นเรื่องที่มุ่งเน้นเนื่องจากให้ข้อมูลเกี่ยวกับเรื่องมากกว่าการดำเนินงานต่อเนื่องขององค์กร หัวข้อเหล่านี้อาจเป็นผลิตภัณฑ์ลูกค้าซัพพลายเออร์การขายรายได้ ฯลฯ คลังข้อมูลไม่ได้มุ่งเน้นไปที่การดำเนินการอย่างต่อเนื่อง แต่มุ่งเน้นไปที่การสร้างแบบจำลองและการวิเคราะห์ข้อมูลเพื่อการตัดสินใจ

  • Integrated - คลังข้อมูลสร้างขึ้นโดยการรวมข้อมูลจากแหล่งที่มาที่แตกต่างกันเช่นฐานข้อมูลเชิงสัมพันธ์ไฟล์แบบแบนเป็นต้นการรวมนี้ช่วยเพิ่มประสิทธิภาพในการวิเคราะห์ข้อมูล

  • Time Variant- ข้อมูลที่รวบรวมในคลังข้อมูลจะถูกระบุด้วยช่วงเวลาหนึ่ง ๆ ข้อมูลในคลังข้อมูลให้ข้อมูลจากมุมมองในอดีต

  • Non-volatile- ไม่ลบเลือนหมายความว่าข้อมูลก่อนหน้านี้จะไม่ถูกลบเมื่อมีการเพิ่มข้อมูลใหม่เข้าไป คลังข้อมูลจะถูกเก็บแยกจากฐานข้อมูลการปฏิบัติงานดังนั้นการเปลี่ยนแปลงฐานข้อมูลการปฏิบัติงานบ่อยครั้งจึงไม่สะท้อนให้เห็นในคลังข้อมูล

Note - คลังข้อมูลไม่จำเป็นต้องมีการประมวลผลธุรกรรมการกู้คืนและการควบคุมภาวะพร้อมกันเนื่องจากมีการจัดเก็บทางกายภาพและแยกออกจากฐานข้อมูลการปฏิบัติงาน

แอปพลิเคชันคลังข้อมูล

ตามที่กล่าวไว้ก่อนหน้านี้คลังข้อมูลช่วยให้ผู้บริหารทางธุรกิจสามารถจัดระเบียบวิเคราะห์และใช้ข้อมูลเพื่อการตัดสินใจ คลังข้อมูลทำหน้าที่เป็นส่วนเดียวของระบบป้อนกลับแบบประเมิน "วงปิด" สำหรับการจัดการองค์กร คลังข้อมูลใช้กันอย่างแพร่หลายในสาขาต่อไปนี้ -

  • บริการทางการเงิน
  • บริการด้านการธนาคาร
  • เครื่องอุปโภคบริโภค
  • ภาคการค้าปลีก
  • การผลิตที่มีการควบคุม

ประเภทของคลังข้อมูล

การประมวลผลข้อมูลการประมวลผลเชิงวิเคราะห์และการขุดข้อมูลเป็นแอปพลิเคชันคลังข้อมูลสามประเภทที่จะกล่าวถึงด้านล่าง -

  • Information Processing- คลังข้อมูลอนุญาตให้ประมวลผลข้อมูลที่เก็บไว้ในนั้น ข้อมูลสามารถประมวลผลได้โดยใช้การสืบค้นการวิเคราะห์ทางสถิติพื้นฐานการรายงานโดยใช้แท็บตารางตารางแผนภูมิหรือกราฟ

  • Analytical Processing- คลังข้อมูลรองรับการประมวลผลเชิงวิเคราะห์ของข้อมูลที่จัดเก็บไว้ในนั้น ข้อมูลสามารถวิเคราะห์ได้ด้วยวิธีการดำเนินการพื้นฐานของ OLAP ซึ่งรวมถึงการสไลซ์และลูกเต๋าการเจาะลึกการเจาะลึกและการหมุน

  • Data Mining- การขุดข้อมูลสนับสนุนการค้นพบความรู้โดยการค้นหารูปแบบและการเชื่อมโยงที่ซ่อนอยู่การสร้างแบบจำลองการวิเคราะห์การจำแนกประเภทและการทำนาย ผลการขุดเหล่านี้สามารถนำเสนอโดยใช้เครื่องมือสร้างภาพ

ซีเนียร์ คลังข้อมูล (OLAP) ฐานข้อมูลปฏิบัติการ (OLTP)
1 เกี่ยวข้องกับการประมวลผลข้อมูลในอดีต มันเกี่ยวข้องกับการประมวลผลแบบวันต่อวัน
2 ระบบ OLAP ถูกใช้โดยผู้มีความรู้เช่นผู้บริหารผู้จัดการและนักวิเคราะห์ เสมียน DBA หรือผู้เชี่ยวชาญด้านฐานข้อมูลใช้ระบบ OLTP
3 ใช้ในการวิเคราะห์ธุรกิจ ใช้ในการดำเนินธุรกิจ
4 เน้นข้อมูลออก มุ่งเน้นไปที่ข้อมูลใน.
5 มันขึ้นอยู่กับ Star Schema, Snowflake Schema และ Fact Constellation Schema มันขึ้นอยู่กับ Entity Relationship Model
6 เน้นข้อมูลออก เป็นแอปพลิเคชันที่มุ่งเน้น
7 มีข้อมูลในอดีต ประกอบด้วยข้อมูลปัจจุบัน
8 ให้ข้อมูลสรุปและรวม ให้ข้อมูลดั้งเดิมและมีรายละเอียดสูง
9 ให้มุมมองข้อมูลสรุปและหลายมิติ ให้มุมมองเชิงสัมพันธ์ที่ละเอียดและแบนของข้อมูล
10 จำนวนผู้ใช้เป็นร้อย จำนวนผู้ใช้เป็นหลักพัน
11 จำนวนบันทึกที่เข้าถึงเป็นล้าน จำนวนบันทึกที่เข้าถึงมีหน่วยเป็นสิบ
12 ขนาดฐานข้อมูลตั้งแต่ 100GB ถึง 100 TB ขนาดฐานข้อมูลตั้งแต่ 100 MB ถึง 100 GB
13 เหล่านี้มีความยืดหยุ่นสูง ให้ประสิทธิภาพสูง

Data Warehousing คืออะไร?

คลังข้อมูลเป็นกระบวนการสร้างและใช้คลังข้อมูล คลังข้อมูลถูกสร้างขึ้นโดยการรวมข้อมูลจากแหล่งที่มาที่แตกต่างกันหลายแหล่งที่สนับสนุนการรายงานเชิงวิเคราะห์แบบสอบถามที่มีโครงสร้างและ / หรือเฉพาะกิจและการตัดสินใจ คลังข้อมูลเกี่ยวข้องกับการล้างข้อมูลการรวมข้อมูลและการรวมข้อมูล

การใช้ข้อมูลคลังข้อมูล

มีเทคโนโลยีสนับสนุนการตัดสินใจที่ช่วยใช้ข้อมูลที่มีอยู่ในคลังข้อมูล เทคโนโลยีเหล่านี้ช่วยให้ผู้บริหารสามารถใช้คลังสินค้าได้อย่างรวดเร็วและมีประสิทธิผล พวกเขาสามารถรวบรวมข้อมูลวิเคราะห์และตัดสินใจตามข้อมูลที่มีอยู่ในคลังสินค้า ข้อมูลที่รวบรวมในคลังสินค้าสามารถใช้ในโดเมนใด ๆ ต่อไปนี้ -

  • Tuning Production Strategies - สามารถปรับกลยุทธ์ผลิตภัณฑ์ได้อย่างดีโดยการปรับตำแหน่งผลิตภัณฑ์และจัดการพอร์ตการลงทุนของผลิตภัณฑ์โดยเปรียบเทียบยอดขายรายไตรมาสหรือรายปี

  • Customer Analysis - การวิเคราะห์ลูกค้าทำได้โดยการวิเคราะห์ความชอบในการซื้อของลูกค้าเวลาในการซื้อรอบงบประมาณ ฯลฯ

  • Operations Analysis- คลังข้อมูลยังช่วยในการจัดการความสัมพันธ์กับลูกค้าและการแก้ไขด้านสิ่งแวดล้อม ข้อมูลยังช่วยให้เราวิเคราะห์การดำเนินธุรกิจ

การรวมฐานข้อมูลที่แตกต่างกัน

ในการรวมฐานข้อมูลที่แตกต่างกันเรามีสองแนวทาง -

  • แนวทางที่ขับเคลื่อนด้วยแบบสอบถาม
  • แนวทางที่ขับเคลื่อนด้วยการปรับปรุง

Query-Driven Approach

นี่เป็นแนวทางดั้งเดิมในการรวมฐานข้อมูลที่แตกต่างกัน วิธีนี้ใช้ในการสร้าง Wrapper และ Integrator บนฐานข้อมูลที่แตกต่างกันหลายฐานข้อมูล ผู้รวมเหล่านี้เรียกอีกอย่างว่าผู้ไกล่เกลี่ย

กระบวนการของ Query-Driven Approach

  • เมื่อมีการส่งแบบสอบถามไปยังฝั่งไคลเอ็นต์พจนานุกรมข้อมูลเมตาจะแปลแบบสอบถามให้อยู่ในรูปแบบที่เหมาะสมสำหรับแต่ละไซต์ที่เกี่ยวข้องกัน

  • ขณะนี้แบบสอบถามเหล่านี้ถูกจับคู่และส่งไปยังตัวประมวลผลการสืบค้นภายใน

  • ผลลัพธ์จากไซต์ที่แตกต่างกันจะรวมอยู่ในชุดคำตอบทั่วโลก

ข้อเสีย

  • แนวทางที่ขับเคลื่อนด้วยแบบสอบถามต้องการกระบวนการรวมและการกรองที่ซับซ้อน

  • แนวทางนี้ไม่มีประสิทธิภาพมาก

  • มีราคาแพงมากสำหรับการค้นหาบ่อยๆ

  • วิธีนี้ยังมีราคาแพงมากสำหรับข้อความค้นหาที่ต้องใช้การรวบรวม

แนวทางการปรับปรุงที่ขับเคลื่อนด้วย

นี่เป็นอีกทางเลือกหนึ่งของแนวทางดั้งเดิม ระบบคลังข้อมูลในปัจจุบันเป็นไปตามแนวทางที่ขับเคลื่อนด้วยการปรับปรุงมากกว่าแนวทางดั้งเดิมที่กล่าวถึงก่อนหน้านี้ ในแนวทางการปรับปรุงข้อมูลจากแหล่งที่มาที่แตกต่างกันหลายแหล่งจะถูกรวมไว้ล่วงหน้าและถูกเก็บไว้ในคลังสินค้า ข้อมูลนี้มีไว้สำหรับการสอบถามและวิเคราะห์โดยตรง

ข้อดี

แนวทางนี้มีข้อดีดังต่อไปนี้ -

  • แนวทางนี้ให้ประสิทธิภาพสูง

  • ข้อมูลจะถูกคัดลอกประมวลผลบูรณาการใส่คำอธิบายประกอบสรุปและปรับโครงสร้างในที่จัดเก็บข้อมูลเชิงความหมายล่วงหน้า

  • การประมวลผลแบบสอบถามไม่จำเป็นต้องใช้อินเทอร์เฟซในการประมวลผลข้อมูลที่แหล่งข้อมูลในเครื่อง

หน้าที่ของเครื่องมือคลังข้อมูลและยูทิลิตี้

ต่อไปนี้เป็นฟังก์ชั่นของเครื่องมือคลังข้อมูลและยูทิลิตี้ -

  • Data Extraction - เกี่ยวข้องกับการรวบรวมข้อมูลจากแหล่งที่มาที่แตกต่างกันหลายแหล่ง

  • Data Cleaning - เกี่ยวข้องกับการค้นหาและแก้ไขข้อผิดพลาดในข้อมูล

  • Data Transformation - เกี่ยวข้องกับการแปลงข้อมูลจากรูปแบบเดิมเป็นรูปแบบคลังสินค้า

  • Data Loading - เกี่ยวข้องกับการเรียงลำดับการสรุปการรวมการตรวจสอบความสมบูรณ์และการสร้างดัชนีและพาร์ติชัน

  • Refreshing - เกี่ยวข้องกับการอัปเดตจากแหล่งข้อมูลไปยังคลังสินค้า

Note - การล้างข้อมูลและการแปลงข้อมูลเป็นขั้นตอนสำคัญในการปรับปรุงคุณภาพของข้อมูลและผลการขุดข้อมูล

ในบทนี้เราจะพูดถึงคำศัพท์ที่ใช้บ่อยที่สุดในคลังข้อมูล

ข้อมูลเมตา

ข้อมูลเมตาถูกกำหนดให้เป็นข้อมูลเกี่ยวกับข้อมูล ข้อมูลที่ใช้เพื่อแสดงข้อมูลอื่นเรียกว่าข้อมูลเมตา ตัวอย่างเช่นดัชนีของหนังสือทำหน้าที่เป็นข้อมูลเมตาสำหรับเนื้อหาในหนังสือ กล่าวอีกนัยหนึ่งเราสามารถพูดได้ว่าข้อมูลเมตาคือข้อมูลสรุปที่นำเราไปสู่ข้อมูลโดยละเอียด

ในแง่ของคลังข้อมูลเราสามารถกำหนดเมทาดาทาได้ดังต่อไปนี้ -

  • ข้อมูลเมตาเป็นแผนที่เส้นทางไปยังคลังข้อมูล

  • ข้อมูลเมตาในคลังข้อมูลกำหนดออบเจ็กต์คลังสินค้า

  • ข้อมูลเมตาทำหน้าที่เป็นไดเร็กทอรี ไดเร็กทอรีนี้ช่วยระบบสนับสนุนการตัดสินใจในการค้นหาเนื้อหาของคลังข้อมูล

ที่เก็บข้อมูลเมตา

ที่เก็บข้อมูลเมตาเป็นส่วนหนึ่งของระบบคลังข้อมูล ประกอบด้วยข้อมูลเมตาต่อไปนี้ -

  • Business metadata - ประกอบด้วยข้อมูลการเป็นเจ้าของข้อมูลข้อกำหนดทางธุรกิจและนโยบายการเปลี่ยนแปลง

  • Operational metadata- รวมถึงสกุลเงินของข้อมูลและสายเลือดข้อมูล สกุลเงินของข้อมูลหมายถึงข้อมูลที่ใช้งานเก็บถาวรหรือถูกลบออก Lineage of data หมายถึงประวัติการย้ายข้อมูลและการเปลี่ยนแปลงที่ใช้กับข้อมูลนั้น

  • Data for mapping from operational environment to data warehouse - ข้อมูลเมตาประกอบด้วยฐานข้อมูลต้นทางและเนื้อหาการแยกข้อมูลพาร์ติชันข้อมูลการทำความสะอาดกฎการเปลี่ยนแปลงการรีเฟรชข้อมูลและกฎการล้างข้อมูล

  • The algorithms for summarization - ประกอบด้วยอัลกอริธึมมิติข้อมูลเกี่ยวกับรายละเอียดการรวมสรุปและอื่น ๆ

คิวบ์ข้อมูล

คิวบ์ข้อมูลช่วยให้เราแสดงข้อมูลในหลายมิติ ถูกกำหนดโดยมิติข้อมูลและข้อเท็จจริง มิติข้อมูลคือเอนทิตีที่องค์กรเก็บรักษาบันทึก

ภาพประกอบของ Data Cube

สมมติว่า บริษัท ต้องการติดตามบันทึกการขายโดยใช้คลังข้อมูลการขายเกี่ยวกับเวลารายการสาขาและสถานที่ มิติข้อมูลเหล่านี้ช่วยให้สามารถติดตามยอดขายรายเดือนและสาขาที่ขายสินค้าได้ มีตารางที่เกี่ยวข้องกับแต่ละมิติ ตารางนี้เรียกว่าตารางมิติ ตัวอย่างเช่นตารางมิติข้อมูล "item" อาจมีแอตทริบิวต์เช่น item_name, item_type และ item_brand

ตารางต่อไปนี้แสดงถึงมุมมอง 2 มิติของข้อมูลการขายสำหรับ บริษัท ที่เกี่ยวกับมิติเวลารายการและสถานที่ตั้ง

แต่ในตาราง 2 มิตินี้เรามีบันทึกเกี่ยวกับเวลาและรายการเท่านั้น ยอดขายสำหรับนิวเดลีจะแสดงตามเวลาและขนาดสินค้าตามประเภทของสินค้าที่ขาย หากเราต้องการดูข้อมูลการขายด้วยมิติข้อมูลเพิ่มเติมเช่นมิติสถานที่ตั้งแล้วมุมมอง 3 มิติจะมีประโยชน์ มุมมอง 3 มิติของข้อมูลการขายเกี่ยวกับเวลาสินค้าและสถานที่แสดงอยู่ในตารางด้านล่าง -

ตาราง 3 มิติด้านบนสามารถแสดงเป็นคิวบ์ข้อมูล 3 มิติได้ดังแสดงในรูปต่อไปนี้ -

ข้อมูลมาร์ท

มาร์ทข้อมูลประกอบด้วยชุดย่อยของข้อมูลทั้งองค์กรที่มีค่าสำหรับกลุ่มคนเฉพาะในองค์กร กล่าวอีกนัยหนึ่งดาต้ามาร์ทจะมีเฉพาะข้อมูลที่เฉพาะเจาะจงสำหรับกลุ่มใดกลุ่มหนึ่งเท่านั้น ตัวอย่างเช่นมาร์ทข้อมูลการตลาดอาจมีเฉพาะข้อมูลที่เกี่ยวข้องกับสินค้าลูกค้าและการขาย มาร์ทข้อมูลถูก จำกัด เฉพาะเรื่อง

ข้อควรจำเกี่ยวกับ Data Marts

  • เซิร์ฟเวอร์ที่ใช้ Windows หรือ Unix / Linux ใช้เพื่อใช้งาน data marts ใช้งานบนเซิร์ฟเวอร์ต้นทุนต่ำ

  • วงจรการดำเนินการของดาต้ามาร์ทถูกวัดในช่วงเวลาสั้น ๆ กล่าวคือเป็นสัปดาห์แทนที่จะเป็นเดือนหรือปี

  • วงจรชีวิตของ data marts อาจซับซ้อนในระยะยาวหากการวางแผนและการออกแบบไม่ครอบคลุมทั้งองค์กร

  • มาร์ทข้อมูลมีขนาดเล็ก

  • มาร์ทข้อมูลได้รับการปรับแต่งตามแผนก

  • แหล่งที่มาของดาต้ามาร์ทคือคลังข้อมูลที่มีโครงสร้างแบบแผนก

  • มาร์ทข้อมูลมีความยืดหยุ่น

รูปต่อไปนี้แสดงการแสดงกราฟิกของ data marts

คลังสินค้าเสมือน

มุมมองของคลังข้อมูลการดำเนินงานเรียกว่าคลังสินค้าเสมือน การสร้างคลังสินค้าเสมือนเป็นเรื่องง่าย การสร้างคลังสินค้าเสมือนจำเป็นต้องใช้ความจุส่วนเกินบนเซิร์ฟเวอร์ฐานข้อมูลปฏิบัติการ

คลังข้อมูลจะไม่หยุดนิ่ง มันพัฒนาขึ้นเมื่อธุรกิจขยายตัว ในขณะที่ธุรกิจมีการเปลี่ยนแปลงข้อกำหนดต่างๆจึงเปลี่ยนแปลงไปเรื่อย ๆ ดังนั้นจึงต้องออกแบบคลังข้อมูลให้รองรับกับการเปลี่ยนแปลงเหล่านี้ ดังนั้นระบบคลังข้อมูลจึงต้องมีความยืดหยุ่น

ตามหลักการแล้วควรมีกระบวนการจัดส่งเพื่อส่งมอบคลังข้อมูล อย่างไรก็ตามโดยปกติโครงการคลังข้อมูลจะประสบปัญหาต่างๆที่ทำให้ยากต่อการทำงานและการส่งมอบให้เสร็จสิ้นในรูปแบบที่เข้มงวดและได้รับคำสั่งจากวิธีการ Waterfall ส่วนใหญ่แล้วข้อกำหนดจะไม่เข้าใจอย่างสมบูรณ์ สถาปัตยกรรมการออกแบบและการสร้างส่วนประกอบสามารถทำได้หลังจากรวบรวมและศึกษาข้อกำหนดทั้งหมดแล้วเท่านั้น

วิธีการจัดส่ง

วิธีการจัดส่งเป็นรูปแบบหนึ่งของแนวทางการพัฒนาแอปพลิเคชันร่วมที่นำมาใช้สำหรับการส่งมอบคลังข้อมูล เราได้จัดกระบวนการจัดส่งคลังข้อมูลเพื่อลดความเสี่ยง แนวทางที่เราจะพูดถึงในที่นี้ไม่ได้ลดระยะเวลาในการจัดส่งโดยรวม แต่ทำให้มั่นใจได้ว่าผลประโยชน์ทางธุรกิจจะได้รับเพิ่มขึ้นเรื่อย ๆ ผ่านกระบวนการพัฒนา

Note - ขั้นตอนการจัดส่งแบ่งออกเป็นระยะเพื่อลดความเสี่ยงของโครงการและการจัดส่ง

แผนภาพต่อไปนี้อธิบายขั้นตอนในกระบวนการจัดส่ง -

กลยุทธ์ด้านไอที

คลังข้อมูลคือการลงทุนเชิงกลยุทธ์ที่ต้องใช้กระบวนการทางธุรกิจเพื่อสร้างผลประโยชน์ จำเป็นต้องมีกลยุทธ์ด้านไอทีในการจัดหาและรักษาเงินทุนสำหรับโครงการ

กรณีธุรกิจ

วัตถุประสงค์ของกรณีธุรกิจคือการประมาณผลประโยชน์ทางธุรกิจที่ควรจะได้รับจากการใช้คลังข้อมูล ผลประโยชน์เหล่านี้อาจไม่สามารถวัดได้ แต่จำเป็นต้องระบุผลประโยชน์ที่คาดการณ์ไว้อย่างชัดเจน หากคลังข้อมูลไม่มีกรณีทางธุรกิจที่ชัดเจนแสดงว่าธุรกิจมีแนวโน้มที่จะประสบปัญหาความน่าเชื่อถือในบางขั้นตอนระหว่างกระบวนการจัดส่ง ดังนั้นในโครงการคลังข้อมูลเราจำเป็นต้องเข้าใจกรณีธุรกิจเพื่อการลงทุน

การศึกษาและการสร้างต้นแบบ

องค์กรต่างๆทดลองใช้แนวคิดของการวิเคราะห์ข้อมูลและให้ความรู้เกี่ยวกับคุณค่าของการมีคลังข้อมูลก่อนที่จะหาทางแก้ปัญหา สิ่งนี้ได้รับการแก้ไขโดยการสร้างต้นแบบ ช่วยในการทำความเข้าใจความเป็นไปได้และประโยชน์ของคลังข้อมูล กิจกรรมการสร้างต้นแบบในระดับเล็กสามารถส่งเสริมกระบวนการศึกษาได้ตราบเท่าที่ -

  • ต้นแบบกล่าวถึงวัตถุประสงค์ทางเทคนิคที่กำหนดไว้

  • ต้นแบบสามารถโยนทิ้งไปได้หลังจากแสดงแนวคิดความเป็นไปได้แล้ว

  • กิจกรรมกล่าวถึงเนื้อหาข้อมูลในท้ายที่สุดชุดย่อยเล็ก ๆ ของคลังข้อมูล

  • ช่วงเวลาของกิจกรรมไม่สำคัญ

โปรดคำนึงถึงประเด็นต่อไปนี้เพื่อผลิตรุ่นก่อนกำหนดและมอบผลประโยชน์ทางธุรกิจ

  • ระบุสถาปัตยกรรมที่สามารถพัฒนาได้

  • มุ่งเน้นไปที่ข้อกำหนดทางธุรกิจและขั้นตอนพิมพ์เขียวทางเทคนิค

  • จำกัด ขอบเขตของระยะการสร้างแรกให้น้อยที่สุดเพื่อให้เกิดประโยชน์ทางธุรกิจ

  • ทำความเข้าใจข้อกำหนดระยะสั้นและระยะกลางของคลังข้อมูล

ข้อกำหนดทางธุรกิจ

เพื่อให้ได้สินค้าที่มีคุณภาพเราควรตรวจสอบให้แน่ใจว่าเข้าใจข้อกำหนดโดยรวมแล้ว หากเราเข้าใจข้อกำหนดทางธุรกิจทั้งในระยะสั้นและระยะกลางเราก็สามารถออกแบบโซลูชันเพื่อตอบสนองความต้องการระยะสั้นได้ จากนั้นวิธีการแก้ปัญหาระยะสั้นสามารถขยายไปสู่โซลูชันเต็มรูปแบบ

ประเด็นต่อไปนี้ถูกกำหนดในขั้นตอนนี้ -

  • กฎทางธุรกิจที่จะใช้กับข้อมูล

  • แบบจำลองทางตรรกะสำหรับข้อมูลภายในคลังข้อมูล

  • โปรไฟล์แบบสอบถามสำหรับความต้องการทันที

  • ระบบต้นทางที่ให้ข้อมูลนี้

พิมพ์เขียวทางเทคนิค

ขั้นตอนนี้จำเป็นต้องส่งมอบสถาปัตยกรรมโดยรวมที่ตรงตามความต้องการในระยะยาว ระยะนี้ยังส่งมอบส่วนประกอบที่ต้องดำเนินการในระยะสั้นเพื่อให้ได้มาซึ่งผลประโยชน์ทางธุรกิจ พิมพ์เขียวจำเป็นต้องระบุสิ่งต่อไปนี้

  • สถาปัตยกรรมระบบโดยรวม
  • นโยบายการเก็บรักษาข้อมูล
  • กลยุทธ์การสำรองและการกู้คืน
  • สถาปัตยกรรมเซิร์ฟเวอร์และดาต้ามาร์ท
  • แผนกำลังการผลิตสำหรับฮาร์ดแวร์และโครงสร้างพื้นฐาน
  • ส่วนประกอบของการออกแบบฐานข้อมูล

การสร้างเวอร์ชัน

ในขั้นตอนนี้จะมีการผลิตที่ส่งมอบได้ครั้งแรก การผลิตที่ส่งมอบได้นี้เป็นองค์ประกอบที่เล็กที่สุดของคลังข้อมูล ส่วนประกอบที่เล็กที่สุดนี้ช่วยเพิ่มผลประโยชน์ทางธุรกิจ

โหลดประวัติ

นี่คือเฟสที่โหลดส่วนที่เหลือของประวัติที่ต้องการลงในคลังข้อมูล ในขั้นตอนนี้เราไม่ได้เพิ่มเอนทิตีใหม่ แต่อาจมีการสร้างตารางทางกายภาพเพิ่มเติมเพื่อจัดเก็บปริมาณข้อมูลที่เพิ่มขึ้น

ให้เราเป็นตัวอย่าง สมมติว่าเวอร์ชันเวอร์ชันบิวด์ได้ส่งมอบคลังข้อมูลการวิเคราะห์การขายปลีกพร้อมประวัติมูลค่า 2 เดือน ข้อมูลนี้จะช่วยให้ผู้ใช้วิเคราะห์เฉพาะแนวโน้มล่าสุดและแก้ไขปัญหาระยะสั้น ผู้ใช้ในกรณีนี้ไม่สามารถระบุแนวโน้มประจำปีและฤดูกาลได้ เพื่อช่วยเขาทำเช่นนั้นประวัติการขาย 2 ปีล่าสุดสามารถโหลดได้จากที่เก็บถาวร ตอนนี้ข้อมูล 40GB ขยายเป็น 400GB

Note - ขั้นตอนการสำรองข้อมูลและการกู้คืนอาจซับซ้อนดังนั้นจึงขอแนะนำให้ทำกิจกรรมนี้ภายในระยะที่แยกกัน

แบบสอบถามเฉพาะกิจ

ในขั้นตอนนี้เรากำหนดค่าเครื่องมือสืบค้นข้อมูลเฉพาะกิจที่ใช้เพื่อดำเนินการคลังข้อมูล เครื่องมือเหล่านี้สามารถสร้างแบบสอบถามฐานข้อมูล

Note - ไม่แนะนำให้ใช้เครื่องมือการเข้าถึงเหล่านี้เมื่อฐานข้อมูลกำลังถูกแก้ไขอย่างมาก

ระบบอัตโนมัติ

ในขั้นตอนนี้กระบวนการจัดการการปฏิบัติงานจะเป็นแบบอัตโนมัติทั้งหมด สิ่งเหล่านี้ ได้แก่ -

  • การแปลงข้อมูลให้อยู่ในรูปแบบที่เหมาะสมสำหรับการวิเคราะห์

  • การตรวจสอบโปรไฟล์แบบสอบถามและกำหนดการรวมที่เหมาะสมเพื่อรักษาประสิทธิภาพของระบบ

  • การแยกและโหลดข้อมูลจากระบบต้นทางที่แตกต่างกัน

  • การสร้างการรวมจากคำจำกัดความที่กำหนดไว้ล่วงหน้าภายในคลังข้อมูล

  • การสำรองกู้คืนและจัดเก็บข้อมูล

ขอบเขตการขยาย

ในระยะนี้คลังข้อมูลจะขยายออกไปเพื่อตอบสนองความต้องการทางธุรกิจชุดใหม่ ขอบเขตสามารถขยายได้สองวิธี -

  • โดยการโหลดข้อมูลเพิ่มเติมลงในคลังข้อมูล

  • โดยการแนะนำ data marts ใหม่โดยใช้ข้อมูลที่มีอยู่

Note - ขั้นตอนนี้ควรดำเนินการแยกกันเนื่องจากต้องใช้ความพยายามและความซับซ้อนอย่างมาก

ข้อกำหนดวิวัฒนาการ

จากมุมมองของกระบวนการจัดส่งข้อกำหนดสามารถเปลี่ยนแปลงได้เสมอ พวกเขาไม่คงที่ กระบวนการจัดส่งต้องรองรับสิ่งนี้และอนุญาตให้แสดงการเปลี่ยนแปลงเหล่านี้ภายในระบบ

ปัญหานี้แก้ไขได้โดยการออกแบบคลังข้อมูลเกี่ยวกับการใช้ข้อมูลภายในกระบวนการทางธุรกิจซึ่งตรงข้ามกับข้อกำหนดข้อมูลของแบบสอบถามที่มีอยู่

สถาปัตยกรรมได้รับการออกแบบมาเพื่อเปลี่ยนแปลงและเติบโตเพื่อให้ตรงกับความต้องการทางธุรกิจกระบวนการนี้ดำเนินการเป็นกระบวนการพัฒนาแอปพลิเคชันหลอกซึ่งข้อกำหนดใหม่จะถูกป้อนเข้าสู่กิจกรรมการพัฒนาอย่างต่อเนื่องและมีการผลิตสิ่งที่ส่งมอบบางส่วน สิ่งที่ส่งมอบบางส่วนเหล่านี้จะถูกส่งกลับไปยังผู้ใช้จากนั้นนำไปปรับปรุงใหม่เพื่อให้แน่ใจว่าระบบโดยรวมได้รับการอัปเดตอย่างต่อเนื่องเพื่อตอบสนองความต้องการทางธุรกิจ

เรามีจำนวนการดำเนินการคงที่ที่จะนำไปใช้กับฐานข้อมูลการปฏิบัติงานและเรามีเทคนิคที่กำหนดไว้อย่างดีเช่น use normalized data, keep table smallฯลฯ เทคนิคเหล่านี้เหมาะสำหรับการส่งมอบโซลูชัน แต่ในกรณีของระบบสนับสนุนการตัดสินใจเราไม่ทราบว่าจะต้องดำเนินการสืบค้นและการดำเนินการใดในอนาคต ดังนั้นเทคนิคที่ใช้กับฐานข้อมูลเชิงปฏิบัติการจึงไม่เหมาะสำหรับคลังข้อมูล

ในบทนี้เราจะพูดถึงวิธีการสร้างโซลูชันคลังข้อมูลบนเทคโนโลยีระบบเปิดชั้นนำเช่น Unix และฐานข้อมูลเชิงสัมพันธ์

ผังกระบวนการในคลังข้อมูล

มีกระบวนการสำคัญสี่กระบวนการที่นำไปสู่คลังข้อมูล -

  • แยกและโหลดข้อมูล
  • การทำความสะอาดและการแปลงข้อมูล
  • สำรองและจัดเก็บข้อมูล
  • การจัดการคิวรีและกำหนดทิศทางไปยังแหล่งข้อมูลที่เหมาะสม

แยกและโหลดกระบวนการ

การดึงข้อมูลนำข้อมูลจากระบบต้นทาง โหลดข้อมูลนำข้อมูลที่แยกแล้วโหลดลงในคลังข้อมูล

Note - ก่อนที่จะโหลดข้อมูลลงในคลังข้อมูลข้อมูลที่ดึงมาจากแหล่งข้อมูลภายนอกจะต้องถูกสร้างขึ้นใหม่

การควบคุมกระบวนการ

การควบคุมกระบวนการเกี่ยวข้องกับการกำหนดเวลาที่จะเริ่มการแยกข้อมูลและการตรวจสอบความสอดคล้องของข้อมูล กระบวนการควบคุมช่วยให้มั่นใจได้ว่าเครื่องมือโมดูลลอจิกและโปรแกรมทำงานตามลำดับที่ถูกต้องและในเวลาที่ถูกต้อง

เมื่อใดที่จะเริ่มต้นสารสกัด

ข้อมูลต้องอยู่ในสถานะที่สอดคล้องกันเมื่อมีการแยกข้อมูลกล่าวคือคลังข้อมูลควรเป็นตัวแทนของข้อมูลเวอร์ชันเดียวที่สอดคล้องกันให้กับผู้ใช้

ตัวอย่างเช่นในคลังข้อมูลการสร้างโปรไฟล์ลูกค้าในภาคโทรคมนาคมการรวมรายชื่อลูกค้าในเวลา 20.00 น. ของวันพุธจากฐานข้อมูลลูกค้ากับเหตุการณ์การสมัครสมาชิกของลูกค้าจนถึง 20.00 น. ในวันอังคารนั้นเป็นเรื่องที่ไม่สมเหตุสมผล ซึ่งหมายความว่าเรากำลังค้นหาลูกค้าที่ไม่มีการสมัครสมาชิกที่เกี่ยวข้อง

กำลังโหลดข้อมูล

หลังจากแยกข้อมูลแล้วข้อมูลจะถูกโหลดลงในที่เก็บข้อมูลชั่วคราวซึ่งจะมีการล้างข้อมูลและทำให้สอดคล้องกัน

Note - การตรวจสอบความสอดคล้องจะดำเนินการก็ต่อเมื่อแหล่งข้อมูลทั้งหมดถูกโหลดลงในที่เก็บข้อมูลชั่วคราว

ทำความสะอาดและเปลี่ยนกระบวนการ

เมื่อข้อมูลถูกแยกและโหลดลงในที่เก็บข้อมูลชั่วคราวก็ถึงเวลาดำเนินการทำความสะอาดและแปลงร่าง นี่คือรายการขั้นตอนที่เกี่ยวข้องในการทำความสะอาดและการแปลงร่าง -

  • ทำความสะอาดและแปลงข้อมูลที่โหลดให้เป็นโครงสร้าง
  • แบ่งพาร์ติชันข้อมูล
  • Aggregation

ทำความสะอาดและแปลงข้อมูลที่โหลดให้เป็นโครงสร้าง

การทำความสะอาดและการแปลงข้อมูลที่โหลดจะช่วยเร่งความเร็วในการสืบค้น สามารถทำได้โดยการทำให้ข้อมูลสอดคล้องกัน -

  • ภายในตัวมันเอง
  • กับข้อมูลอื่น ๆ ภายในแหล่งข้อมูลเดียวกัน
  • กับข้อมูลในระบบต้นทางอื่น ๆ
  • ด้วยข้อมูลที่มีอยู่ในคลังสินค้า

การแปลงข้อมูลเกี่ยวข้องกับการแปลงแหล่งข้อมูลให้เป็นโครงสร้าง การจัดโครงสร้างข้อมูลจะเพิ่มประสิทธิภาพการสืบค้นและลดต้นทุนการดำเนินงาน ข้อมูลที่อยู่ในคลังข้อมูลจะต้องถูกแปลงเพื่อรองรับข้อกำหนดด้านประสิทธิภาพและควบคุมต้นทุนการดำเนินงานที่กำลังดำเนินอยู่

แบ่งพาร์ติชันข้อมูล

จะเพิ่มประสิทธิภาพของฮาร์ดแวร์และลดความซับซ้อนในการจัดการคลังข้อมูล ที่นี่เราแบ่งตารางข้อเท็จจริงแต่ละตารางเป็นพาร์ทิชันแยกกันหลาย ๆ

การรวม

จำเป็นต้องมีการรวมเพื่อเร่งการสืบค้นทั่วไป การสรุปรวมขึ้นอยู่กับข้อเท็จจริงที่ว่าการสืบค้นทั่วไปส่วนใหญ่จะวิเคราะห์ชุดย่อยหรือการรวมข้อมูลโดยละเอียด

สำรองและจัดเก็บข้อมูล

ในการกู้คืนข้อมูลในกรณีที่ข้อมูลสูญหายซอฟต์แวร์ล้มเหลวหรือฮาร์ดแวร์ล้มเหลวจำเป็นต้องสำรองข้อมูลเป็นประจำ การเก็บถาวรเกี่ยวข้องกับการลบข้อมูลเก่าออกจากระบบในรูปแบบที่ช่วยให้สามารถกู้คืนได้อย่างรวดเร็วเมื่อใดก็ตามที่ต้องการ

ตัวอย่างเช่นในคลังข้อมูลการวิเคราะห์การขายปลีกอาจจำเป็นต้องเก็บข้อมูลไว้ 3 ปีโดยข้อมูล 6 เดือนล่าสุดจะถูกเก็บไว้ทางออนไลน์ ในสถานการณ์เช่นนี้มักจะมีข้อกำหนดให้สามารถทำการเปรียบเทียบแบบเดือนต่อเดือนสำหรับปีนี้และปีที่แล้วได้ ในกรณีนี้เราจำเป็นต้องกู้คืนข้อมูลบางส่วนจากที่เก็บถาวร

กระบวนการจัดการแบบสอบถาม

กระบวนการนี้ทำหน้าที่ดังต่อไปนี้ -

  • จัดการการสืบค้น

  • ช่วยเร่งเวลาดำเนินการของ queris

  • นำการสืบค้นไปยังแหล่งข้อมูลที่มีประสิทธิภาพสูงสุด

  • ช่วยให้มั่นใจได้ว่าแหล่งที่มาของระบบทั้งหมดถูกใช้อย่างมีประสิทธิภาพสูงสุด

  • ตรวจสอบโปรไฟล์การสืบค้นจริง

ข้อมูลที่สร้างขึ้นในกระบวนการนี้ถูกใช้โดยกระบวนการจัดการคลังสินค้าเพื่อพิจารณาว่าจะสร้างการรวบรวมใด โดยทั่วไปกระบวนการนี้จะไม่ทำงานในระหว่างการโหลดข้อมูลลงในคลังข้อมูลเป็นประจำ

ในบทนี้เราจะพูดถึงกรอบการวิเคราะห์ธุรกิจสำหรับการออกแบบคลังข้อมูลและสถาปัตยกรรมของคลังข้อมูล

กรอบการวิเคราะห์ธุรกิจ

นักวิเคราะห์ธุรกิจได้รับข้อมูลจากคลังข้อมูลเพื่อวัดประสิทธิภาพและทำการปรับเปลี่ยนที่สำคัญเพื่อให้ได้รับชัยชนะเหนือผู้ถือธุรกิจรายอื่นในตลาด การมีคลังข้อมูลมีข้อดีดังต่อไปนี้ -

  • เนื่องจากคลังข้อมูลสามารถรวบรวมข้อมูลได้อย่างรวดเร็วและมีประสิทธิภาพจึงสามารถเพิ่มประสิทธิผลทางธุรกิจได้

  • คลังข้อมูลช่วยให้เรามีมุมมองที่สอดคล้องกันของลูกค้าและสินค้าดังนั้นจึงช่วยให้เราจัดการความสัมพันธ์กับลูกค้าได้

  • คลังข้อมูลยังช่วยลดค่าใช้จ่ายด้วยการติดตามแนวโน้มรูปแบบในระยะเวลาอันยาวนานอย่างสม่ำเสมอและเชื่อถือได้

ในการออกแบบคลังข้อมูลที่มีประสิทธิผลเราจำเป็นต้องเข้าใจและวิเคราะห์ความต้องการทางธุรกิจและสร้างก business analysis framework. แต่ละคนมีมุมมองที่แตกต่างกันเกี่ยวกับการออกแบบคลังข้อมูล มุมมองเหล่านี้มีดังนี้ -

  • The top-down view - มุมมองนี้ช่วยให้สามารถเลือกข้อมูลที่เกี่ยวข้องที่จำเป็นสำหรับคลังข้อมูลได้

  • The data source view - มุมมองนี้นำเสนอข้อมูลที่ถูกบันทึกจัดเก็บและจัดการโดยระบบปฏิบัติการ

  • The data warehouse view- มุมมองนี้รวมถึงตารางข้อเท็จจริงและตารางมิติข้อมูล แสดงถึงข้อมูลที่จัดเก็บภายในคลังข้อมูล

  • The business query view - เป็นการดูข้อมูลจากมุมมองของผู้ใช้ปลายทาง

สถาปัตยกรรมคลังข้อมูลสามชั้น

โดยทั่วไปคลังข้อมูลจะใช้สถาปัตยกรรมสามชั้น ต่อไปนี้เป็นสามระดับของสถาปัตยกรรมคลังข้อมูล

  • Bottom Tier- ชั้นล่างสุดของสถาปัตยกรรมคือเซิร์ฟเวอร์ฐานข้อมูลคลังข้อมูล เป็นระบบฐานข้อมูลเชิงสัมพันธ์ เราใช้เครื่องมือส่วนหลังและยูทิลิตี้เพื่อป้อนข้อมูลไปยังชั้นล่างสุด เครื่องมือและยูทิลิตี้แบ็คเอนด์เหล่านี้ทำหน้าที่แยกล้างโหลดและรีเฟรช

  • Middle Tier - ในระดับกลางเรามี OLAP Server ที่สามารถใช้งานได้ด้วยวิธีใดวิธีหนึ่งดังต่อไปนี้

    • โดย Relational OLAP (ROLAP) ซึ่งเป็นระบบการจัดการฐานข้อมูลเชิงสัมพันธ์แบบขยาย ROLAP จะแมปการดำเนินการกับข้อมูลหลายมิติกับการดำเนินการเชิงสัมพันธ์มาตรฐาน

    • โดยแบบจำลอง OLAP หลายมิติ (MOLAP) ซึ่งใช้ข้อมูลและการดำเนินการหลายมิติโดยตรง

  • Top-Tier- ระดับนี้เป็นเลเยอร์ไคลเอนต์ส่วนหน้า ชั้นนี้มีเครื่องมือสืบค้นข้อมูลและเครื่องมือรายงานเครื่องมือวิเคราะห์และเครื่องมือขุดข้อมูล

แผนภาพต่อไปนี้แสดงถึงสถาปัตยกรรมสามชั้นของคลังข้อมูล -

แบบจำลองคลังข้อมูล

จากมุมมองของสถาปัตยกรรมคลังข้อมูลเรามีโมเดลคลังข้อมูลดังต่อไปนี้ -

  • คลังสินค้าเสมือน
  • ข้อมูลมาร์ท
  • คลังสินค้าขององค์กร

คลังสินค้าเสมือน

มุมมองของคลังข้อมูลการดำเนินงานเรียกว่าคลังสินค้าเสมือน การสร้างคลังสินค้าเสมือนเป็นเรื่องง่าย การสร้างคลังสินค้าเสมือนจำเป็นต้องใช้ความจุส่วนเกินบนเซิร์ฟเวอร์ฐานข้อมูลปฏิบัติการ

ข้อมูลมาร์ท

ดาต้ามาร์ทมีข้อมูลย่อยทั้งองค์กร ข้อมูลชุดย่อยนี้มีค่าสำหรับกลุ่มเฉพาะขององค์กร

กล่าวอีกนัยหนึ่งเราสามารถอ้างได้ว่า data marts มีข้อมูลเฉพาะสำหรับกลุ่มใดกลุ่มหนึ่ง ตัวอย่างเช่นข้อมูลการตลาดอาจมีข้อมูลที่เกี่ยวข้องกับสินค้าลูกค้าและการขาย มาร์ทข้อมูลถูก จำกัด เฉพาะเรื่อง

ข้อควรจำเกี่ยวกับ data marts -

  • เซิร์ฟเวอร์ที่ใช้ Window หรือ Unix / Linux ใช้เพื่อใช้งาน data marts ใช้งานบนเซิร์ฟเวอร์ต้นทุนต่ำ

  • รอบการใช้งานดาต้ามาร์ทถูกวัดในช่วงเวลาสั้น ๆ กล่าวคือเป็นสัปดาห์แทนที่จะเป็นเดือนหรือปี

  • วงจรชีวิตของดาต้ามาร์ทอาจมีความซับซ้อนในระยะยาวหากการวางแผนและการออกแบบไม่ครอบคลุมทั้งองค์กร

  • มาร์ทข้อมูลมีขนาดเล็ก

  • มาร์ทข้อมูลได้รับการปรับแต่งตามแผนก

  • แหล่งที่มาของดาต้ามาร์ทคือคลังข้อมูลที่มีโครงสร้างแบบแผนก

  • ดาต้ามาร์ทมีความยืดหยุ่น

คลังสินค้าขององค์กร

  • คลังสินค้าขององค์กรรวบรวมข้อมูลทั้งหมดและหัวข้อที่ครอบคลุมทั้งองค์กร

  • ให้การรวมข้อมูลทั้งองค์กรแก่เรา

  • ข้อมูลถูกรวมจากระบบปฏิบัติการและผู้ให้บริการข้อมูลภายนอก

  • ข้อมูลนี้อาจแตกต่างกันไปตั้งแต่ไม่กี่กิกะไบต์ไปจนถึงหลายร้อยกิกะไบต์เทราไบต์หรือมากกว่านั้น

ตัวจัดการการโหลด

ส่วนประกอบนี้ดำเนินการที่จำเป็นในการแยกและโหลดกระบวนการ

ขนาดและความซับซ้อนของตัวจัดการโหลดจะแตกต่างกันไประหว่างโซลูชันเฉพาะจากคลังข้อมูลหนึ่งไปยังคลังข้อมูลอื่น

สถาปัตยกรรม Load Manager

ตัวจัดการโหลดทำหน้าที่ดังต่อไปนี้ -

  • ดึงข้อมูลจากระบบต้นทาง

  • โหลดข้อมูลที่แยกแล้วลงในที่เก็บข้อมูลชั่วคราวอย่างรวดเร็ว

  • ทำการแปลงอย่างง่ายให้เป็นโครงสร้างที่คล้ายกับโครงสร้างในคลังข้อมูล

ดึงข้อมูลจากแหล่งที่มา

ข้อมูลถูกดึงมาจากฐานข้อมูลการปฏิบัติงานหรือผู้ให้บริการข้อมูลภายนอก เกตเวย์คือโปรแกรมแอปพลิเคชันที่ใช้ในการดึงข้อมูล ได้รับการสนับสนุนโดย DBMS พื้นฐานและอนุญาตให้โปรแกรมไคลเอนต์สร้าง SQL เพื่อดำเนินการที่เซิร์ฟเวอร์ Open Database Connection (ODBC), Java Database Connection (JDBC) เป็นตัวอย่างของเกตเวย์

โหลดเร็ว

  • เพื่อลดหน้าต่างการโหลดทั้งหมดให้น้อยที่สุดจำเป็นต้องโหลดข้อมูลลงในคลังสินค้าโดยเร็วที่สุด

  • การแปลงมีผลต่อความเร็วของการประมวลผลข้อมูล

  • การโหลดข้อมูลลงในฐานข้อมูลเชิงสัมพันธ์จะมีประสิทธิภาพมากกว่าก่อนที่จะใช้การแปลงและการตรวจสอบ

  • เทคโนโลยีเกตเวย์พิสูจน์ได้ว่าไม่เหมาะสมเนื่องจากมักจะไม่มีประสิทธิภาพเมื่อมีข้อมูลจำนวนมากเข้ามาเกี่ยวข้อง

การเปลี่ยนแปลงอย่างง่าย

ในขณะที่โหลดอาจจำเป็นต้องทำการแปลงอย่างง่าย หลังจากเสร็จสิ้นแล้วเราก็พร้อมที่จะทำการตรวจสอบที่ซับซ้อน สมมติว่าเรากำลังโหลดธุรกรรมการขาย EPOS เราจำเป็นต้องทำการตรวจสอบต่อไปนี้:

  • ตัดคอลัมน์ทั้งหมดที่ไม่จำเป็นภายในคลังสินค้าออก
  • แปลงค่าทั้งหมดเป็นชนิดข้อมูลที่ต้องการ

ผู้จัดการคลังสินค้า

ผู้จัดการคลังสินค้ามีหน้าที่รับผิดชอบในกระบวนการจัดการคลังสินค้า ประกอบด้วยซอฟต์แวร์ระบบของ บริษัท อื่นโปรแกรม C และเชลล์สคริปต์

ขนาดและความซับซ้อนของผู้จัดการคลังสินค้าแตกต่างกันไประหว่างโซลูชันเฉพาะ

สถาปัตยกรรมผู้จัดการคลังสินค้า

ผู้จัดการคลังสินค้ามีดังต่อไปนี้ -

  • กระบวนการควบคุม
  • กระบวนงานที่เก็บไว้หรือ C กับ SQL
  • เครื่องมือสำรอง / กู้คืน
  • สคริปต์ SQL

การดำเนินการโดยผู้จัดการคลังสินค้า

  • ผู้จัดการคลังสินค้าจะวิเคราะห์ข้อมูลเพื่อทำการตรวจสอบความสอดคล้องและการอ้างอิงความสมบูรณ์

  • สร้างดัชนีมุมมองทางธุรกิจมุมมองพาร์ติชันเทียบกับข้อมูลพื้นฐาน

  • สร้างการรวมใหม่และอัปเดตการรวมที่มีอยู่ สร้างการปรับมาตรฐาน

  • แปลงและรวมข้อมูลต้นทางลงในคลังข้อมูลที่เผยแพร่

  • สำรองข้อมูลในคลังข้อมูล

  • เก็บข้อมูลที่หมดอายุการใช้งาน

Note - ผู้จัดการคลังสินค้ายังวิเคราะห์โปรไฟล์การสืบค้นเพื่อกำหนดดัชนีและการรวมที่เหมาะสม

ตัวจัดการแบบสอบถาม

  • ตัวจัดการคิวรีมีหน้าที่กำหนดคิวรีไปยังตารางที่เหมาะสม

  • การกำหนดคิวรีไปยังตารางที่เหมาะสมจะทำให้ความเร็วในการสืบค้นและการสร้างการตอบกลับเพิ่มขึ้นได้

  • ตัวจัดการคิวรีมีหน้าที่จัดตารางการดำเนินการของแบบสอบถามที่ผู้ใช้วางไว้

สถาปัตยกรรม Query Manager

ภาพหน้าจอต่อไปนี้แสดงสถาปัตยกรรมของตัวจัดการแบบสอบถาม ซึ่งรวมถึงสิ่งต่อไปนี้:

  • การเปลี่ยนเส้นทางแบบสอบถามผ่านเครื่องมือ C หรือ RDBMS
  • ขั้นตอนการจัดเก็บ
  • เครื่องมือจัดการแบบสอบถาม
  • การตั้งเวลาการสืบค้นผ่านเครื่องมือ C หรือ RDBMS
  • การตั้งเวลาการสืบค้นผ่านซอฟต์แวร์ของบุคคลที่สาม

รายละเอียดข้อมูล

ข้อมูลโดยละเอียดจะไม่ถูกเก็บไว้ทางออนไลน์ แต่จะรวมไว้ในระดับรายละเอียดถัดไปจากนั้นจึงเก็บถาวรลงในเทป ส่วนข้อมูลโดยละเอียดของคลังข้อมูลจะเก็บข้อมูลโดยละเอียดไว้ในสคีมา starflake ข้อมูลโดยละเอียดถูกโหลดลงในคลังข้อมูลเพื่อเสริมข้อมูลที่รวบรวม

แผนภาพต่อไปนี้แสดงภาพที่แสดงถึงตำแหน่งที่จัดเก็บข้อมูลโดยละเอียดและวิธีการนำไปใช้

Note - หากข้อมูลโดยละเอียดถูกเก็บไว้แบบออฟไลน์เพื่อลดพื้นที่จัดเก็บดิสก์เราควรตรวจสอบให้แน่ใจว่าข้อมูลได้รับการแยกล้างและเปลี่ยนเป็นสคีมา starflake ก่อนที่จะถูกเก็บถาวร

ข้อมูลสรุป

ข้อมูลสรุปเป็นส่วนหนึ่งของคลังข้อมูลที่จัดเก็บการรวมที่กำหนดไว้ล่วงหน้า การรวมเหล่านี้สร้างขึ้นโดยผู้จัดการคลังสินค้า ข้อมูลสรุปต้องถือว่าเป็นข้อมูลชั่วคราว มันเปลี่ยนไปทุกที่เพื่อตอบสนองต่อการเปลี่ยนแปลงโปรไฟล์การสืบค้น

ประเด็นที่ควรทราบเกี่ยวกับข้อมูลสรุปมีดังนี้ -

  • ข้อมูลสรุปช่วยเพิ่มความเร็วในการทำงานของคำค้นหาทั่วไป

  • เป็นการเพิ่มต้นทุนการดำเนินงาน

  • จำเป็นต้องมีการอัปเดตทุกครั้งที่มีการโหลดข้อมูลใหม่ลงในคลังข้อมูล

  • อาจไม่ได้รับการสำรองข้อมูลเนื่องจากสามารถสร้างขึ้นใหม่จากข้อมูลโดยละเอียด

Online Analytical Processing Server (OLAP) ขึ้นอยู่กับแบบจำลองข้อมูลหลายมิติ ช่วยให้ผู้จัดการและนักวิเคราะห์ได้รับข้อมูลเชิงลึกผ่านการเข้าถึงข้อมูลที่รวดเร็วสม่ำเสมอและโต้ตอบได้ บทนี้ครอบคลุมถึงประเภทของ OLAP การดำเนินการบน OLAP ความแตกต่างระหว่าง OLAP และฐานข้อมูลทางสถิติและ OLTP

ประเภทของเซิร์ฟเวอร์ OLAP

เรามีเซิร์ฟเวอร์ OLAP สี่ประเภท -

  • OLAP เชิงสัมพันธ์ (ROLAP)
  • OLAP หลายมิติ (MOLAP)
  • OLAP ลูกผสม (HOLAP)
  • เซิร์ฟเวอร์ SQL เฉพาะทาง

OLAP เชิงสัมพันธ์

เซิร์ฟเวอร์ ROLAP ถูกวางไว้ระหว่างเซิร์ฟเวอร์ส่วนหลังเชิงสัมพันธ์และเครื่องมือฟรอนต์เอนด์ของไคลเอ็นต์ ในการจัดเก็บและจัดการข้อมูลคลังสินค้า ROLAP ใช้ DBMS เชิงสัมพันธ์หรือแบบขยายความสัมพันธ์

ROLAP มีดังต่อไปนี้ -

  • การใช้ตรรกะการนำทางแบบรวม
  • การเพิ่มประสิทธิภาพสำหรับแบ็คเอนด์ DBMS แต่ละรายการ
  • เครื่องมือและบริการเพิ่มเติม

OLAP หลายมิติ

MOLAP ใช้เอ็นจินการจัดเก็บข้อมูลหลายมิติแบบอาร์เรย์สำหรับมุมมองข้อมูลหลายมิติ ด้วยการจัดเก็บข้อมูลหลายมิติการใช้พื้นที่จัดเก็บอาจต่ำหากชุดข้อมูลกระจัดกระจาย ดังนั้นเซิร์ฟเวอร์ MOLAP จำนวนมากจึงใช้การแสดงที่จัดเก็บข้อมูลสองระดับเพื่อจัดการชุดข้อมูลที่หนาแน่นและกระจัดกระจาย

OLAP แบบไฮบริด

Hybrid OLAP เป็นการผสมผสานระหว่าง ROLAP และ MOLAP มีความสามารถในการปรับขนาดของ ROLAP ที่สูงขึ้นและการคำนวณ MOLAP ที่เร็วขึ้น เซิร์ฟเวอร์ HOLAP อนุญาตให้จัดเก็บข้อมูลรายละเอียดจำนวนมาก การรวมจะถูกจัดเก็บแยกกันในร้าน MOLAP

เซิร์ฟเวอร์ SQL เฉพาะทาง

เซิร์ฟเวอร์ SQL เฉพาะทางให้ภาษาแบบสอบถามขั้นสูงและการสนับสนุนการประมวลผลแบบสอบถามสำหรับการสืบค้น SQL บนสคีมาแบบดาวและเกล็ดหิมะในสภาพแวดล้อมแบบอ่านอย่างเดียว

การดำเนินงาน OLAP

เนื่องจากเซิร์ฟเวอร์ OLAP ขึ้นอยู่กับมุมมองข้อมูลหลายมิติเราจะพูดถึงการทำงานของ OLAP ในข้อมูลหลายมิติ

นี่คือรายการของการดำเนินการ OLAP -

  • Roll-up
  • Drill-down
  • หั่นลูกเต๋า
  • Pivot (หมุน)

ม้วน

โรลอัพทำการรวมบนคิวบ์ข้อมูลด้วยวิธีใดวิธีหนึ่งดังต่อไปนี้ -

  • โดยการไต่ลำดับชั้นแนวคิดสำหรับมิติ
  • โดยการลดขนาด

แผนภาพต่อไปนี้แสดงวิธีการทำงานของภาพรวม

  • การสะสมจะดำเนินการโดยการปีนลำดับชั้นแนวคิดสำหรับตำแหน่งมิติ

  • ในขั้นต้นลำดับชั้นของแนวคิดคือ "ถนน <เมือง <จังหวัด <ประเทศ"

  • ในการรวบรวมข้อมูลจะรวบรวมโดยการเพิ่มขึ้นตามลำดับชั้นของสถานที่ตั้งจากระดับเมืองไปยังระดับของประเทศ

  • ข้อมูลจะถูกจัดกลุ่มเป็นเมืองมากกว่าประเทศ

  • เมื่อดำเนินการรวบรวมมิติข้อมูลอย่างน้อยหนึ่งมิติจากคิวบ์ข้อมูลจะถูกลบออก

เจาะลงไป

การดูรายละเอียดเป็นการดำเนินการย้อนกลับของการม้วนขึ้น ดำเนินการโดยวิธีใดวิธีหนึ่งดังต่อไปนี้ -

  • โดยการลดลำดับชั้นแนวคิดสำหรับมิติ
  • ด้วยการแนะนำมิติใหม่

แผนภาพต่อไปนี้แสดงให้เห็นถึงวิธีการทำงานแบบเจาะลึก -

  • การเจาะลึกจะดำเนินการโดยการลดลำดับชั้นของแนวคิดสำหรับเวลามิติ

  • ในขั้นต้นลำดับชั้นของแนวคิดคือ "วัน <เดือน <ไตรมาส <ปี"

  • ในการเจาะลึกมิติเวลาจะลดลงจากระดับของไตรมาสไปยังระดับของเดือน

  • เมื่อดำเนินการเจาะลึกมิติข้อมูลอย่างน้อยหนึ่งมิติจากคิวบ์ข้อมูลจะถูกเพิ่ม

  • นำทางข้อมูลจากข้อมูลที่มีรายละเอียดน้อยไปยังข้อมูลที่มีรายละเอียดสูง

ชิ้น

การดำเนินการ slice จะเลือกมิติเฉพาะหนึ่งมิติจากคิวบ์ที่กำหนดและจัดเตรียมคิวบ์ย่อยใหม่ พิจารณาแผนภาพต่อไปนี้ที่แสดงวิธีการทำงานของสไลซ์

  • ที่นี่ Slice ดำเนินการสำหรับมิติข้อมูล "เวลา" โดยใช้เกณฑ์เวลา = "Q1"

  • มันจะสร้างคิวบ์ย่อยใหม่โดยเลือกหนึ่งมิติขึ้นไป

ลูกเต๋า

Dice เลือกสองมิติหรือมากกว่าจากลูกบาศก์ที่กำหนดและจัดเตรียมลูกบาศก์ย่อยใหม่ พิจารณาแผนภาพต่อไปนี้ที่แสดงการทำงานของลูกเต๋า

การดำเนินการลูกเต๋าบนลูกบาศก์ตามเกณฑ์การคัดเลือกต่อไปนี้เกี่ยวข้องกับสามมิติ

  • (location = "Toronto" หรือ "Vancouver")
  • (เวลา = "Q1" หรือ "Q2")
  • (item = "Mobile" หรือ "Modem")

หมุน

การทำงานของเดือยเรียกอีกอย่างว่าการหมุน มันจะหมุนแกนข้อมูลในมุมมองเพื่อให้เป็นทางเลือกในการนำเสนอข้อมูล พิจารณาแผนภาพต่อไปนี้ที่แสดงการทำงานของเดือย

OLAP กับ OLTP

ซีเนียร์ คลังข้อมูล (OLAP) ฐานข้อมูลปฏิบัติการ (OLTP)
1 เกี่ยวข้องกับการประมวลผลข้อมูลในอดีต เกี่ยวข้องกับการประมวลผลแบบวันต่อวัน
2 ระบบ OLAP ถูกใช้โดยผู้มีความรู้เช่นผู้บริหารผู้จัดการและนักวิเคราะห์ เสมียน DBA หรือผู้เชี่ยวชาญด้านฐานข้อมูลใช้ระบบ OLTP
3 มีประโยชน์ในการวิเคราะห์ธุรกิจ มีประโยชน์ในการดำเนินธุรกิจ
4 เน้นข้อมูลออก มุ่งเน้นไปที่ข้อมูลใน.
5 ขึ้นอยู่กับ Star Schema, Snowflake, Schema และ Fact Constellation Schema ขึ้นอยู่กับแบบจำลองความสัมพันธ์ของเอนทิตี
6 มีข้อมูลในอดีต ประกอบด้วยข้อมูลปัจจุบัน
7 ให้ข้อมูลสรุปและรวม ให้ข้อมูลดั้งเดิมและมีรายละเอียดสูง
8 ให้มุมมองข้อมูลสรุปและหลายมิติ ให้มุมมองเชิงสัมพันธ์ที่ละเอียดและเรียบง่ายของข้อมูล
9 จำนวนหรือผู้ใช้เป็นร้อย จำนวนผู้ใช้เป็นพันคน
10 จำนวนบันทึกที่เข้าถึงเป็นล้าน จำนวนบันทึกที่เข้าถึงเป็นสิบ
11 ขนาดฐานข้อมูลตั้งแต่ 100 GB ถึง 1 TB ขนาดฐานข้อมูลตั้งแต่ 100 MB ถึง 1 GB
12 มีความยืดหยุ่นสูง ให้ประสิทธิภาพสูง

เซิร์ฟเวอร์ OLAP เชิงสัมพันธ์ถูกวางไว้ระหว่างเซิร์ฟเวอร์ส่วนหลังเชิงสัมพันธ์และเครื่องมือฟรอนต์เอนด์ของไคลเอ็นต์ ในการจัดเก็บและจัดการข้อมูลคลังสินค้า OLAP เชิงสัมพันธ์จะใช้ DBMS เชิงสัมพันธ์หรือเชิงสัมพันธ์แบบขยาย

ROLAP มีดังต่อไปนี้ -

  • การใช้ตรรกะการนำทางแบบรวม
  • การเพิ่มประสิทธิภาพสำหรับแบ็คเอนด์ DBMS แต่ละรายการ
  • เครื่องมือและบริการเพิ่มเติม

จุดที่ต้องจำ

  • เซิร์ฟเวอร์ ROLAP สามารถปรับขนาดได้สูง

  • เครื่องมือ ROLAP วิเคราะห์ข้อมูลจำนวนมากในหลายมิติ

  • เครื่องมือ ROLAP จัดเก็บและวิเคราะห์ข้อมูลที่มีความผันผวนและเปลี่ยนแปลงได้สูง

สถาปัตยกรรม OLAP เชิงสัมพันธ์

ROLAP ประกอบด้วยส่วนประกอบต่อไปนี้ -

  • เซิร์ฟเวอร์ฐานข้อมูล
  • เซิร์ฟเวอร์ ROLAP
  • เครื่องมือส่วนหน้า

ข้อดี

  • เซิร์ฟเวอร์ ROLAP สามารถใช้กับ RDBMS ที่มีอยู่ได้อย่างง่ายดาย
  • ข้อมูลสามารถจัดเก็บได้อย่างมีประสิทธิภาพเนื่องจากไม่สามารถจัดเก็บข้อมูลเป็นศูนย์ได้
  • เครื่องมือ ROLAP ไม่ใช้คิวบ์ข้อมูลที่คำนวณไว้ล่วงหน้า
  • เซิร์ฟเวอร์ DSS ของกลยุทธ์ขนาดเล็กใช้แนวทาง ROLAP

ข้อเสีย

  • ประสิทธิภาพการค้นหาไม่ดี

  • ข้อ จำกัด บางประการของความสามารถในการปรับขนาดขึ้นอยู่กับสถาปัตยกรรมเทคโนโลยีที่ใช้

OLAP หลายมิติ (MOLAP) ใช้เอ็นจินการจัดเก็บข้อมูลหลายมิติที่อิงอาร์เรย์สำหรับมุมมองข้อมูลหลายมิติ ด้วยการจัดเก็บข้อมูลหลายมิติการใช้พื้นที่จัดเก็บข้อมูลอาจต่ำหากชุดข้อมูลกระจัดกระจาย ดังนั้นเซิร์ฟเวอร์ MOLAP จำนวนมากจึงใช้การแสดงที่จัดเก็บข้อมูลสองระดับเพื่อจัดการกับชุดข้อมูลที่หนาแน่นและกระจัดกระจาย

สิ่งที่ต้องจำ -

  • เครื่องมือ MOLAP ประมวลผลข้อมูลด้วยเวลาตอบสนองที่สม่ำเสมอโดยไม่คำนึงถึงระดับของการสรุปหรือการคำนวณที่เลือก

  • เครื่องมือ MOLAP จำเป็นต้องหลีกเลี่ยงความซับซ้อนมากมายในการสร้างฐานข้อมูลเชิงสัมพันธ์เพื่อจัดเก็บข้อมูลสำหรับการวิเคราะห์

  • เครื่องมือ MOLAP ต้องการประสิทธิภาพที่เร็วที่สุด

  • เซิร์ฟเวอร์ MOLAP ใช้การแสดงหน่วยเก็บข้อมูลสองระดับเพื่อจัดการชุดข้อมูลที่หนาแน่นและกระจัดกระจาย

  • ลูกบาศก์ย่อยที่หนาแน่นขึ้นจะถูกระบุและจัดเก็บเป็นโครงสร้างอาร์เรย์

  • ก้อนย่อยเบาบางใช้เทคโนโลยีการบีบอัด

สถาปัตยกรรม MOLAP

MOLAP ประกอบด้วยส่วนประกอบต่อไปนี้ -

  • เซิร์ฟเวอร์ฐานข้อมูล
  • เซิร์ฟเวอร์ MOLAP
  • เครื่องมือส่วนหน้า

ข้อดี

  • MOLAP ช่วยให้สามารถสร้างดัชนีไปยังข้อมูลสรุปที่คำนวณล่วงหน้าได้เร็วที่สุด
  • ช่วยให้ผู้ใช้ที่เชื่อมต่อกับเครือข่ายที่ต้องการวิเคราะห์ข้อมูลขนาดใหญ่ที่กำหนดน้อยลง
  • ใช้งานง่ายกว่าดังนั้น MOLAP จึงเหมาะสำหรับผู้ใช้ที่ไม่มีประสบการณ์

ข้อเสีย

  • MOLAP ไม่สามารถบรรจุข้อมูลโดยละเอียดได้
  • การใช้พื้นที่เก็บข้อมูลอาจต่ำหากชุดข้อมูลกระจัดกระจาย

MOLAP เทียบกับ ROLAP

ซีเนียร์ MOLAP ROLAP
1 การสืบค้นข้อมูลทำได้รวดเร็ว การดึงข้อมูลค่อนข้างช้า
2 ใช้อาร์เรย์แบบกระจัดกระจายเพื่อจัดเก็บชุดข้อมูล ใช้ตารางเชิงสัมพันธ์
3 MOLAP เหมาะที่สุดสำหรับผู้ใช้ที่ไม่มีประสบการณ์เนื่องจากใช้งานง่ายมาก ROLAP เหมาะที่สุดสำหรับผู้ใช้ที่มีประสบการณ์
4 ดูแลฐานข้อมูลแยกต่างหากสำหรับคิวบ์ข้อมูล อาจไม่ต้องการพื้นที่นอกเหนือจากที่มีอยู่ในคลังข้อมูล
5 สิ่งอำนวยความสะดวก DBMS อ่อนแอ สิ่งอำนวยความสะดวก DBMS มีความแข็งแกร่ง

Schema คือคำอธิบายเชิงตรรกะของฐานข้อมูลทั้งหมด ประกอบด้วยชื่อและคำอธิบายของเรกคอร์ดของประเภทเรกคอร์ดทั้งหมดรวมถึงรายการข้อมูลและการรวมที่เกี่ยวข้องทั้งหมด เช่นเดียวกับฐานข้อมูลคลังข้อมูลยังต้องดูแลสคีมา ฐานข้อมูลใช้โมเดลเชิงสัมพันธ์ในขณะที่คลังข้อมูลใช้สคีมา Star, Snowflake และ Fact Constellation ในบทนี้เราจะพูดถึงสคีมาที่ใช้ในคลังข้อมูล

สคีมา

  • มิติข้อมูลแต่ละรายการในสคีมาแบบดาวจะแสดงด้วยตารางเพียงมิติเดียว

  • ตารางมิติข้อมูลนี้ประกอบด้วยชุดแอตทริบิวต์

  • แผนภาพต่อไปนี้แสดงข้อมูลการขายของ บริษัท ที่เกี่ยวข้องกับสี่มิติ ได้แก่ เวลารายการสาขาและสถานที่ตั้ง

  • มีตารางข้อเท็จจริงอยู่ตรงกลาง ประกอบด้วยคีย์ของแต่ละมิติทั้งสี่มิติ

  • ตารางข้อเท็จจริงยังประกอบด้วยคุณลักษณะต่างๆ ได้แก่ ดอลลาร์ที่ขายและหน่วยที่ขาย

Note- แต่ละมิติมีเพียงตารางมิติเดียวและแต่ละตารางมีชุดแอตทริบิวต์ ตัวอย่างเช่นตารางมิติข้อมูลสถานที่มีชุดแอตทริบิวต์ {location_key, street, city, province_or_state, country} ข้อ จำกัด นี้อาจทำให้เกิดความซ้ำซ้อนของข้อมูล ตัวอย่างเช่น "แวนคูเวอร์" และ "วิคตอเรีย" ทั้งสองเมืองอยู่ในจังหวัดบริติชโคลัมเบียของแคนาดา รายการสำหรับเมืองดังกล่าวอาจทำให้เกิดความซ้ำซ้อนของข้อมูลตามแอตทริบิวต์ province_or_state และประเทศ

สคีมาเกล็ดหิมะ

  • ตารางมิติข้อมูลบางตารางในสคีมา Snowflake เป็นแบบปกติ

  • การทำให้เป็นมาตรฐานจะแยกข้อมูลออกเป็นตารางเพิ่มเติม

  • ตารางมิติข้อมูลในสคีมาเกล็ดหิมะต่างจากสคีมา ตัวอย่างเช่นตารางมิติสินค้าในสคีมาแบบดาวจะถูกทำให้เป็นมาตรฐานและแบ่งออกเป็นตารางมิติสองตาราง ได้แก่ ตารางรายการและซัพพลายเออร์

  • ตอนนี้ตารางมิติสินค้ามีแอตทริบิวต์ item_key, item_name, type, brand และ supplier-key

  • คีย์ซัพพลายเออร์เชื่อมโยงกับตารางมิติซัพพลายเออร์ ตารางมิติซัพพลายเออร์ประกอบด้วยแอตทริบิวต์ supplier_key และ supplier_type

Note - เนื่องจากการทำให้เป็นมาตรฐานในสคีมา Snowflake ความซ้ำซ้อนจึงลดลงดังนั้นจึงง่ายต่อการบำรุงรักษาและประหยัดพื้นที่จัดเก็บ

โครงร่าง Fact Constellation

  • กลุ่มดาวข้อเท็จจริงมีตารางข้อเท็จจริงหลายตาราง เป็นที่รู้จักกันในชื่อ galaxy schema

  • แผนภาพต่อไปนี้แสดงตารางข้อเท็จจริงสองตาราง ได้แก่ การขายและการจัดส่ง

  • ตารางข้อมูลการขายจะเหมือนกับในสคีมาดาว

  • ตารางข้อมูลการจัดส่งมี 5 มิติ ได้แก่ item_key, time_key, shipper_key, from_location, to_location

  • ตารางข้อเท็จจริงเกี่ยวกับการขนส่งยังประกอบด้วยสองมาตรการ ได้แก่ ดอลลาร์ที่ขายและหน่วยที่ขาย

  • นอกจากนี้ยังสามารถแชร์ตารางมิติระหว่างตารางข้อเท็จจริงได้อีกด้วย ตัวอย่างเช่นตารางมิติเวลาสินค้าและสถานที่ตั้งจะใช้ร่วมกันระหว่างตารางข้อมูลการขายและการจัดส่ง

ข้อกำหนดของสคีมา

สคีมาหลายมิติถูกกำหนดโดยใช้ Data Mining Query Language (DMQL) สามารถใช้สอง primitives นิยามคิวบ์และนิยามมิติเพื่อกำหนดคลังข้อมูลและดาต้ามาร์ท

ไวยากรณ์สำหรับคำจำกัดความของ Cube

define cube < cube_name > [ < dimension-list > }: < measure_list >

ไวยากรณ์สำหรับการกำหนดมิติข้อมูล

define dimension < dimension_name > as ( < attribute_or_dimension_list > )

คำจำกัดความของ Star Schema

สคีมาดาวที่เราพูดถึงสามารถกำหนดได้โดยใช้ Data Mining Query Language (DMQL) ดังนี้ -

define cube sales star [time, item, branch, location]:   
    	   
dollars sold = sum(sales in dollars), units sold = count(*)    	  

define dimension time as (time key, day, day of week, month, quarter, year)
define dimension item as (item key, item name, brand, type, supplier type)        	
define dimension branch as (branch key, branch name, branch type)              	
define dimension location as (location key, street, city, province or state, country)

คำจำกัดความของสคีมาเกล็ดหิมะ

Snowflake schema สามารถกำหนดได้โดยใช้ DMQL ดังต่อไปนี้ -

define cube sales snowflake [time, item, branch, location]:

dollars sold = sum(sales in dollars), units sold = count(*)

define dimension time as (time key, day, day of week, month, quarter, year)
define dimension item as (item key, item name, brand, type, supplier (supplier key, supplier type))
define dimension branch as (branch key, branch name, branch type)
define dimension location as (location key, street, city (city key, city, province or state, country))

คำจำกัดความของโครงร่าง Fact Constellation

สคีมากลุ่มดาวข้อเท็จจริงสามารถกำหนดได้โดยใช้ DMQL ดังนี้ -

define cube sales [time, item, branch, location]:

dollars sold = sum(sales in dollars), units sold = count(*)

define dimension time as (time key, day, day of week, month, quarter, year)
define dimension item as (item key, item name, brand, type, supplier type)
define dimension branch as (branch key, branch name, branch type)
define dimension location as (location key, street, city, province or state,country)
define cube shipping [time, item, shipper, from location, to location]:

dollars cost = sum(cost in dollars), units shipped = count(*)

define dimension time as time in cube sales
define dimension item as item in cube sales
define dimension shipper as (shipper key, shipper name, location as location in cube sales, shipper type)
define dimension from location as location in cube sales
define dimension to location as location in cube sales

การแบ่งพาร์ติชันทำเพื่อเพิ่มประสิทธิภาพและอำนวยความสะดวกในการจัดการข้อมูล การแบ่งพาร์ติชันยังช่วยในการปรับสมดุลของข้อกำหนดต่างๆของระบบ เพิ่มประสิทธิภาพของฮาร์ดแวร์และลดความยุ่งยากในการจัดการคลังข้อมูลโดยการแบ่งตารางข้อเท็จจริงแต่ละตารางออกเป็นพาร์ติชันแยกกันหลาย ๆ ในบทนี้เราจะพูดถึงกลยุทธ์การแบ่งพาร์ติชันที่แตกต่างกัน

เหตุใดจึงจำเป็นต้องแบ่งพาร์ติชั่น?

การแบ่งพาร์ติชันมีความสำคัญด้วยเหตุผลดังต่อไปนี้ -

  • เพื่อการจัดการที่ง่าย
  • เพื่อช่วยในการสำรอง / กู้คืน
  • เพื่อเพิ่มประสิทธิภาพ

เพื่อการจัดการที่ง่าย

ตารางข้อเท็จจริงในคลังข้อมูลสามารถขยายขนาดได้ถึงหลายร้อยกิกะไบต์ ตารางข้อเท็จจริงขนาดใหญ่นี้ยากมากที่จะจัดการเป็นเอนทิตีเดียว ดังนั้นจึงต้องแบ่งพาร์ติชัน

เพื่อช่วยสำรอง / กู้คืน

หากเราไม่แบ่งตารางข้อเท็จจริงเราจะต้องโหลดตารางข้อเท็จจริงที่สมบูรณ์พร้อมข้อมูลทั้งหมด การแบ่งพาร์ติชันช่วยให้เราโหลดข้อมูลได้มากเท่าที่จำเป็นเป็นประจำ ช่วยลดเวลาในการโหลดและยังช่วยเพิ่มประสิทธิภาพของระบบ

Note- หากต้องการลดขนาดการสำรองข้อมูลพาร์ติชันทั้งหมดที่นอกเหนือจากพาร์ติชันปัจจุบันสามารถทำเครื่องหมายเป็นแบบอ่านอย่างเดียว จากนั้นเราสามารถทำให้พาร์ติชันเหล่านี้อยู่ในสถานะที่ไม่สามารถแก้ไขได้ จากนั้นสามารถสำรองข้อมูลได้ หมายความว่าต้องสำรองเฉพาะพาร์ติชันปัจจุบันเท่านั้น

เพื่อเพิ่มประสิทธิภาพ

ด้วยการแบ่งตารางข้อเท็จจริงออกเป็นชุดข้อมูลจะสามารถปรับปรุงขั้นตอนการสืบค้นได้ ประสิทธิภาพการสืบค้นได้รับการปรับปรุงเนื่องจากขณะนี้แบบสอบถามจะสแกนเฉพาะพาร์ติชันที่เกี่ยวข้องเท่านั้น ไม่ต้องสแกนข้อมูลทั้งหมด

การแบ่งพาร์ติชันแนวนอน

มีหลายวิธีที่สามารถแบ่งตารางข้อเท็จจริงได้ ในการแบ่งแนวนอนเราต้องคำนึงถึงข้อกำหนดสำหรับการจัดการคลังข้อมูล

การแบ่งพาร์ติชันตามเวลาเป็นส่วนที่เท่ากัน

ในกลยุทธ์การแบ่งพาร์ติชันนี้ตารางข้อเท็จจริงจะถูกแบ่งตามช่วงเวลา แต่ละช่วงเวลาแสดงถึงช่วงเวลาการรักษาที่สำคัญภายในธุรกิจ ตัวอย่างเช่นหากผู้ใช้สอบถามmonth to date dataดังนั้นจึงเป็นการเหมาะสมที่จะแบ่งข้อมูลออกเป็นกลุ่มรายเดือน เราสามารถนำตารางที่แบ่งพาร์ติชันกลับมาใช้ใหม่ได้โดยการลบข้อมูลออก

แบ่งพาร์ติชันตามเวลาเป็นกลุ่มขนาดต่างๆ

พาร์ติชั่นประเภทนี้ทำเมื่อมีการเข้าถึงข้อมูลอายุไม่บ่อยนัก ใช้เป็นชุดพาร์ติชันขนาดเล็กสำหรับข้อมูลที่ค่อนข้างปัจจุบันพาร์ติชันที่ใหญ่กว่าสำหรับข้อมูลที่ไม่ได้ใช้งาน

สิ่งที่ควรทราบ

  • ข้อมูลโดยละเอียดยังคงมีอยู่ทางออนไลน์

  • จำนวนตารางทางกายภาพค่อนข้างน้อยซึ่งช่วยลดต้นทุนการดำเนินงาน

  • เทคนิคนี้เหมาะสำหรับการผสมผสานของข้อมูลที่จุ่มประวัติล่าสุดและการขุดข้อมูลผ่านประวัติทั้งหมด

  • เทคนิคนี้ไม่มีประโยชน์เมื่อโปรไฟล์การแบ่งพาร์ติชันเปลี่ยนแปลงเป็นประจำเนื่องจากการแบ่งพาร์ติชันใหม่จะเพิ่มต้นทุนการดำเนินการของคลังข้อมูล

พาร์ติชันในมิติที่แตกต่างกัน

ตารางข้อเท็จจริงยังสามารถแบ่งพาร์ติชันตามมิติที่นอกเหนือจากเวลาเช่นกลุ่มผลิตภัณฑ์ภูมิภาคซัพพลายเออร์หรือมิติอื่น ๆ ลองดูตัวอย่าง

สมมติว่าหน้าที่การตลาดได้รับการจัดโครงสร้างเป็นหน่วยงานระดับภูมิภาคที่แตกต่างกันเช่นในก state by stateพื้นฐาน. หากแต่ละภูมิภาคต้องการสอบถามข้อมูลที่บันทึกภายในภูมิภาคจะพิสูจน์ได้ว่ามีประสิทธิภาพมากขึ้นในการแบ่งตารางข้อเท็จจริงออกเป็นพาร์ติชันระดับภูมิภาค สิ่งนี้จะทำให้การสืบค้นเร็วขึ้นเนื่องจากไม่จำเป็นต้องสแกนข้อมูลที่ไม่เกี่ยวข้อง

สิ่งที่ควรทราบ

  • แบบสอบถามไม่จำเป็นต้องสแกนข้อมูลที่ไม่เกี่ยวข้องซึ่งจะทำให้กระบวนการสืบค้นเร็วขึ้น

  • เทคนิคนี้ไม่เหมาะสมที่ขนาดไม่น่าจะเปลี่ยนแปลงในอนาคต ดังนั้นจึงควรพิจารณาว่ามิติจะไม่เปลี่ยนแปลงในอนาคต

  • หากมิติข้อมูลเปลี่ยนไปตารางข้อเท็จจริงทั้งหมดจะต้องถูกแบ่งพาร์ติชั่นใหม่

Note - เราขอแนะนำให้ดำเนินการพาร์ติชันบนพื้นฐานของมิติเวลาเท่านั้นเว้นแต่คุณจะแน่ใจว่าการจัดกลุ่มมิติที่แนะนำจะไม่เปลี่ยนแปลงภายในอายุของคลังข้อมูล

แบ่งตามขนาดของโต๊ะ

เมื่อไม่มีพื้นฐานที่ชัดเจนสำหรับการแบ่งตารางข้อเท็จจริงในมิติใด ๆ เราควร partition the fact table on the basis of their size.เราสามารถกำหนดขนาดที่กำหนดไว้ล่วงหน้าเป็นจุดวิกฤตได้ เมื่อตารางเกินขนาดที่กำหนดไว้พาร์ติชันตารางใหม่จะถูกสร้างขึ้น

สิ่งที่ควรทราบ

  • การแบ่งพาร์ติชันนี้มีความซับซ้อนในการจัดการ

  • ต้องใช้เมทาดาทาเพื่อระบุข้อมูลที่จัดเก็บในแต่ละพาร์ติชัน

ขนาดพาร์ติชัน

หากมิติมีรายการจำนวนมากจำเป็นต้องแบ่งพาร์ติชันมิติ ที่นี่เราต้องตรวจสอบขนาดของมิติ

พิจารณาการออกแบบขนาดใหญ่ที่เปลี่ยนแปลงตลอดเวลา หากเราต้องการจัดเก็บรูปแบบทั้งหมดเพื่อใช้การเปรียบเทียบมิติข้อมูลนั้นอาจมีขนาดใหญ่มาก ซึ่งจะส่งผลต่อเวลาตอบสนองอย่างแน่นอน

พาร์ทิชัน Round Robin

ในเทคนิค Round Robin เมื่อจำเป็นต้องมีพาร์ติชันใหม่พาร์ติชันเก่าจะถูกเก็บถาวร ใช้ข้อมูลเมตาเพื่ออนุญาตให้เครื่องมือการเข้าถึงของผู้ใช้อ้างถึงพาร์ติชันตารางที่ถูกต้อง

เทคนิคนี้ทำให้ง่ายต่อการจัดการสิ่งอำนวยความสะดวกในการจัดการตารางภายในคลังข้อมูล

พาร์ติชันแนวตั้ง

การแบ่งแนวตั้งแยกข้อมูลในแนวตั้ง ภาพต่อไปนี้แสดงให้เห็นถึงวิธีการแบ่งพาร์ติชันแนวตั้ง

การแบ่งพาร์ติชันแนวตั้งสามารถทำได้สองวิธีดังต่อไปนี้ -

  • Normalization
  • การแยกแถว

Normalization

Normalization เป็นวิธีการเชิงสัมพันธ์มาตรฐานขององค์กรฐานข้อมูล ในวิธีนี้แถวจะยุบเป็นแถวเดียวดังนั้นจึงลดพื้นที่ ดูตารางต่อไปนี้ที่แสดงวิธีการทำให้เป็นมาตรฐาน

ตารางก่อน Normalization

Product_id จำนวน มูลค่า sales_date Store_id ชื่อร้าน สถานที่ ภูมิภาค
30 5 3.67 3 ส.ค. 56 16 แดดจัด บังกาลอร์
35 4 5.33 3 ก.ย. 56 16 แดดจัด บังกาลอร์
40 5 2.50 3 ก.ย. 56 64 ซาน มุมไบ
45 7 5.66 3 ก.ย. 56 16 แดดจัด บังกาลอร์

ตารางหลังจาก Normalization

Store_id ชื่อร้าน สถานที่ ภูมิภาค
16 แดดจัด บังกาลอร์
64 ซาน มุมไบ
Product_id ปริมาณ มูลค่า sales_date Store_id
30 5 3.67 3 ส.ค. 56 16
35 4 5.33 3 ก.ย. 56 16
40 5 2.50 3 ก.ย. 56 64
45 7 5.66 3 ก.ย. 56 16

การแยกแถว

การแบ่งแถวมีแนวโน้มที่จะทำให้แผนที่แบบหนึ่งต่อหนึ่งระหว่างพาร์ติชัน แรงจูงใจของการแบ่งแถวคือการเพิ่มความเร็วในการเข้าถึงโต๊ะขนาดใหญ่โดยการลดขนาดลง

Note - ในขณะที่ใช้การแบ่งแนวตั้งตรวจสอบให้แน่ใจว่าไม่มีข้อกำหนดในการดำเนินการรวมหลักระหว่างสองพาร์ติชัน

ระบุคีย์ของพาร์ติชัน

การเลือกคีย์พาร์ติชันที่ถูกต้องเป็นสิ่งสำคัญมาก การเลือกคีย์พาร์ติชันผิดจะนำไปสู่การจัดระเบียบตารางข้อเท็จจริงใหม่ ลองดูตัวอย่าง สมมติว่าเราต้องการแบ่งตารางต่อไปนี้

Account_Txn_Table
transaction_id
account_id
transaction_type
value
transaction_date
region
branch_name

เราสามารถเลือกแบ่งพาร์ติชันบนคีย์ใดก็ได้ กุญแจสองดอกที่เป็นไปได้คือ

  • region
  • transaction_date

สมมติว่าธุรกิจจัดอยู่ใน 30 ภูมิภาคทางภูมิศาสตร์และแต่ละภูมิภาคมีจำนวนสาขาที่แตกต่างกัน นั่นจะทำให้เรามีพาร์ติชั่น 30 พาร์ติชั่นซึ่งสมเหตุสมผล การแบ่งพาร์ติชันนี้ดีพอเนื่องจากการจับความต้องการของเราแสดงให้เห็นว่าการสืบค้นส่วนใหญ่ถูก จำกัด ไว้เฉพาะในภูมิภาคธุรกิจของผู้ใช้เอง

หากเราแบ่งพาร์ติชันตาม transaction_date แทนที่จะเป็นภูมิภาคธุรกรรมล่าสุดจากทุกภูมิภาคจะอยู่ในพาร์ติชันเดียว ตอนนี้ผู้ใช้ที่ต้องการดูข้อมูลภายในภูมิภาคของตัวเองต้องค้นหาในหลายพาร์ติชัน

ดังนั้นจึงควรกำหนดคีย์การแบ่งพาร์ติชันที่ถูกต้อง

Metadata คืออะไร?

ข้อมูลเมตาถูกกำหนดให้เป็นข้อมูลเกี่ยวกับข้อมูล ข้อมูลที่ใช้เพื่อแสดงข้อมูลอื่นเรียกว่าข้อมูลเมตา ตัวอย่างเช่นดัชนีของหนังสือทำหน้าที่เป็นข้อมูลเมตาสำหรับเนื้อหาในหนังสือ กล่าวอีกนัยหนึ่งเราสามารถพูดได้ว่าข้อมูลเมตาคือข้อมูลสรุปที่นำเราไปสู่ข้อมูลโดยละเอียด ในแง่ของคลังข้อมูลเราสามารถกำหนดเมทาดาทาได้ดังนี้

  • ข้อมูลเมตาคือแผนที่นำทางไปยังคลังข้อมูล

  • ข้อมูลเมตาในคลังข้อมูลกำหนดอ็อบเจ็กต์คลังสินค้า

  • ข้อมูลเมตาทำหน้าที่เป็นไดเร็กทอรี ไดเร็กทอรีนี้ช่วยระบบสนับสนุนการตัดสินใจในการค้นหาเนื้อหาของคลังข้อมูล

Note- ในคลังข้อมูลเราสร้างข้อมูลเมตาสำหรับชื่อข้อมูลและคำจำกัดความของคลังข้อมูลที่กำหนด นอกจากข้อมูลเมตานี้แล้วยังมีการสร้างข้อมูลเมตาเพิ่มเติมสำหรับการประทับเวลาข้อมูลที่แยกซึ่งเป็นแหล่งที่มาของข้อมูลที่แยกออกมา

หมวดหมู่ของข้อมูลเมตา

ข้อมูลเมตาสามารถแบ่งออกเป็นสามประเภทอย่างกว้าง ๆ -

  • Business Metadata - มีข้อมูลการเป็นเจ้าของข้อมูลนิยามธุรกิจและนโยบายการเปลี่ยนแปลง

  • Technical Metadata- ประกอบด้วยชื่อระบบฐานข้อมูลชื่อตารางและคอลัมน์และขนาดชนิดข้อมูลและค่าที่อนุญาต ข้อมูลเมตาทางเทคนิคยังรวมถึงข้อมูลโครงสร้างเช่นแอตทริบิวต์และดัชนีคีย์หลักและต่างประเทศ

  • Operational Metadata- รวมถึงสกุลเงินของข้อมูลและสายเลือดข้อมูล สกุลเงินของข้อมูลหมายถึงข้อมูลว่ามีการใช้งานเก็บถาวรหรือถูกลบออก Lineage of data หมายถึงประวัติของข้อมูลที่โอนย้ายและการเปลี่ยนแปลงที่ใช้กับข้อมูลนั้น

บทบาทของข้อมูลเมตา

ข้อมูลเมตามีบทบาทสำคัญมากในคลังข้อมูล บทบาทของข้อมูลเมตาในคลังสินค้าแตกต่างจากข้อมูลคลังสินค้า แต่ก็มีบทบาทสำคัญ บทบาทต่างๆของข้อมูลเมตามีการอธิบายไว้ด้านล่าง

  • ข้อมูลเมตาทำหน้าที่เป็นไดเร็กทอรี

  • ไดเร็กทอรีนี้ช่วยระบบสนับสนุนการตัดสินใจในการค้นหาเนื้อหาของคลังข้อมูล

  • ข้อมูลเมตาช่วยในระบบสนับสนุนการตัดสินใจสำหรับการทำแผนที่ข้อมูลเมื่อข้อมูลถูกเปลี่ยนจากสภาพแวดล้อมการดำเนินงานเป็นสภาพแวดล้อมคลังข้อมูล

  • ข้อมูลเมตาช่วยในการสรุประหว่างข้อมูลโดยละเอียดในปัจจุบันและข้อมูลที่สรุปอย่างละเอียด

  • ข้อมูลเมตายังช่วยในการสรุประหว่างข้อมูลที่มีรายละเอียดเล็กน้อยและข้อมูลที่สรุปเป็นอย่างมาก

  • ข้อมูลเมตาใช้สำหรับเครื่องมือสืบค้นข้อมูล

  • ข้อมูลเมตาถูกใช้ในเครื่องมือสกัดและทำความสะอาด

  • ข้อมูลเมตาถูกใช้ในเครื่องมือการรายงาน

  • ข้อมูลเมตาถูกใช้ในเครื่องมือการเปลี่ยนแปลง

  • ข้อมูลเมตามีบทบาทสำคัญในการโหลดฟังก์ชัน

แผนภาพต่อไปนี้แสดงบทบาทของข้อมูลเมตา

ที่เก็บข้อมูลเมตา

ที่เก็บข้อมูลเมตาเป็นส่วนหนึ่งของระบบคลังข้อมูล มีข้อมูลเมตาต่อไปนี้ -

  • Definition of data warehouse- ประกอบด้วยคำอธิบายโครงสร้างของคลังข้อมูล คำอธิบายถูกกำหนดโดยสคีมามุมมองลำดับชั้นนิยามข้อมูลที่ได้รับและตำแหน่งและเนื้อหาของ data mart

  • Business metadata - มีข้อมูลการเป็นเจ้าของข้อมูลนิยามธุรกิจและนโยบายการเปลี่ยนแปลง

  • Operational Metadata- รวมถึงสกุลเงินของข้อมูลและสายเลือดข้อมูล สกุลเงินของข้อมูลหมายถึงข้อมูลว่ามีการใช้งานเก็บถาวรหรือถูกลบออก Lineage of data หมายถึงประวัติของข้อมูลที่โอนย้ายและการเปลี่ยนแปลงที่ใช้กับข้อมูลนั้น

  • Data for mapping from operational environment to data warehouse - ประกอบด้วยฐานข้อมูลต้นทางและเนื้อหาการแยกข้อมูลการล้างพาร์ติชันข้อมูลกฎการเปลี่ยนแปลงการรีเฟรชข้อมูลและกฎการล้างข้อมูล

  • Algorithms for summarization - ประกอบด้วยอัลกอริธึมมิติข้อมูลเกี่ยวกับรายละเอียดการรวมสรุปและอื่น ๆ

ความท้าทายสำหรับการจัดการข้อมูลเมตา

ความสำคัญของข้อมูลเมตาไม่สามารถพูดเกินจริงได้ ข้อมูลเมตาช่วยในการผลักดันความถูกต้องของรายงานตรวจสอบการแปลงข้อมูลและรับรองความถูกต้องของการคำนวณ ข้อมูลเมตายังบังคับใช้ข้อกำหนดทางธุรกิจสำหรับผู้ใช้ปลายทางทางธุรกิจ ด้วยการใช้ข้อมูลเมตาเหล่านี้จึงมีความท้าทายเช่นกัน ความท้าทายบางประการมีการกล่าวถึงด้านล่าง

  • ข้อมูลเมตาในองค์กรใหญ่กระจัดกระจายไปทั่วทั้งองค์กร ข้อมูลเมตานี้แพร่กระจายในสเปรดชีตฐานข้อมูลและแอปพลิเคชัน

  • ข้อมูลเมตาอาจปรากฏในไฟล์ข้อความหรือไฟล์มัลติมีเดีย ในการใช้ข้อมูลนี้สำหรับโซลูชันการจัดการข้อมูลจะต้องมีการกำหนดอย่างถูกต้อง

  • ไม่มีมาตรฐานที่ยอมรับกันทั้งอุตสาหกรรม ผู้จำหน่ายโซลูชันการจัดการข้อมูลมีจุดเน้นที่แคบ

  • ไม่มีวิธีการที่ง่ายและเป็นที่ยอมรับในการส่งผ่านข้อมูลเมตา

ทำไมเราต้องมี Data Mart?

ด้านล่างนี้เป็นเหตุผลในการสร้างดาต้ามาร์ท -

  • เพื่อแบ่งพาร์ติชันข้อมูลเพื่อกำหนด access control strategies.

  • เพื่อเร่งความเร็วในการสืบค้นโดยลดปริมาณข้อมูลที่จะสแกน

  • เพื่อแบ่งกลุ่มข้อมูลลงในแพลตฟอร์มฮาร์ดแวร์ต่างๆ

  • เพื่อจัดโครงสร้างข้อมูลในรูปแบบที่เหมาะสมกับเครื่องมือการเข้าถึงของผู้ใช้

Note- ห้ามดาต้ามาร์ทด้วยเหตุผลอื่นใดเนื่องจากต้นทุนการดำเนินการของดาต้ามาร์ทอาจสูงมาก ก่อนทำการซื้อขายข้อมูลโปรดตรวจสอบให้แน่ใจว่ากลยุทธ์ Data Marting เหมาะสมกับโซลูชันเฉพาะของคุณ

Data Marting ที่คุ้มค่า

ทำตามขั้นตอนด้านล่างเพื่อให้การทำข้อมูลมีประสิทธิภาพคุ้มค่า -

  • ระบุการแยกหน้าที่
  • ระบุข้อกำหนดเครื่องมือการเข้าถึงของผู้ใช้
  • ระบุปัญหาการควบคุมการเข้าถึง

ระบุการแยกหน้าที่

ในขั้นตอนนี้เราจะพิจารณาว่าองค์กรมีการแบ่งหน้าที่ตามธรรมชาติหรือไม่ เรามองหาการแบ่งแผนกและเราพิจารณาว่าวิธีที่แผนกใช้ข้อมูลมีแนวโน้มที่จะแยกออกจากส่วนที่เหลือขององค์กรหรือไม่ ลองดูตัวอย่าง

พิจารณาองค์กรค้าปลีกที่ผู้ขายแต่ละรายต้องรับผิดชอบในการเพิ่มยอดขายกลุ่มผลิตภัณฑ์ สำหรับสิ่งนี้ข้อมูลที่มีค่าต่อไปนี้ -

  • ธุรกรรมการขายในแต่ละวัน
  • คาดการณ์ยอดขายเป็นรายสัปดาห์
  • ตำแหน่งหุ้นในแต่ละวัน
  • การเคลื่อนไหวของหุ้นในแต่ละวัน

เนื่องจากผู้ขายไม่สนใจในผลิตภัณฑ์ที่ตนไม่ได้ซื้อขายข้อมูลจึงเป็นส่วนหนึ่งของข้อมูลที่เกี่ยวข้องกับกลุ่มผลิตภัณฑ์ที่สนใจ แผนภาพต่อไปนี้แสดงการเก็บข้อมูลสำหรับผู้ใช้ที่แตกต่างกัน

ด้านล่างนี้เป็นประเด็นที่ต้องนำมาพิจารณาในขณะที่พิจารณาการแยกฟังก์ชัน -

  • โครงสร้างของแผนกอาจมีการเปลี่ยนแปลง

  • ผลิตภัณฑ์อาจเปลี่ยนจากแผนกหนึ่งไปเป็นแผนกอื่น

  • ผู้ขายสามารถสอบถามแนวโน้มการขายของผลิตภัณฑ์อื่น ๆ เพื่อวิเคราะห์สิ่งที่เกิดขึ้นกับการขาย

Note - เราจำเป็นต้องกำหนดผลประโยชน์ทางธุรกิจและความเป็นไปได้ทางเทคนิคของการใช้ดาต้ามาร์ท

ระบุข้อกำหนดเครื่องมือการเข้าถึงของผู้ใช้

เราต้องการดาต้ามาร์ทเพื่อรองรับ user access toolsที่ต้องการโครงสร้างข้อมูลภายใน ข้อมูลในโครงสร้างดังกล่าวอยู่นอกการควบคุมของคลังข้อมูล แต่จำเป็นต้องมีการเติมข้อมูลและอัปเดตเป็นประจำ

มีเครื่องมือบางอย่างที่เติมข้อมูลโดยตรงจากระบบต้นทาง แต่บางอย่างไม่สามารถทำได้ ดังนั้นจึงจำเป็นต้องมีการระบุข้อกำหนดเพิ่มเติมนอกขอบเขตของเครื่องมือสำหรับอนาคต

Note - เพื่อให้มั่นใจว่าข้อมูลในเครื่องมือการเข้าถึงทั้งหมดมีความสอดคล้องกันไม่ควรเติมข้อมูลโดยตรงจากคลังข้อมูล แต่แต่ละเครื่องมือต้องมีดาต้ามาร์ทของตัวเอง

ระบุปัญหาการควบคุมการเข้าถึง

ควรมีกฎความเป็นส่วนตัวเพื่อให้แน่ใจว่าข้อมูลถูกเข้าถึงโดยผู้ใช้ที่ได้รับอนุญาตเท่านั้น ตัวอย่างเช่นคลังข้อมูลสำหรับสถาบันการเงินรายย่อยทำให้มั่นใจได้ว่าบัญชีทั้งหมดเป็นของนิติบุคคลเดียวกัน กฎหมายความเป็นส่วนตัวสามารถบังคับให้คุณป้องกันการเข้าถึงข้อมูลที่ไม่ได้เป็นของธนาคารโดยเฉพาะ

ดาต้ามาร์ทช่วยให้เราสามารถสร้างกำแพงที่สมบูรณ์โดยการแยกกลุ่มข้อมูลภายในคลังข้อมูล เพื่อหลีกเลี่ยงปัญหาความเป็นส่วนตัวที่อาจเกิดขึ้นข้อมูลโดยละเอียดสามารถลบออกจากคลังข้อมูลได้ เราสามารถสร้างดาต้ามาร์ทสำหรับนิติบุคคลแต่ละแห่งและโหลดผ่านคลังข้อมูลพร้อมข้อมูลบัญชีโดยละเอียด

การออกแบบ Data Marts

มาร์ทข้อมูลควรได้รับการออกแบบเป็นสคีมา starflake เวอร์ชันที่เล็กกว่าภายในคลังข้อมูลและควรตรงกับการออกแบบฐานข้อมูลของคลังข้อมูล ช่วยในการรักษาการควบคุมอินสแตนซ์ฐานข้อมูล

ข้อมูลสรุปได้รับการจัดเก็บข้อมูลในลักษณะเดียวกับที่ได้รับการออกแบบภายในคลังข้อมูล ตารางสรุปช่วยในการใช้ข้อมูลมิติทั้งหมดในสคีมา starflake

ต้นทุนของ Data Marting

มาตรการด้านต้นทุนสำหรับ data marting มีดังนี้ -

  • ต้นทุนฮาร์ดแวร์และซอฟต์แวร์
  • การเข้าถึงเครือข่าย
  • ข้อ จำกัด ของหน้าต่างเวลา

ต้นทุนฮาร์ดแวร์และซอฟต์แวร์

แม้ว่าดาต้ามาร์ทจะถูกสร้างขึ้นบนฮาร์ดแวร์เดียวกัน แต่ก็ต้องใช้ฮาร์ดแวร์และซอฟต์แวร์เพิ่มเติม ในการจัดการคำค้นหาของผู้ใช้จำเป็นต้องใช้พลังประมวลผลเพิ่มเติมและที่เก็บข้อมูลบนดิสก์ หากข้อมูลโดยละเอียดและดาต้ามาร์ทมีอยู่ภายในคลังข้อมูลเราจะต้องเสียค่าใช้จ่ายเพิ่มเติมในการจัดเก็บและจัดการข้อมูลที่จำลองแบบ

Note - Data Marting มีราคาแพงกว่าการรวบรวมข้อมูลดังนั้นจึงควรใช้เป็นกลยุทธ์เพิ่มเติมและไม่ใช่กลยุทธ์ทางเลือก

การเข้าถึงเครือข่าย

ดาต้ามาร์ทอาจอยู่ในตำแหน่งอื่นจากคลังข้อมูลดังนั้นเราควรตรวจสอบให้แน่ใจว่า LAN หรือ WAN มีความสามารถในการจัดการปริมาณข้อมูลที่ถ่ายโอนภายใน data mart load process.

ข้อ จำกัด ของหน้าต่างเวลา

ขอบเขตที่กระบวนการโหลดข้อมูลมาร์ทจะกินเข้าไปในหน้าต่างเวลาที่มีอยู่นั้นขึ้นอยู่กับความซับซ้อนของการเปลี่ยนแปลงและปริมาณข้อมูลที่จัดส่ง การกำหนดจำนวนข้อมูลที่เป็นไปได้นั้นขึ้นอยู่กับ -

  • ความจุเครือข่าย
  • มีหน้าต่างเวลา
  • ปริมาณการถ่ายโอนข้อมูล
  • กลไกที่ใช้ในการแทรกข้อมูลลงในดาต้ามาร์ท

การจัดการระบบเป็นสิ่งจำเป็นสำหรับการดำเนินการคลังข้อมูลให้ประสบความสำเร็จ ผู้จัดการระบบที่สำคัญที่สุด ได้แก่ -

  • ตัวจัดการการกำหนดค่าระบบ
  • ตัวจัดการการตั้งเวลาระบบ
  • ตัวจัดการเหตุการณ์ของระบบ
  • ตัวจัดการฐานข้อมูลระบบ
  • ตัวจัดการการกู้คืนการสำรองข้อมูลระบบ

ตัวจัดการการกำหนดค่าระบบ

  • ผู้จัดการการกำหนดค่าระบบมีหน้าที่รับผิดชอบในการจัดการการตั้งค่าและการกำหนดค่าคลังข้อมูล

  • โครงสร้างของตัวจัดการการกำหนดค่าจะแตกต่างกันไปในแต่ละระบบปฏิบัติการ

  • ในโครงสร้างการกำหนดค่า Unix ผู้จัดการจะแตกต่างกันไปในแต่ละผู้จัดจำหน่าย

  • เครื่องมือจัดการการกำหนดค่ามีอินเทอร์เฟซผู้ใช้เดียว

  • อินเทอร์เฟซของเครื่องมือจัดการการกำหนดค่าช่วยให้เราสามารถควบคุมระบบทุกด้าน

Note - เครื่องมือกำหนดค่าที่สำคัญที่สุดคือตัวจัดการ I / O

ตัวจัดการการจัดกำหนดการระบบ

System Scheduling Manager มีหน้าที่รับผิดชอบในการนำคลังข้อมูลไปใช้งานให้สำเร็จ มีวัตถุประสงค์เพื่อตั้งเวลาการสืบค้นแบบเฉพาะกิจ ระบบปฏิบัติการทุกระบบมีตัวกำหนดตารางเวลาของตัวเองพร้อมกลไกควบคุมแบทช์บางรูปแบบ รายการคุณสมบัติที่ผู้จัดการการจัดกำหนดการระบบต้องมีมีดังต่อไปนี้ -

  • ทำงานข้ามขอบเขตคลัสเตอร์หรือ MPP
  • จัดการกับความแตกต่างของเวลาระหว่างประเทศ
  • จัดการงานล้มเหลว
  • จัดการการสืบค้นหลาย ๆ
  • สนับสนุนลำดับความสำคัญของงาน
  • รีสตาร์ทหรือจัดคิวงานที่ล้มเหลวใหม่
  • แจ้งผู้ใช้หรือกระบวนการเมื่องานเสร็จสมบูรณ์
  • รักษาตารางงานในช่วงที่ระบบหยุดทำงาน
  • จัดคิวงานใหม่ไปยังคิวอื่น
  • สนับสนุนการหยุดและการเริ่มต้นคิว
  • เข้าสู่คิวงาน
  • จัดการกับการประมวลผลระหว่างคิว

Note - รายการด้านบนสามารถใช้เป็นพารามิเตอร์การประเมินสำหรับการประเมินตัวกำหนดตารางเวลาที่ดี

งานสำคัญบางอย่างที่ผู้จัดกำหนดการต้องสามารถจัดการได้มีดังนี้ -

  • การตั้งเวลาการสืบค้นรายวันและแบบเฉพาะกิจ
  • การดำเนินการตามข้อกำหนดของรายงานปกติ
  • โหลดข้อมูล
  • การประมวลผลข้อมูล
  • การสร้างดัชนี
  • Backup
  • การสร้างการรวม
  • การแปลงข้อมูล

Note - หากคลังข้อมูลกำลังทำงานบนคลัสเตอร์หรือสถาปัตยกรรม MPP ตัวจัดการการจัดกำหนดการระบบจะต้องสามารถทำงานข้ามสถาปัตยกรรมได้

ตัวจัดการเหตุการณ์ของระบบ

ตัวจัดการเหตุการณ์เป็นซอฟต์แวร์ชนิดหนึ่ง ตัวจัดการเหตุการณ์จะจัดการเหตุการณ์ที่กำหนดไว้บนระบบคลังข้อมูล เราไม่สามารถจัดการคลังข้อมูลด้วยตนเองได้เนื่องจากโครงสร้างของคลังข้อมูลมีความซับซ้อนมาก ดังนั้นเราจึงต้องการเครื่องมือที่จัดการเหตุการณ์ทั้งหมดโดยอัตโนมัติโดยไม่มีการแทรกแซงของผู้ใช้

Note- ผู้จัดการกิจกรรมจะตรวจสอบเหตุการณ์ที่เกิดขึ้นและจัดการกับเหตุการณ์เหล่านั้น ผู้จัดการเหตุการณ์ยังติดตามสิ่งต่างๆมากมายที่อาจผิดพลาดในระบบคลังข้อมูลที่ซับซ้อนนี้

เหตุการณ์

เหตุการณ์คือการกระทำที่สร้างขึ้นโดยผู้ใช้หรือระบบเอง อาจสังเกตได้ว่าเหตุการณ์นั้นเป็นเหตุการณ์ที่เกิดขึ้นจากการกระทำที่กำหนดไว้ที่วัดได้สังเกตได้

ด้านล่างนี้เป็นรายการของเหตุการณ์ทั่วไปที่ต้องติดตาม

  • ฮาร์ดแวร์ล้มเหลว
  • พื้นที่บนดิสก์หลักบางแผ่นหมด
  • กระบวนการที่กำลังจะตาย
  • กระบวนการส่งคืนข้อผิดพลาด
  • การใช้งาน CPU เกินเกณฑ์ 805
  • การโต้แย้งภายในเกี่ยวกับจุดซีเรียลไลเซชันของฐานข้อมูล
  • บัฟเฟอร์แคชอัตราส่วนการตีเกินหรือล้มเหลวต่ำกว่าเกณฑ์
  • ตารางที่มีขนาดสูงสุด
  • การแลกเปลี่ยนหน่วยความจำมากเกินไป
  • โต๊ะไม่สามารถขยายได้เนื่องจากไม่มีที่ว่าง
  • ดิสก์แสดงปัญหาคอขวด I / O
  • การใช้พื้นที่ชั่วคราวหรือพื้นที่จัดเรียงถึงเกณฑ์ที่กำหนด
  • การใช้หน่วยความจำฐานข้อมูลอื่น ๆ ที่ใช้ร่วมกัน

สิ่งที่สำคัญที่สุดเกี่ยวกับเหตุการณ์คือพวกเขาควรจะสามารถดำเนินการได้ด้วยตัวเอง แพ็กเกจเหตุการณ์กำหนดโพรซีเดอร์สำหรับเหตุการณ์ที่กำหนดไว้ล่วงหน้า รหัสที่เชื่อมโยงกับแต่ละเหตุการณ์เรียกว่าตัวจัดการเหตุการณ์ รหัสนี้จะดำเนินการทุกครั้งที่มีเหตุการณ์เกิดขึ้น

ผู้จัดการระบบและฐานข้อมูล

ตัวจัดการระบบและฐานข้อมูลอาจเป็นซอฟต์แวร์สองชิ้นที่แยกจากกัน แต่ทำงานเหมือนกัน วัตถุประสงค์ของเครื่องมือเหล่านี้คือเพื่อทำให้กระบวนการบางอย่างเป็นไปโดยอัตโนมัติและเพื่อให้การดำเนินการของผู้อื่นง่ายขึ้น เกณฑ์ในการเลือกระบบและตัวจัดการฐานข้อมูลมีดังนี้ -

  • เพิ่มโควต้าของผู้ใช้
  • กำหนดและยกเลิกการกำหนดบทบาทให้กับผู้ใช้
  • กำหนดและยกเลิกการกำหนดโปรไฟล์ให้กับผู้ใช้
  • ดำเนินการจัดการพื้นที่ฐานข้อมูล
  • ตรวจสอบและรายงานการใช้พื้นที่
  • จัดระเบียบพื้นที่ที่กระจัดกระจายและไม่ได้ใช้งาน
  • เพิ่มและขยายพื้นที่
  • เพิ่มและลบผู้ใช้
  • จัดการรหัสผ่านผู้ใช้
  • จัดการสรุปหรือตารางชั่วคราว
  • กำหนดหรือยกเลิกการกำหนดพื้นที่ชั่วคราวให้กับผู้ใช้
  • เรียกคืนพื้นที่ในรูปแบบตารางชั่วคราวเก่าหรือล้าสมัย
  • จัดการบันทึกข้อผิดพลาดและการติดตาม
  • เพื่อเรียกดูไฟล์บันทึกและติดตาม
  • ข้อผิดพลาดในการเปลี่ยนเส้นทางหรือข้อมูลการติดตาม
  • เปิดและปิดข้อผิดพลาดและการบันทึกการติดตาม
  • ดำเนินการจัดการพื้นที่ระบบ
  • ตรวจสอบและรายงานการใช้พื้นที่
  • ล้างไดเรกทอรีไฟล์เก่าและไม่ได้ใช้
  • เพิ่มหรือขยายพื้นที่

ตัวจัดการการกู้คืนการสำรองข้อมูลระบบ

เครื่องมือสำรองและกู้คืนช่วยให้ผู้ปฏิบัติงานและเจ้าหน้าที่จัดการสำรองข้อมูลได้ง่าย โปรดทราบว่าตัวจัดการการสำรองข้อมูลระบบต้องรวมเข้ากับซอฟต์แวร์ตัวจัดการกำหนดการที่ใช้อยู่ คุณสมบัติที่สำคัญที่จำเป็นสำหรับการจัดการการสำรองข้อมูลมีดังนี้ -

  • Scheduling
  • การติดตามข้อมูลสำรอง
  • การรับรู้ฐานข้อมูล

การสำรองข้อมูลจะดำเนินการเพื่อป้องกันข้อมูลสูญหายเท่านั้น ต่อไปนี้เป็นประเด็นสำคัญที่ต้องจำ -

  • ซอฟต์แวร์สำรองข้อมูลจะเก็บฐานข้อมูลบางรูปแบบว่าสำรองข้อมูลไว้ที่ไหนและเมื่อใด

  • ตัวจัดการการกู้คืนข้อมูลสำรองต้องมีส่วนหน้าที่ดีสำหรับฐานข้อมูลนั้น

  • ซอฟต์แวร์กู้คืนข้อมูลสำรองควรทราบฐานข้อมูล

  • เมื่อตระหนักถึงฐานข้อมูลซอฟต์แวร์จึงสามารถแก้ไขได้ในรูปแบบฐานข้อมูลและจะไม่ทำการสำรองข้อมูลที่ไม่สามารถใช้งานได้

ผู้จัดการกระบวนการมีหน้าที่ดูแลการไหลของข้อมูลทั้งเข้าและออกจากคลังข้อมูล ผู้จัดการกระบวนการมีสามประเภทที่แตกต่างกัน -

  • ตัวจัดการการโหลด
  • ผู้จัดการคลังสินค้า
  • ผู้จัดการแบบสอบถาม

ตัวจัดการการโหลดคลังข้อมูล

Load manager ดำเนินการที่จำเป็นในการแยกและโหลดข้อมูลลงในฐานข้อมูล ขนาดและความซับซ้อนของตัวจัดการโหลดจะแตกต่างกันไประหว่างโซลูชันเฉพาะจากคลังข้อมูลหนึ่งไปยังอีกคลังข้อมูลหนึ่ง

สถาปัตยกรรม Load Manager

ตัวจัดการโหลดทำหน้าที่ดังต่อไปนี้ -

  • ดึงข้อมูลจากระบบต้นทาง

  • โหลดข้อมูลที่แยกแล้วลงในที่เก็บข้อมูลชั่วคราวอย่างรวดเร็ว

  • ทำการแปลงอย่างง่ายให้เป็นโครงสร้างที่คล้ายกับโครงสร้างในคลังข้อมูล

ดึงข้อมูลจากแหล่งที่มา

ข้อมูลถูกดึงมาจากฐานข้อมูลการปฏิบัติงานหรือผู้ให้บริการข้อมูลภายนอก เกตเวย์คือโปรแกรมแอปพลิเคชันที่ใช้ในการดึงข้อมูล ได้รับการสนับสนุนโดย DBMS พื้นฐานและอนุญาตให้โปรแกรมไคลเอนต์สร้าง SQL เพื่อดำเนินการที่เซิร์ฟเวอร์ Open Database Connection (ODBC) และ Java Database Connection (JDBC) เป็นตัวอย่างของเกตเวย์

โหลดเร็ว

  • เพื่อลดหน้าต่างการโหลดทั้งหมดข้อมูลจะต้องถูกโหลดลงในคลังสินค้าโดยเร็วที่สุด

  • การแปลงมีผลต่อความเร็วในการประมวลผลข้อมูล

  • การโหลดข้อมูลลงในฐานข้อมูลเชิงสัมพันธ์จะมีประสิทธิภาพมากกว่าก่อนที่จะใช้การแปลงและการตรวจสอบ

  • เทคโนโลยีเกตเวย์ไม่เหมาะสมเนื่องจากไม่มีประสิทธิภาพเมื่อเกี่ยวข้องกับปริมาณข้อมูลจำนวนมาก

การเปลี่ยนแปลงอย่างง่าย

ในขณะที่โหลดอาจจำเป็นต้องทำการแปลงอย่างง่าย หลังจากเสร็จสิ้นการแปลงร่างอย่างง่ายเราสามารถทำการตรวจสอบที่ซับซ้อนได้ สมมติว่าเรากำลังโหลดธุรกรรมการขาย EPOS เราจำเป็นต้องทำการตรวจสอบดังต่อไปนี้ -

  • ตัดคอลัมน์ทั้งหมดที่ไม่จำเป็นภายในคลังสินค้าออก
  • แปลงค่าทั้งหมดเป็นชนิดข้อมูลที่ต้องการ

ผู้จัดการคลังสินค้า

ผู้จัดการคลังสินค้ามีหน้าที่รับผิดชอบในกระบวนการจัดการคลังสินค้า ประกอบด้วยซอฟต์แวร์ระบบของ บริษัท อื่นโปรแกรม C และเชลล์สคริปต์ ขนาดและความซับซ้อนของผู้จัดการคลังสินค้าแตกต่างกันไปตามโซลูชันเฉพาะ

สถาปัตยกรรมผู้จัดการคลังสินค้า

ผู้จัดการคลังสินค้ามีดังต่อไปนี้ -

  • กระบวนการควบคุม
  • กระบวนงานที่เก็บไว้หรือ C กับ SQL
  • เครื่องมือสำรอง / กู้คืน
  • สคริปต์ SQL

หน้าที่ของผู้จัดการคลังสินค้า

ผู้จัดการคลังสินค้าทำหน้าที่ดังต่อไปนี้ -

  • วิเคราะห์ข้อมูลเพื่อทำการตรวจสอบความสอดคล้องและความสมบูรณ์ของการอ้างอิง

  • สร้างดัชนีมุมมองทางธุรกิจมุมมองพาร์ติชันเทียบกับข้อมูลพื้นฐาน

  • สร้างการรวมใหม่และอัปเดตการรวมที่มีอยู่

  • สร้างการปรับมาตรฐาน

  • แปลงและรวมแหล่งข้อมูลของที่เก็บชั่วคราวลงในคลังข้อมูลที่เผยแพร่

  • สำรองข้อมูลในคลังข้อมูล

  • เก็บข้อมูลที่หมดอายุการใช้งาน

Note - ผู้จัดการคลังสินค้าวิเคราะห์โปรไฟล์การสืบค้นเพื่อพิจารณาว่าดัชนีและการรวมนั้นเหมาะสมหรือไม่

ตัวจัดการแบบสอบถาม

ตัวจัดการคิวรีมีหน้าที่กำหนดคิวรีไปยังตารางที่เหมาะสม การกำหนดคิวรีไปยังตารางที่เหมาะสมจะช่วยเพิ่มความเร็วในการร้องขอคิวรีและกระบวนการตอบกลับ นอกจากนี้ตัวจัดการคิวรีมีหน้าที่จัดกำหนดการการดำเนินการของแบบสอบถามที่โพสต์โดยผู้ใช้

สถาปัตยกรรม Query Manager

ตัวจัดการแบบสอบถามประกอบด้วยส่วนประกอบต่อไปนี้ -

  • การเปลี่ยนเส้นทางแบบสอบถามผ่านเครื่องมือ C หรือ RDBMS
  • ขั้นตอนการจัดเก็บ
  • เครื่องมือจัดการแบบสอบถาม
  • การตั้งเวลาการสืบค้นผ่านเครื่องมือ C หรือ RDBMS
  • การตั้งเวลาการสืบค้นผ่านซอฟต์แวร์ของบุคคลที่สาม

หน้าที่ของ Query Manager

  • นำเสนอข้อมูลให้กับผู้ใช้ในรูปแบบที่พวกเขาเข้าใจ

  • กำหนดการดำเนินการของแบบสอบถามที่โพสต์โดยผู้ใช้ปลายทาง

  • จะเก็บโปรไฟล์แบบสอบถามเพื่อให้ผู้จัดการคลังสินค้าสามารถกำหนดดัชนีและการรวมได้ที่เหมาะสม

วัตถุประสงค์ของคลังข้อมูลคือการทำให้ข้อมูลจำนวนมากสามารถเข้าถึงได้ง่ายสำหรับผู้ใช้ดังนั้นจึงช่วยให้ผู้ใช้สามารถดึงข้อมูลเกี่ยวกับธุรกิจโดยรวมได้ แต่เราทราบดีว่าอาจมีข้อ จำกัด ด้านความปลอดภัยบางประการที่ใช้กับข้อมูลที่อาจเป็นอุปสรรคต่อการเข้าถึงข้อมูล หากนักวิเคราะห์มีมุมมองข้อมูลที่ จำกัด ก็จะไม่สามารถจับภาพแนวโน้มทั้งหมดภายในธุรกิจได้

ข้อมูลจากนักวิเคราะห์แต่ละคนสามารถสรุปและส่งต่อไปยังฝ่ายบริหารซึ่งสามารถรวบรวมข้อมูลสรุปที่แตกต่างกันได้ เนื่องจากการสรุปรวมไม่สามารถเหมือนกับการรวมโดยรวมจึงเป็นไปได้ที่จะพลาดแนวโน้มข้อมูลบางอย่างในข้อมูลเว้นแต่จะมีใครวิเคราะห์ข้อมูลโดยรวม

ข้อกำหนดด้านความปลอดภัย

การเพิ่มคุณลักษณะด้านความปลอดภัยจะส่งผลต่อประสิทธิภาพของคลังข้อมูลดังนั้นจึงเป็นเรื่องสำคัญที่จะต้องกำหนดข้อกำหนดด้านความปลอดภัยโดยเร็วที่สุด เป็นการยากที่จะเพิ่มคุณลักษณะด้านความปลอดภัยหลังจากที่คลังข้อมูลใช้งานได้แล้ว

ในระหว่างขั้นตอนการออกแบบคลังข้อมูลเราควรจำไว้ว่าแหล่งข้อมูลใดบ้างที่อาจถูกเพิ่มในภายหลังและผลกระทบของการเพิ่มแหล่งข้อมูลเหล่านั้นจะเป็นอย่างไร เราควรพิจารณาความเป็นไปได้ต่อไปนี้ในระหว่างขั้นตอนการออกแบบ

  • แหล่งข้อมูลใหม่จะต้องใช้ข้อ จำกัด ด้านความปลอดภัยและ / หรือการตรวจสอบใหม่หรือไม่

  • ผู้ใช้ใหม่ที่เพิ่มซึ่ง จำกัด การเข้าถึงข้อมูลที่มีอยู่แล้วโดยทั่วไปหรือไม่

สถานการณ์นี้เกิดขึ้นเมื่อผู้ใช้ในอนาคตและแหล่งข้อมูลไม่เป็นที่รู้จักกันดี ในสถานการณ์เช่นนี้เราจำเป็นต้องใช้ความรู้เกี่ยวกับธุรกิจและวัตถุประสงค์ของคลังข้อมูลเพื่อทราบข้อกำหนดที่เป็นไปได้

กิจกรรมต่อไปนี้ได้รับผลกระทบจากมาตรการรักษาความปลอดภัย -

  • การเข้าถึงของผู้ใช้
  • โหลดข้อมูล
  • การเคลื่อนไหวของข้อมูล
  • การสร้างแบบสอบถาม

การเข้าถึงของผู้ใช้

เราจำเป็นต้องจัดประเภทข้อมูลก่อนแล้วจึงจัดประเภทผู้ใช้ตามข้อมูลที่สามารถเข้าถึงได้ กล่าวอีกนัยหนึ่งผู้ใช้จะถูกจัดประเภทตามข้อมูลที่สามารถเข้าถึงได้

Data Classification

สามารถใช้สองวิธีต่อไปนี้เพื่อจำแนกข้อมูล -

  • ข้อมูลสามารถจำแนกได้ตามความอ่อนไหว ข้อมูลที่มีความอ่อนไหวสูงจัดเป็นข้อมูลที่มีข้อ จำกัด สูงและข้อมูลที่มีความอ่อนไหวน้อยจัดเป็นข้อมูลที่มีข้อ จำกัด น้อยกว่า

  • ข้อมูลยังสามารถจำแนกตามหน้าที่ของงาน ข้อ จำกัด นี้อนุญาตให้ผู้ใช้บางรายดูข้อมูลเฉพาะได้ ที่นี่เรา จำกัด ผู้ใช้ให้ดูเฉพาะส่วนของข้อมูลที่พวกเขาสนใจและรับผิดชอบ

มีบางประเด็นในแนวทางที่สอง เพื่อทำความเข้าใจขอมีตัวอย่าง สมมติว่าคุณกำลังสร้างคลังข้อมูลสำหรับธนาคาร พิจารณาว่าข้อมูลที่จัดเก็บในคลังข้อมูลเป็นข้อมูลธุรกรรมสำหรับบัญชีทั้งหมด คำถามคือใครได้รับอนุญาตให้ดูข้อมูลธุรกรรม การแก้ปัญหาอยู่ที่การจำแนกข้อมูลตามฟังก์ชัน

User classification

สามารถใช้แนวทางต่อไปนี้เพื่อจำแนกผู้ใช้ -

  • ผู้ใช้สามารถจำแนกตามลำดับชั้นของผู้ใช้ในองค์กรกล่าวคือผู้ใช้สามารถแบ่งตามแผนกส่วนกลุ่มและอื่น ๆ

  • ผู้ใช้ยังสามารถจำแนกตามบทบาทของตนโดยมีการจัดกลุ่มผู้ใช้ในแผนกต่างๆตามบทบาทของตน

Classification on basis of Department

มาดูตัวอย่างคลังข้อมูลที่ผู้ใช้มาจากฝ่ายขายและการตลาด เราสามารถรักษาความปลอดภัยได้จากมุมมองของ บริษัท จากบนลงล่างโดยมีการเข้าถึงศูนย์กลางอยู่ที่แผนกต่างๆ แต่อาจมีข้อ จำกัด บางประการสำหรับผู้ใช้ในระดับต่างๆ โครงสร้างนี้แสดงในแผนภาพต่อไปนี้

แต่ถ้าแต่ละแผนกเข้าถึงข้อมูลที่แตกต่างกันเราควรออกแบบการเข้าถึงความปลอดภัยสำหรับแต่ละแผนกแยกกัน สิ่งนี้สามารถทำได้โดยมาร์ตข้อมูลแผนก เนื่องจากส่วนข้อมูลเหล่านี้แยกออกจากคลังข้อมูลเราจึงบังคับใช้ข้อ จำกัด ด้านความปลอดภัยแยกกันในดาต้ามาร์ทแต่ละแห่งได้ แนวทางนี้แสดงในรูปต่อไปนี้

Classification Based on Role

หากโดยทั่วไปข้อมูลพร้อมใช้งานสำหรับทุกแผนกการปฏิบัติตามลำดับชั้นการเข้าถึงบทบาทจะเป็นประโยชน์ กล่าวอีกนัยหนึ่งคือหากทุกแผนกเข้าถึงข้อมูลโดยทั่วไปให้ใช้ข้อ จำกัด ด้านความปลอดภัยตามบทบาทของผู้ใช้ ลำดับชั้นการเข้าถึงบทบาทแสดงในรูปต่อไปนี้

ข้อกำหนดการตรวจสอบ

การตรวจสอบเป็นส่วนหนึ่งของความปลอดภัยซึ่งเป็นกิจกรรมที่มีค่าใช้จ่ายสูง การตรวจสอบอาจทำให้เกิดค่าใช้จ่ายจำนวนมากในระบบ เพื่อให้การตรวจสอบเสร็จสิ้นได้ทันเวลาเราต้องใช้ฮาร์ดแวร์มากขึ้นดังนั้นจึงขอแนะนำว่าควรปิดการตรวจสอบทุกที่ที่เป็นไปได้ ข้อกำหนดการตรวจสอบแบ่งได้ดังนี้ -

  • Connections
  • Disconnections
  • การเข้าถึงข้อมูล
  • การเปลี่ยนแปลงข้อมูล

Note- สำหรับแต่ละประเภทที่กล่าวมาข้างต้นจำเป็นต้องตรวจสอบความสำเร็จความล้มเหลวหรือทั้งสองอย่าง จากมุมมองของเหตุผลด้านความปลอดภัยการตรวจสอบความล้มเหลวมีความสำคัญมาก การตรวจสอบความล้มเหลวมีความสำคัญเนื่องจากสามารถเน้นการเข้าถึงที่ไม่ได้รับอนุญาตหรือหลอกลวง

ข้อกำหนดของเครือข่าย

ความปลอดภัยของเครือข่ายมีความสำคัญพอ ๆ กับหลักทรัพย์อื่น ๆ เราไม่สามารถเพิกเฉยต่อข้อกำหนดด้านความปลอดภัยของเครือข่ายได้ เราต้องพิจารณาประเด็นต่อไปนี้ -

  • จำเป็นต้องเข้ารหัสข้อมูลก่อนโอนไปยังคลังข้อมูลหรือไม่?

  • มีข้อ จำกัด เกี่ยวกับเส้นทางของเครือข่ายที่สามารถใช้ข้อมูลได้หรือไม่?

ข้อ จำกัด เหล่านี้จำเป็นต้องได้รับการพิจารณาอย่างรอบคอบ ต่อไปนี้เป็นประเด็นที่ต้องจำ -

  • กระบวนการเข้ารหัสและถอดรหัสจะเพิ่มค่าโสหุ้ย ต้องใช้พลังในการประมวลผลและเวลาในการประมวลผลมากขึ้น

  • ค่าใช้จ่ายในการเข้ารหัสอาจสูงหากระบบนั้นเป็นระบบที่โหลดอยู่แล้วเนื่องจากการเข้ารหัสเป็นภาระของระบบต้นทาง

การเคลื่อนย้ายข้อมูล

มีผลกระทบด้านความปลอดภัยที่อาจเกิดขึ้นในขณะที่ย้ายข้อมูล สมมติว่าเราจำเป็นต้องถ่ายโอนข้อมูลที่ถูก จำกัด บางส่วนเป็นไฟล์แบนที่จะโหลด เมื่อข้อมูลถูกโหลดลงในคลังข้อมูลจะเกิดคำถามต่อไปนี้ -

  • ไฟล์แบนเก็บไว้ที่ไหน?
  • ใครมีสิทธิ์เข้าถึงพื้นที่ดิสก์นั้น

หากเราพูดถึงการสำรองไฟล์แบบแบนเหล่านี้จะมีคำถามต่อไปนี้ -

  • คุณสำรองข้อมูลเวอร์ชันที่เข้ารหัสหรือถอดรหัสไว้หรือไม่?
  • การสำรองข้อมูลเหล่านี้จำเป็นต้องทำเทปพิเศษที่จัดเก็บแยกกันหรือไม่?
  • ใครเข้าถึงเทปเหล่านี้ได้บ้าง?

การเคลื่อนย้ายข้อมูลในรูปแบบอื่น ๆ เช่นชุดผลการสืบค้นจะต้องได้รับการพิจารณาด้วย คำถามที่เกิดขึ้นขณะสร้างตารางชั่วคราวมีดังนี้ -

  • โต๊ะชั่วคราวนั้นจะจัดขึ้นที่ไหน?
  • คุณทำให้ตารางดังกล่าวมองเห็นได้อย่างไร?

เราควรหลีกเลี่ยงการละเมิดข้อ จำกัด ด้านความปลอดภัยโดยไม่ได้ตั้งใจ หากผู้ใช้ที่มีสิทธิ์เข้าถึงข้อมูลที่ จำกัด สามารถสร้างตารางชั่วคราวที่สามารถเข้าถึงได้ผู้ใช้ที่ไม่ได้รับอนุญาตจะมองเห็นข้อมูลได้ เราสามารถเอาชนะปัญหานี้ได้โดยมีพื้นที่ชั่วคราวแยกต่างหากสำหรับผู้ใช้ที่มีสิทธิ์เข้าถึงข้อมูลที่ จำกัด

เอกสารประกอบ

ข้อกำหนดการตรวจสอบและความปลอดภัยจำเป็นต้องได้รับการจัดทำเป็นเอกสารอย่างถูกต้อง สิ่งนี้จะถือว่าเป็นส่วนหนึ่งของเหตุผล เอกสารนี้ประกอบด้วยข้อมูลทั้งหมดที่รวบรวมจาก -

  • การจำแนกประเภทข้อมูล
  • การจำแนกผู้ใช้
  • ข้อกำหนดของเครือข่าย
  • ความต้องการในการเคลื่อนย้ายและจัดเก็บข้อมูล
  • การดำเนินการที่ตรวจสอบได้ทั้งหมด

ผลกระทบของความปลอดภัยต่อการออกแบบ

ความปลอดภัยมีผลต่อรหัสแอปพลิเคชันและช่วงเวลาการพัฒนา ความปลอดภัยมีผลต่อพื้นที่ต่อไปนี้ -

  • การพัฒนาโปรแกรมประยุกต์
  • การออกแบบฐานข้อมูล
  • Testing

การพัฒนาโปรแกรมประยุกต์

ความปลอดภัยมีผลต่อการพัฒนาแอปพลิเคชันโดยรวมและยังส่งผลต่อการออกแบบองค์ประกอบที่สำคัญของคลังข้อมูลเช่นตัวจัดการโหลดผู้จัดการคลังสินค้าและตัวจัดการแบบสอบถาม ตัวจัดการโหลดอาจต้องการการตรวจสอบรหัสเพื่อกรองบันทึกและวางไว้ในตำแหน่งต่างๆ อาจต้องใช้กฎการเปลี่ยนแปลงเพิ่มเติมเพื่อซ่อนข้อมูลบางอย่าง นอกจากนี้อาจมีข้อกำหนดของข้อมูลเมตาเพิ่มเติมเพื่อจัดการกับออบเจ็กต์พิเศษใด ๆ

ในการสร้างและรักษามุมมองเพิ่มเติมผู้จัดการคลังสินค้าอาจต้องใช้รหัสพิเศษเพื่อบังคับใช้ความปลอดภัย การตรวจสอบเพิ่มเติมอาจต้องเข้ารหัสลงในคลังข้อมูลเพื่อป้องกันไม่ให้ถูกหลอกให้ย้ายข้อมูลไปยังตำแหน่งที่ไม่ควรมีอยู่ ตัวจัดการแบบสอบถามต้องการการเปลี่ยนแปลงเพื่อจัดการกับข้อ จำกัด การเข้าถึงใด ๆ ผู้จัดการแบบสอบถามจะต้องทราบถึงมุมมองและการรวบรวมเพิ่มเติมทั้งหมด

การออกแบบฐานข้อมูล

เค้าโครงฐานข้อมูลยังได้รับผลกระทบเนื่องจากเมื่อมีการใช้มาตรการรักษาความปลอดภัยจำนวนมุมมองและตารางเพิ่มขึ้น การเพิ่มความปลอดภัยจะเพิ่มขนาดของฐานข้อมูลและด้วยเหตุนี้จึงเพิ่มความซับซ้อนของการออกแบบและการจัดการฐานข้อมูล นอกจากนี้ยังเพิ่มความซับซ้อนให้กับการจัดการข้อมูลสำรองและแผนการกู้คืน

การทดสอบ

การทดสอบคลังข้อมูลเป็นกระบวนการที่ซับซ้อนและยาวนาน การเพิ่มความปลอดภัยให้กับคลังข้อมูลยังส่งผลต่อความซับซ้อนของเวลาในการทดสอบ มีผลต่อการทดสอบในสองวิธีต่อไปนี้ -

  • จะเพิ่มเวลาที่จำเป็นสำหรับการรวมและการทดสอบระบบ

  • มีฟังก์ชันเพิ่มเติมที่จะทดสอบซึ่งจะเพิ่มขนาดของชุดทดสอบ

คลังข้อมูลเป็นระบบที่ซับซ้อนและมีข้อมูลจำนวนมาก ดังนั้นจึงเป็นเรื่องสำคัญที่จะต้องสำรองข้อมูลทั้งหมดเพื่อให้สามารถกู้คืนได้ในอนาคตตามความต้องการ ในบทนี้เราจะพูดถึงประเด็นในการออกแบบกลยุทธ์การสำรองข้อมูล

คำศัพท์สำรอง

ก่อนดำเนินการต่อคุณควรทราบคำศัพท์สำรองที่กล่าวถึงด้านล่างนี้

  • Complete backup- สำรองฐานข้อมูลทั้งหมดในเวลาเดียวกัน การสำรองข้อมูลนี้รวมถึงไฟล์ฐานข้อมูลไฟล์ควบคุมและไฟล์เจอร์นัลทั้งหมด

  • Partial backup- ตามชื่อที่แนะนำจะไม่สร้างการสำรองฐานข้อมูลที่สมบูรณ์ การสำรองข้อมูลบางส่วนมีประโยชน์อย่างมากในฐานข้อมูลขนาดใหญ่เนื่องจากอนุญาตให้ใช้กลยุทธ์โดยส่วนต่างๆของฐานข้อมูลจะได้รับการสำรองข้อมูลแบบหมุนเวียนในแต่ละวันเพื่อให้ฐานข้อมูลทั้งหมดได้รับการสำรองข้อมูลอย่างมีประสิทธิภาพสัปดาห์ละครั้ง

  • Cold backup- การสำรองข้อมูลแบบเย็นจะดำเนินการในขณะที่ฐานข้อมูลปิดลงอย่างสมบูรณ์ ในสภาพแวดล้อมแบบหลายอินสแตนซ์ควรปิดอินสแตนซ์ทั้งหมด

  • Hot backup- การสำรองข้อมูลแบบร้อนจะถูกนำมาใช้เมื่อเอ็นจิ้นฐานข้อมูลพร้อมทำงาน ข้อกำหนดของการสำรองข้อมูลแบบร้อนจะแตกต่างกันไปตั้งแต่ RDBMS ถึง RDBMS

  • Online backup - ค่อนข้างคล้ายกับการสำรองข้อมูลแบบร้อน

การสำรองข้อมูลฮาร์ดแวร์

สิ่งสำคัญคือต้องตัดสินใจว่าจะใช้ฮาร์ดแวร์ใดในการสำรองข้อมูล ความเร็วในการประมวลผลการสำรองข้อมูลและการกู้คืนขึ้นอยู่กับฮาร์ดแวร์ที่ใช้การเชื่อมต่อฮาร์ดแวร์แบนด์วิธของเครือข่ายซอฟต์แวร์สำรองข้อมูลและความเร็วของระบบ I / O ของเซิร์ฟเวอร์ ในที่นี้เราจะพูดถึงตัวเลือกฮาร์ดแวร์บางอย่างที่พร้อมใช้งานและข้อดีข้อเสีย ทางเลือกเหล่านี้มีดังนี้ -

  • เทคโนโลยีเทป
  • การสำรองข้อมูลดิสก์

เทคโนโลยีเทป

ตัวเลือกเทปสามารถแบ่งได้ดังนี้ -

  • สื่อเทป
  • เทปไดร์ฟแบบสแตนด์อโลน
  • เทป stackers
  • ไซโลเทป

Tape Media

มีสื่อเทปหลายประเภท มาตรฐานสื่อเทปบางรายการแสดงอยู่ในตารางด้านล่าง -

สื่อเทป ความจุ อัตรา I / O
DLT 40 GB 3 MB / วินาที
3490e 1.6 กิกะไบต์ 3 MB / วินาที
8 มม 14 GB 1 MB / วินาที

ปัจจัยอื่น ๆ ที่ต้องพิจารณามีดังนี้ -

  • ความน่าเชื่อถือของสื่อเทป
  • ต้นทุนของสื่อเทปต่อหน่วย
  • Scalability
  • ค่าใช้จ่ายในการอัพเกรดระบบเทป
  • ต้นทุนของสื่อเทปต่อหน่วย
  • อายุการเก็บรักษาของสื่อเทป

Standalone Tape Drives

เทปไดร์ฟสามารถเชื่อมต่อได้ด้วยวิธีต่อไปนี้ -

  • ตรงไปยังเซิร์ฟเวอร์
  • เป็นอุปกรณ์ที่มีเครือข่าย
  • ไปยังเครื่องอื่นจากระยะไกล

อาจมีปัญหาในการเชื่อมต่อเทปไดรฟ์กับคลังข้อมูล

  • พิจารณาเซิร์ฟเวอร์เป็นเครื่อง MPP 48node เราไม่ทราบว่าโหนดที่ใช้เชื่อมต่อเทปไดร์ฟและเราไม่รู้ว่าจะกระจายไปยังโหนดเซิร์ฟเวอร์อย่างไรเพื่อให้ได้ประสิทธิภาพที่ดีที่สุดโดยมีการหยุดชะงักของเซิร์ฟเวอร์น้อยที่สุดและมีเวลาแฝง I / O ภายในน้อยที่สุด

  • การเชื่อมต่อเทปไดร์ฟเป็นอุปกรณ์ที่มีเครือข่ายจำเป็นต้องใช้เครือข่ายเพื่อรองรับอัตราการถ่ายโอนข้อมูลจำนวนมาก ตรวจสอบให้แน่ใจว่ามีแบนด์วิดท์เพียงพอในช่วงเวลาที่คุณต้องการ

  • การเชื่อมต่อเทปไดร์ฟจากระยะไกลยังต้องการแบนด์วิดท์สูง

เทป Stackers

วิธีการใส่เทปหลายเทปลงในเทปไดร์ฟเดียวเรียกว่าเทปสแตกเกอร์ สแต็กเกอร์จะถอดเทปปัจจุบันออกเมื่อเสร็จสิ้นและโหลดเทปถัดไปดังนั้นจึงสามารถเข้าถึงเทปได้ครั้งละหนึ่งเทปเท่านั้น ราคาและความสามารถอาจแตกต่างกันไป แต่ความสามารถทั่วไปคือสามารถทำการสำรองข้อมูลโดยไม่ต้องใส่ข้อมูลได้

เทปไซโล

ไซโลเทปให้ความจุในการจัดเก็บขนาดใหญ่ ไซโลเทปสามารถจัดเก็บและจัดการเทปได้หลายพันเทป สามารถรวมเทปไดรฟ์หลาย ๆ พวกเขามีซอฟต์แวร์และฮาร์ดแวร์สำหรับติดฉลากและจัดเก็บเทปที่จัดเก็บ เป็นเรื่องปกติมากที่ไซโลจะเชื่อมต่อจากระยะไกลผ่านเครือข่ายหรือลิงก์เฉพาะ เราควรตรวจสอบให้แน่ใจว่าแบนด์วิดท์ของการเชื่อมต่อนั้นขึ้นอยู่กับงาน

การสำรองข้อมูลดิสก์

วิธีการสำรองข้อมูลดิสก์คือ -

  • การสำรองข้อมูลจากดิสก์สู่ดิสก์
  • กระจกแตก

วิธีการเหล่านี้ใช้ในระบบ OLTP วิธีการเหล่านี้ช่วยลดเวลาหยุดทำงานของฐานข้อมูลและเพิ่มความพร้อมใช้งานให้มากที่สุด

Disk-to-Disk Backups

ที่นี่การสำรองข้อมูลจะถูกนำมาใช้บนดิสก์แทนที่จะเป็นเทป การสำรองข้อมูลจากดิสก์สู่ดิสก์ทำได้ด้วยเหตุผลต่อไปนี้ -

  • ความเร็วในการสำรองข้อมูลเบื้องต้น
  • ความเร็วในการคืนค่า

การสำรองข้อมูลจากดิสก์ไปยังดิสก์นั้นเร็วกว่าเทปมาก อย่างไรก็ตามมันเป็นขั้นตอนกลางของการสำรองข้อมูล หลังจากนั้นข้อมูลจะถูกสำรองไว้ในเทป ข้อดีอีกอย่างของการสำรองข้อมูลแบบดิสก์ต่อดิสก์คือการสำรองข้อมูลล่าสุดแบบออนไลน์ให้คุณ

Mirror Breaking

แนวคิดคือการมีดิสก์มิเรอร์เพื่อความยืดหยุ่นในระหว่างวันทำงาน เมื่อจำเป็นต้องมีการสำรองข้อมูลชุดมิเรอร์ชุดใดชุดหนึ่งสามารถแยกออกได้ เทคนิคนี้เป็นรูปแบบหนึ่งของการสำรองข้อมูลแบบดิสก์ต่อดิสก์

Note - อาจจำเป็นต้องปิดฐานข้อมูลเพื่อรับประกันความสอดคล้องของการสำรองข้อมูล

ตู้เพลงออปติคอล

ตู้เพลงแบบออปติคอลอนุญาตให้จัดเก็บข้อมูลใกล้สาย เทคนิคนี้ช่วยให้สามารถจัดการออปติคัลดิสก์จำนวนมากได้ในลักษณะเดียวกับเทปสแตกเกอร์หรือไซโลเทป ข้อเสียเปรียบของเทคนิคนี้คือมีความเร็วในการเขียนช้ากว่าดิสก์ แต่สื่อออปติคอลให้อายุการใช้งานที่ยาวนานและเชื่อถือได้ซึ่งทำให้เป็นตัวเลือกที่ดีสำหรับการเก็บถาวร

การสำรองข้อมูลซอฟต์แวร์

มีเครื่องมือซอฟต์แวร์ที่ช่วยในกระบวนการสำรองข้อมูล เครื่องมือซอฟต์แวร์เหล่านี้มาเป็นแพ็คเกจ เครื่องมือเหล่านี้ไม่เพียง แต่สำรองข้อมูลเท่านั้น แต่ยังสามารถจัดการและควบคุมกลยุทธ์การสำรองข้อมูลได้อย่างมีประสิทธิภาพ มีซอฟต์แวร์สำเร็จรูปมากมายในตลาด บางส่วนมีรายชื่ออยู่ในตารางต่อไปนี้ -

ชื่อแพ็กเกจ ผู้ขาย
Networker เลกาโต้
ADSM ไอบีเอ็ม
ยุค ระบบ Epoch
Omniback II HP
อเล็กซานเดรีย ลำดับ

หลักเกณฑ์ในการเลือกแพ็คเกจซอฟต์แวร์

เกณฑ์การเลือกชุดซอฟต์แวร์ที่ดีที่สุดมีดังต่อไปนี้ -

  • ผลิตภัณฑ์สามารถปรับขนาดได้อย่างไรเมื่อเพิ่มเทปไดรฟ์?
  • แพ็กเกจมีอ็อพชันไคลเอนต์เซิร์ฟเวอร์หรือไม่หรือต้องรันบนเซิร์ฟเวอร์ฐานข้อมูลเอง
  • จะทำงานในสภาพแวดล้อมคลัสเตอร์และ MPP หรือไม่
  • ต้องมีความเท่าเทียมกันในระดับใด
  • แพคเกจรองรับแพลตฟอร์มใดบ้าง
  • แพคเกจรองรับการเข้าถึงข้อมูลเกี่ยวกับเนื้อหาเทปได้ง่ายหรือไม่?
  • ฐานข้อมูลแพ็กเกจรับรู้หรือไม่?
  • แพคเกจรองรับเทปไดร์ฟและเทปมีเดียใดบ้าง

คลังข้อมูลมีการพัฒนาอย่างต่อเนื่องและไม่สามารถคาดเดาได้ว่าผู้ใช้จะโพสต์ข้อความค้นหาใดในอนาคต ดังนั้นการปรับแต่งระบบคลังข้อมูลจึงทำได้ยากขึ้น ในบทนี้เราจะพูดถึงวิธีปรับแต่งแง่มุมต่างๆของคลังข้อมูลเช่นประสิทธิภาพการโหลดข้อมูลการสืบค้น ฯลฯ

ความยากลำบากในการปรับแต่งคลังข้อมูล

การปรับคลังข้อมูลเป็นขั้นตอนที่ยากเนื่องจากสาเหตุต่อไปนี้ -

  • คลังข้อมูลเป็นแบบไดนามิก มันไม่เคยคงที่

  • เป็นเรื่องยากมากที่จะคาดเดาว่าผู้ใช้จะโพสต์ข้อความค้นหาใดในอนาคต

  • ความต้องการทางธุรกิจเปลี่ยนแปลงไปตามกาลเวลา

  • ผู้ใช้และโปรไฟล์ของพวกเขาเปลี่ยนแปลงไปเรื่อย ๆ

  • ผู้ใช้สามารถเปลี่ยนจากกลุ่มหนึ่งไปยังอีกกลุ่มหนึ่งได้

  • โหลดข้อมูลในคลังสินค้าก็เปลี่ยนแปลงไปตามเวลาเช่นกัน

Note - จำเป็นอย่างยิ่งที่จะต้องมีความรู้เกี่ยวกับคลังข้อมูลอย่างครบถ้วน

การประเมินประสิทธิภาพ

นี่คือรายการของการวัดผลตามวัตถุประสงค์ -

  • เวลาตอบกลับแบบสอบถามโดยเฉลี่ย
  • อัตราการสแกน
  • เวลาที่ใช้ต่อวันในการสืบค้น
  • การใช้หน่วยความจำต่อกระบวนการ
  • อัตราทรูพุต I / O

ต่อไปนี้เป็นประเด็นที่ต้องจำ

  • จำเป็นต้องระบุมาตรการในข้อตกลงระดับบริการ (SLA)

  • ไม่มีประโยชน์ในการพยายามปรับแต่งเวลาตอบสนองหากดีกว่าที่กำหนดอยู่แล้ว

  • จำเป็นอย่างยิ่งที่จะต้องมีความคาดหวังที่เป็นจริงในขณะที่ทำการประเมินประสิทธิภาพ

  • นอกจากนี้ยังจำเป็นที่ผู้ใช้จะต้องมีความคาดหวังที่เป็นไปได้

  • เพื่อซ่อนความซับซ้อนของระบบจากผู้ใช้ควรใช้การรวมและมุมมอง

  • นอกจากนี้ยังเป็นไปได้ว่าผู้ใช้สามารถเขียนแบบสอบถามที่คุณไม่ได้ปรับแต่ง

การปรับโหลดข้อมูล

การโหลดข้อมูลเป็นส่วนสำคัญของการประมวลผลข้ามคืน ไม่มีสิ่งอื่นใดที่สามารถทำงานได้จนกว่าการโหลดข้อมูลจะเสร็จสมบูรณ์ นี่คือจุดเข้าสู่ระบบ

Note- หากมีความล่าช้าในการถ่ายโอนข้อมูลหรือการมาถึงของข้อมูลระบบทั้งหมดจะได้รับผลกระทบไม่ดี ดังนั้นจึงเป็นเรื่องสำคัญมากที่จะต้องปรับแต่งโหลดข้อมูลก่อน

มีหลายวิธีในการปรับโหลดข้อมูลที่จะกล่าวถึงด้านล่าง -

  • วิธีการทั่วไปคือการแทรกข้อมูลโดยใช้ไฟล์ SQL Layer. ในแนวทางนี้จำเป็นต้องดำเนินการตรวจสอบและข้อ จำกัด ตามปกติ เมื่อข้อมูลถูกแทรกลงในตารางโค้ดจะทำงานเพื่อตรวจสอบว่ามีพื้นที่เพียงพอสำหรับแทรกข้อมูลหรือไม่ หากไม่มีพื้นที่เพียงพออาจต้องจัดสรรพื้นที่ให้กับตารางเหล่านี้มากขึ้น การตรวจสอบเหล่านี้ใช้เวลาในการดำเนินการและมีค่าใช้จ่ายสูงสำหรับ CPU

  • แนวทางที่สองคือการหลีกเลี่ยงการตรวจสอบและข้อ จำกัด เหล่านี้และวางข้อมูลลงในบล็อกที่จัดรูปแบบไว้ล่วงหน้าโดยตรง บล็อกเหล่านี้ถูกเขียนไปยังฐานข้อมูลในภายหลัง เร็วกว่าแนวทางแรก แต่สามารถใช้ได้กับบล็อกข้อมูลทั้งหมดเท่านั้น ซึ่งอาจนำไปสู่การสูญเสียพื้นที่บางส่วน

  • แนวทางที่สามคือในขณะที่โหลดข้อมูลลงในตารางที่มีตารางอยู่แล้วเราสามารถรักษาดัชนีได้

  • แนวทางที่สี่กล่าวว่าการโหลดข้อมูลในตารางที่มีข้อมูลอยู่แล้ว drop the indexes & recreate themเมื่อการโหลดข้อมูลเสร็จสมบูรณ์ ทางเลือกระหว่างแนวทางที่สามและแนวทางที่สี่ขึ้นอยู่กับจำนวนข้อมูลที่โหลดไปแล้วและจำนวนดัชนีที่ต้องสร้างใหม่

การตรวจสอบความสมบูรณ์

การตรวจสอบความสมบูรณ์มีผลต่อประสิทธิภาพของโหลดอย่างมาก ต่อไปนี้เป็นประเด็นที่ต้องจำ -

  • การตรวจสอบความสมบูรณ์จำเป็นต้องมีข้อ จำกัด เนื่องจากต้องใช้พลังในการประมวลผลที่หนักหน่วง

  • ควรใช้การตรวจสอบความสมบูรณ์ในระบบต้นทางเพื่อหลีกเลี่ยงการลดประสิทธิภาพของโหลดข้อมูล

การปรับแต่งแบบสอบถาม

เรามีแบบสอบถามสองประเภทในคลังข้อมูล -

  • คำถามคงที่
  • แบบสอบถามเฉพาะกิจ

แบบสอบถามคงที่

มีการกำหนดคิวรีแบบตายตัว ต่อไปนี้เป็นตัวอย่างของแบบสอบถามคงที่ -

  • รายงานปกติ
  • แบบสอบถามกระป๋อง
  • การรวมทั่วไป

การปรับแต่งคิวรีคงที่ในคลังข้อมูลจะเหมือนกับในระบบฐานข้อมูลเชิงสัมพันธ์ ข้อแตกต่างเพียงอย่างเดียวคือจำนวนข้อมูลที่จะสอบถามอาจแตกต่างกัน เป็นการดีที่จะจัดเก็บแผนการดำเนินการที่ประสบความสำเร็จสูงสุดในขณะที่ทดสอบการสืบค้นคงที่ การจัดเก็บแผนการดำเนินการเหล่านี้จะช่วยให้เราสามารถระบุขนาดข้อมูลที่เปลี่ยนแปลงและข้อมูลที่บิดเบือนได้เนื่องจากจะทำให้แผนการดำเนินการเปลี่ยนแปลง

Note - เราไม่สามารถทำอะไรได้มากขึ้นในตารางข้อเท็จจริง แต่ในขณะที่จัดการกับตารางมิติข้อมูลหรือการรวมสามารถใช้คอลเลกชันการปรับแต่ง SQL กลไกการจัดเก็บและวิธีการเข้าถึงตามปกติเพื่อปรับแต่งแบบสอบถามเหล่านี้ได้

แบบสอบถามเฉพาะกิจ

เพื่อให้เข้าใจคำค้นหาเฉพาะกิจสิ่งสำคัญคือต้องรู้จักผู้ใช้คลังข้อมูลแบบเฉพาะกิจ สำหรับผู้ใช้แต่ละรายหรือกลุ่มผู้ใช้คุณจำเป็นต้องทราบสิ่งต่อไปนี้ -

  • จำนวนผู้ใช้ในกลุ่ม
  • ไม่ว่าพวกเขาจะใช้ข้อความค้นหาเฉพาะกิจในช่วงเวลาปกติ
  • ไม่ว่าพวกเขาจะใช้ข้อความค้นหาเฉพาะกิจบ่อยๆ
  • ไม่ว่าพวกเขาจะใช้คำค้นหาเฉพาะกิจเป็นครั้งคราวในช่วงเวลาที่ไม่รู้จัก
  • ขนาดสูงสุดของแบบสอบถามที่มักจะเรียกใช้
  • ขนาดเฉลี่ยของข้อความค้นหาที่มักจะเรียกใช้
  • ไม่ว่าพวกเขาต้องการการเข้าถึงข้อมูลพื้นฐานแบบเจาะลึก
  • เวลาเข้าสู่ระบบที่ผ่านไปต่อวัน
  • เวลาสูงสุดของการใช้งานประจำวัน
  • จำนวนการสืบค้นข้อมูลต่อชั่วโมงเร่งด่วน

Points to Note

  • เป็นสิ่งสำคัญในการติดตามโปรไฟล์ของผู้ใช้และระบุการสืบค้นที่เรียกใช้เป็นประจำ

  • สิ่งสำคัญคือการปรับแต่งที่ดำเนินการจะไม่ส่งผลกระทบต่อประสิทธิภาพ

  • ระบุข้อความค้นหาที่คล้ายกันและแบบเฉพาะกิจที่มักเรียกใช้

  • หากระบุคำค้นหาเหล่านี้ฐานข้อมูลจะเปลี่ยนไปและสามารถเพิ่มดัชนีใหม่สำหรับการสืบค้นเหล่านั้นได้

  • หากมีการระบุคำค้นหาเหล่านี้จะสามารถสร้างการรวมใหม่โดยเฉพาะสำหรับการสืบค้นเหล่านั้นซึ่งจะส่งผลให้การดำเนินการมีประสิทธิภาพ

การทดสอบเป็นสิ่งสำคัญมากสำหรับระบบคลังข้อมูลเพื่อให้ทำงานได้อย่างถูกต้องและมีประสิทธิภาพ มีการทดสอบพื้นฐานสามระดับในคลังข้อมูล -

  • การทดสอบหน่วย
  • การทดสอบการผสานรวม
  • การทดสอบระบบ

การทดสอบหน่วย

  • ในการทดสอบหน่วยแต่ละส่วนประกอบจะถูกทดสอบแยกกัน

  • แต่ละโมดูลเช่นโพรซีเดอร์โปรแกรมสคริปต์ SQL Unix เชลล์จะถูกทดสอบ

  • การทดสอบนี้ดำเนินการโดยนักพัฒนา

การทดสอบการผสานรวม

  • ในการทดสอบการรวมโมดูลต่างๆของแอปพลิเคชันจะถูกนำมารวมกันแล้วทดสอบกับจำนวนอินพุต

  • ดำเนินการเพื่อทดสอบว่าส่วนประกอบต่างๆทำงานได้ดีหรือไม่หลังจากรวมเข้าด้วยกัน

การทดสอบระบบ

  • ในการทดสอบระบบแอปพลิเคชันคลังข้อมูลทั้งหมดจะถูกทดสอบร่วมกัน

  • วัตถุประสงค์ของการทดสอบระบบคือการตรวจสอบว่าระบบทั้งหมดทำงานร่วมกันได้อย่างถูกต้องหรือไม่

  • การทดสอบระบบดำเนินการโดยทีมทดสอบ

  • เนื่องจากขนาดของคลังข้อมูลทั้งหมดมีขนาดใหญ่มากโดยปกติจึงเป็นไปได้ที่จะทำการทดสอบระบบขั้นต่ำก่อนที่จะประกาศใช้แผนการทดสอบได้

กำหนดการทดสอบ

ก่อนอื่นกำหนดการทดสอบจะถูกสร้างขึ้นในขั้นตอนของการพัฒนาแผนการทดสอบ ในกำหนดการนี้เราคาดการณ์เวลาโดยประมาณที่จำเป็นสำหรับการทดสอบระบบคลังข้อมูลทั้งหมด

มีวิธีการที่แตกต่างกันในการสร้างตารางการทดสอบ แต่ไม่มีวิธีใดที่สมบูรณ์แบบเนื่องจากคลังข้อมูลมีความซับซ้อนและมีขนาดใหญ่มาก นอกจากนี้ระบบคลังข้อมูลกำลังพัฒนาไปตามธรรมชาติ อาจประสบปัญหาต่อไปนี้ขณะสร้างตารางการทดสอบ -

  • ปัญหาง่ายๆอาจมีแบบสอบถามขนาดใหญ่ซึ่งอาจใช้เวลาหนึ่งวันหรือมากกว่านั้นจึงจะเสร็จสมบูรณ์กล่าวคือแบบสอบถามไม่เสร็จสมบูรณ์ในช่วงเวลาที่ต้องการ

  • อาจเกิดความล้มเหลวของฮาร์ดแวร์เช่นการสูญเสียดิสก์หรือข้อผิดพลาดจากมนุษย์เช่นการลบตารางโดยไม่ได้ตั้งใจหรือการเขียนทับตารางขนาดใหญ่

Note - เนื่องจากปัญหาดังกล่าวข้างต้นขอแนะนำให้เพิ่มระยะเวลาการทดสอบเป็นสองเท่าตามปกติ

ทดสอบการกู้คืนข้อมูลสำรอง

การทดสอบกลยุทธ์การกู้คืนข้อมูลสำรองเป็นสิ่งสำคัญอย่างยิ่ง นี่คือรายการสถานการณ์ที่จำเป็นต้องมีการทดสอบนี้ -

  • สื่อล้มเหลว
  • การสูญเสียหรือความเสียหายของพื้นที่ตารางหรือไฟล์ข้อมูล
  • การสูญเสียหรือความเสียหายของไฟล์บันทึกทำซ้ำ
  • ไฟล์ควบคุมสูญหายหรือเสียหาย
  • อินสแตนซ์ล้มเหลว
  • การสูญหายหรือเสียหายของไฟล์เก็บถาวร
  • โต๊ะสูญหายหรือเสียหาย
  • ความล้มเหลวระหว่างข้อมูลล้มเหลว

การทดสอบสภาพแวดล้อมการทำงาน

มีหลายแง่มุมที่ต้องทดสอบ ลักษณะเหล่านี้แสดงไว้ด้านล่าง

  • Security- จำเป็นต้องมีเอกสารความปลอดภัยแยกต่างหากสำหรับการทดสอบความปลอดภัย เอกสารนี้ประกอบด้วยรายการของการดำเนินการที่ไม่ได้รับอนุญาตและการวางแผนการทดสอบสำหรับแต่ละรายการ

  • Scheduler- ต้องใช้ซอฟต์แวร์การจัดตารางเวลาเพื่อควบคุมการทำงานประจำวันของคลังข้อมูล ต้องมีการทดสอบระหว่างการทดสอบระบบ ซอฟต์แวร์จัดกำหนดการต้องใช้อินเทอร์เฟซกับคลังข้อมูลซึ่งจะต้องใช้ตัวกำหนดตารางเวลาเพื่อควบคุมการประมวลผลข้ามคืนและการจัดการการรวม

  • Disk Configuration.- ต้องมีการทดสอบการกำหนดค่าดิสก์เพื่อระบุคอขวดของ I / O ควรทำการทดสอบหลายครั้งโดยมีการตั้งค่าที่แตกต่างกัน

  • Management Tools.- จำเป็นต้องทดสอบเครื่องมือการจัดการทั้งหมดระหว่างการทดสอบระบบ นี่คือรายการเครื่องมือที่ต้องทดสอบ

    • ผู้จัดการงานอีเว้นท์
    • ผู้จัดการระบบ
    • ผู้จัดการฐานข้อมูล
    • เครื่องมือจัดการการกำหนดค่า
    • ตัวจัดการการกู้คืนข้อมูลสำรอง

การทดสอบฐานข้อมูล

ฐานข้อมูลได้รับการทดสอบในสามวิธีต่อไปนี้ -

  • Testing the database manager and monitoring tools - ในการทดสอบตัวจัดการฐานข้อมูลและเครื่องมือตรวจสอบควรใช้ในการสร้างเรียกใช้และจัดการฐานข้อมูลทดสอบ

  • Testing database features - นี่คือรายการคุณสมบัติที่เราต้องทดสอบ -

    • การสืบค้นแบบคู่ขนาน

    • สร้างดัชนีควบคู่กัน

    • โหลดข้อมูลแบบขนาน

  • Testing database performance- การดำเนินการสืบค้นมีบทบาทสำคัญมากในการวัดประสิทธิภาพของคลังข้อมูล มีชุดของแบบสอบถามคงที่ซึ่งจำเป็นต้องเรียกใช้เป็นประจำและควรได้รับการทดสอบ ในการทดสอบคำค้นหาเฉพาะกิจควรอ่านเอกสารข้อกำหนดของผู้ใช้และทำความเข้าใจธุรกิจให้ครบถ้วน ใช้เวลาในการทดสอบคำถามที่น่าอึดอัดใจที่สุดที่ธุรกิจมีแนวโน้มที่จะถามเทียบกับดัชนีและกลยุทธ์การรวบรวมข้อมูลที่แตกต่างกัน

การทดสอบแอปพลิเคชัน

  • ผู้จัดการทั้งหมดควรได้รับการรวมเข้าด้วยกันอย่างถูกต้องและทำงานเพื่อให้แน่ใจว่าการโหลดแบบ end-to-end ดัชนีการรวมและการสืบค้นทำงานตามความคาดหวัง

  • แต่ละหน้าที่ของผู้จัดการแต่ละคนควรทำงานได้อย่างถูกต้อง

  • นอกจากนี้ยังจำเป็นต้องทดสอบแอปพลิเคชันในช่วงเวลาหนึ่ง

  • ควรทดสอบงานปลายสัปดาห์และสิ้นเดือนด้วย

ลอจิสติกของการทดสอบ

จุดมุ่งหมายของการทดสอบระบบคือการทดสอบพื้นที่ต่อไปนี้ทั้งหมด -

  • ซอฟต์แวร์ตั้งเวลา
  • ขั้นตอนการปฏิบัติงานในแต่ละวัน
  • กลยุทธ์การกู้คืนข้อมูลสำรอง
  • เครื่องมือการจัดการและการตั้งเวลา
  • การประมวลผลค้างคืน
  • ประสิทธิภาพการสืบค้น

Note- จุดสำคัญที่สุดคือการทดสอบความสามารถในการปรับขนาด หากไม่ทำเช่นนั้นจะทำให้เราออกแบบระบบไม่ได้เมื่อระบบเติบโตขึ้น

ต่อไปนี้เป็นแง่มุมในอนาคตของคลังข้อมูล

  • ดังที่เราได้เห็นแล้วว่าขนาดของฐานข้อมูลแบบเปิดเพิ่มขึ้นประมาณสองเท่าในช่วงไม่กี่ปีที่ผ่านมามันแสดงให้เห็นถึงคุณค่าที่สำคัญที่มีอยู่

  • เมื่อขนาดของฐานข้อมูลเติบโตขึ้นการประมาณการของฐานข้อมูลที่มีขนาดใหญ่มากก็ยังคงเติบโตอย่างต่อเนื่อง

  • ฮาร์ดแวร์และซอฟต์แวร์ที่มีอยู่ในปัจจุบันไม่อนุญาตให้เก็บข้อมูลจำนวนมากทางออนไลน์ ตัวอย่างเช่นบันทึกการโทรของ Telco ต้องการข้อมูล 10TB เพื่อให้ออนไลน์ซึ่งมีขนาดเท่ากับบันทึกหนึ่งเดือน หากต้องการเก็บบันทึกการขายลูกค้าการตลาดพนักงาน ฯลฯ ขนาดจะมากกว่า 100 TB

  • บันทึกประกอบด้วยข้อมูลที่เป็นข้อความและข้อมูลมัลติมีเดียบางส่วน ข้อมูลมัลติมีเดียไม่สามารถปรับเปลี่ยนเป็นข้อมูลข้อความได้อย่างง่ายดาย การค้นหาข้อมูลมัลติมีเดียไม่ใช่เรื่องง่ายในขณะที่ซอฟต์แวร์เชิงสัมพันธ์สามารถเรียกดูข้อมูลที่เป็นข้อความได้ในปัจจุบัน

  • นอกเหนือจากการวางแผนขนาดแล้วยังมีความซับซ้อนในการสร้างและเรียกใช้ระบบคลังข้อมูลที่มีขนาดเพิ่มขึ้นเรื่อย ๆ เมื่อจำนวนผู้ใช้เพิ่มขึ้นขนาดของคลังข้อมูลก็เพิ่มขึ้นด้วยเช่นกัน ผู้ใช้เหล่านี้จะต้องเข้าถึงระบบด้วย

  • ด้วยการเติบโตของอินเทอร์เน็ตมีความต้องการของผู้ใช้ในการเข้าถึงข้อมูลออนไลน์

ดังนั้นรูปแบบของคลังข้อมูลในอนาคตจะแตกต่างจากที่สร้างขึ้นในปัจจุบันมาก