ETL - บทนำ

ETL ย่อมาจาก Extract, Transform and Load เครื่องมือ ETL จะดึงข้อมูลจากระบบต้นทาง RDBMS ที่แตกต่างกันแปลงข้อมูลเช่นใช้การคำนวณเชื่อมต่อ ฯลฯ แล้วโหลดข้อมูลไปยังระบบคลังข้อมูล ข้อมูลถูกโหลดในระบบ DW ในรูปแบบของตารางมิติข้อมูลและข้อเท็จจริง

การสกัด

  • ต้องมีพื้นที่จัดเตรียมระหว่างการโหลด ETL มีสาเหตุหลายประการที่ต้องใช้พื้นที่การจัดเตรียม

  • ระบบต้นทางจะพร้อมใช้งานในช่วงเวลาหนึ่งเท่านั้นในการดึงข้อมูล ช่วงเวลานี้น้อยกว่าเวลาโหลดข้อมูลทั้งหมด ดังนั้นพื้นที่การจัดเตรียมช่วยให้คุณสามารถดึงข้อมูลจากระบบต้นทางและเก็บไว้ในพื้นที่การจัดเตรียมก่อนที่ช่วงเวลาจะสิ้นสุดลง

  • พื้นที่การจัดเตรียมเป็นสิ่งจำเป็นเมื่อคุณต้องการรับข้อมูลจากแหล่งข้อมูลหลายแหล่งเข้าด้วยกันหรือหากคุณต้องการรวมระบบสองระบบขึ้นไปเข้าด้วยกัน ตัวอย่างเช่นคุณจะไม่สามารถดำเนินการสืบค้น SQL ร่วมสองตารางจากฐานข้อมูลที่แตกต่างกันทางกายภาพสองฐาน

  • ช่วงเวลาการสกัดข้อมูลสำหรับระบบต่างๆจะแตกต่างกันไปตามเขตเวลาและเวลาทำการ

  • ข้อมูลที่ดึงมาจากระบบต้นทางสามารถใช้ในระบบคลังข้อมูลหลายที่เก็บข้อมูลการดำเนินงาน ฯลฯ

  • ETL ช่วยให้คุณทำการแปลงที่ซับซ้อนและต้องการพื้นที่พิเศษในการจัดเก็บข้อมูล

แปลง

ในการแปลงข้อมูลคุณใช้ชุดของฟังก์ชันกับข้อมูลที่แยกแล้วเพื่อโหลดลงในระบบเป้าหมาย ข้อมูลซึ่งไม่ต้องการการเปลี่ยนแปลงใด ๆ เรียกว่าการเคลื่อนย้ายโดยตรงหรือส่งผ่านข้อมูล

คุณสามารถใช้การแปลงต่างๆกับข้อมูลที่แยกจากระบบต้นทางได้ ตัวอย่างเช่นคุณสามารถทำการคำนวณแบบกำหนดเองได้ หากคุณต้องการรายได้รวมจากการขายและไม่ได้อยู่ในฐานข้อมูลคุณสามารถใช้ไฟล์SUM สูตรระหว่างการแปลงและโหลดข้อมูล

ตัวอย่างเช่นหากคุณมีชื่อจริงและนามสกุลในตารางในคอลัมน์อื่นคุณสามารถใช้การเรียงต่อกันก่อนที่จะโหลด

โหลด

ในระหว่างโหลดเฟสข้อมูลจะถูกโหลดลงในระบบปลายทางและอาจเป็นไฟล์แบบแบนหรือระบบคลังข้อมูล