วันศุกร์ที่ 29 กันยายน พ.ศ. 2560

[บันทึกความรู้] คลังข้อมูล (Data Warehouse) คืออะไร

จากหลักสูตรเรียนออนไลน์ RSU-MOOC: rsu001 ฉลาดด้วยข้อมูล ใครๆ ก็ทำได้ (คลังข้อมูลและการทำเหมืองข้อมูล)

คลังข้อมูล (Data Warehouse) คือ  ระบบฐานข้อมูลขนาดใหญ่เก็บข้อมูลจำนวนมหาศาล  ข้อมูลที่จัดเก็บในคลังข้อมูลจะถูกเลือกมาเป็นอย่างดี  ซึ่งเก็บรวบรวมจากข้อมูลประจำวัน( Operational Databases) และฐานข้อมูลภายนอกองค์กร (External Databases)  โดยข้อมูลที่ถูกจัดเก็บในคลังข้อมูลนั้น มีวัตถุประสงค์ในการนำมาใช้งานเพื่อสนับสนุนการตัดสินใจบริหารงานของของผู้บริหาร
ข้อมูลเหล่านี้จะถูกเรียกว่า ข้อมูลกลยุทธ์ (Strategic Information)  ข้อมูลกลยุทธ์มักมีการรวมศูนย์ มีความถูกต้องแม่นยำ และมีรูปแบบที่เหมาะสมตามความต้องการของผู้บริหาร

คลังข้อมูลจะมีมุมมองเชิงลึกในมิติต่างๆ ที่ฐานข้อมูลปกติทั่วไปไม่สามารถทำงานได้
เช่น   สรุปยอดขายในแต่ละเดือนของทุกสาขา แสดงรายละเอียดว่าแต่ละสาขามีสินค้าอะไรขายดีและขายดีช่วงไหนของเดือน
จากตัวอย่างดังกล่าวจะเห็นได้ว่ามิติสถานที่ (สาขา)   มิติผลิตภัณฑ์(สินค้าขายดี)  มิติเวลา (ช่วงไหนของเดือน) เป็นต้น

คลังข้อมูลต่างจากฐานข้อมูลอย่างไร ?
ฐานข้อมูลเป็นการประมวลผลประจำวัน  มีระยะเวลาจัดเก็บไม่ยาวนานนัก
ส่วนคลังข้อมูลคือฐานข้อมูลที่เก็บจากอดีตมาปัจจุบัน มีลักษณะประมวลแกนเวลาเป็นจำนวนหลายปี
(โดยเฉลี่ยจะอยู่ที่ 3-5 ปี  เกินกว่านั้นต้องทำ Archive หรือเก็บไว้ที่อื่น)



จากภาพตัวอย่าง จะเห็นมีมิติสามด้าน สินค้า เวลา จังหวัด รูปแบบการเก็บนี้เรียกว่า Multi Dimensional Data Model
โดยรูปแบบนี้ สามารถเพิ่มมิติกี่ด้านก็ได้ แล้วแต่มุมมองที่จะนำไปใช้งาน


 คุณสมบัติของคลังข้อมูล (Data Warehouse)
1. Subject Oriented (ตามหัวข้อเรื่องที่ต้องการ)
ข้อมูลในคลังข้อมูลจะเลือกเก็บแต่ข้อมูลที่สามารถมาใช้ในเชิงวิเคราะห์หรือตัดสินใจ
 มากกกว่าเก็บข้อมูลเพื่อตอบคำถามรายละเอียดปลีกย่อย
ยกตัวอย่าง ถ้าจุดประสงค์ต้องการทราบข้อมูลเกี่ยวกับยอดขาย    คลังข้อมูลจะถูกออกแบบสร้างให้เน้นแต่เรื่องยอดขาย
เมื่อมีคำถามที่เกี่ยวกับยอดขายก็จะสามารถตอบคำถามนั้นได้ทันที  เช่น  ใครเป็นลูกค้าที่ยอดซื้อสูงสุด
 สินค้าประเภทนี้มียอดขายเท่าไร   และนั่นคือคุณสมบัติ Subject Oriented ของคลังข้อมูล

2. Integrated (หลอมรวมข้อมูล)
 การที่จะใช้ข้อมูลจากคลังข้อมูลเพื่อตอบคำถาม บางครั้งต้องรวบรวมข้อมูลมาจากหลายแหล่ง
โดยเหตุจากที่มาที่แตกต่างกัน อาจทำให้เกิดปัญหาความไม่ถูกต้อง ความไม่สอดคล้องกันของข้อมูล
คลังข้อมูลที่ดีต้องสามารจัดการปัญหาเหล่านั้น  นำข้อมูลมาสร้างความสอดคล้องเพื่อแสดงข้อมูลที่ถูกต้องให้แก่ผู้ใช้งาน

3. Time-variant (ความสัมพันธ์แกนเวลา )
ลักษณะข้อมูลในคลังข้อมูลจะเป็นข้อมูลประวัติศาสตร์ (Historical Data)
เก็บจากอดีตถึงปัจจุบันย้อนหลังเป็นเวลาหลายปี   ทั้งนี้เพื่อที่จะได้นำไปวิเคราะห์เปรียบเทียบหาแนวโน้มของข้อมูล

4. Non-volatile (ไม่เปลี่ยนแปลงบ่อยๆ )
ข้อมูลในคลังข้อมูลจะไม่มีการแก้ไขเปลี่ยนแปลงอีกหลังจากที่ถูกโหลดเข้าสู่ฐานข้อมูลแล้ว
เว้นแต่ในกรณีที่ข้อมูลที่โหลดเข้าไปนั้นเป็นข้อมูลที่ไม่ถูกต้อง


รูปแบบการวิเคราะห์คลังข้อมูล
มิติ (Dimension) คือ มุมมองข้อมูล   โดยธรรมชาติของข้อมูลในทางธุรกิจมีลักษณะเป็นหลายมิติ (Multidimensional)
เช่น  มิติของข้อมูลยอดขาย ก็จะประกอบไปด้วย  สินค้า เวลา และสถานที่จำหน่ายสินค้า เป็นต้น
มิติจะมีการแบ่งเป็นลำดับขั้น (Hierarchy) เช่น  มิติเวลาไล่ลำดับขั้นจากล่างไปบนสุดมี  ชั่วโมง ,วัน, สัปดาห์,เดือน,ปี

การวิเคราะห์ข้อมูลหลายมิติจะประกอบไปด้วย 7 รูปแบบ
1.  Drill-Down การวิเคราะห์ข้อมูลโดยดูจากข้อมูลในลำดับขั้นจากระดับบนแล้วซอยย่อยมาระดับล่างไล่ลงไป

2.  Roll up ตรงข้ามกับ Drill-Down โดยเริ่มดูข้อมูลจากส่วนรายละเอียดระดับล่างก่อนแล้วค่อยไปดูระดับบน
เป็นวิธีการสรุปภาพรวมของข้อมูล ลดจำนวนมิติลง

3. Slice  การมองข้อมูลเฉพาะส่วน  เช่น การดูยอดขายของสินค้าทั่งหมดต่อเดือนใดเดือนหนึ่ง

4. Dice การมองข้อมูลหลายมุม โดยหมุนไปทีละมุม เช่น  การดูยอดขายของสินค้าทั่งหมดต่อเดือนโดยไล่ไปทีละเดือนจากเดือนแรกไปเดือนสุดท้าย

5. Pivot or Rotate  การเปลี่ยนมุมมอง   คือวิธีการสลับแกนการแสดงลูกบาศก์สามมิติ  การมองลูกบาศก์สามมิติโดยใช้ตารางสองมิติ
ยกตัวอย่าง  การนำเสนอโดยหมุนแกนในรูปแบบ Pivot Table
 

6. Drill Across  เป็นการเจาะลงที่ใช้มากกว่าหนึ่งตารางข้อมูลจริง

7. Drill Through  เป็นการเจาะลงไปในระดับที่ต่ำกว่าลูกบาศก์ขั้นต่ำที่สุด โดยส่งไปยังฐานข้อมูลที่เป็นที่มาของข้อมูล

เนื้อหาต่อไป :  การออกแบบและสร้างคลังข้อมูล