วันจันทร์ที่ 2 ตุลาคม พ.ศ. 2560

[บันทึกความรู้] Data Mining

จากหลักสูตรเรียนออนไลน์ RSU-MOOC: rsu001 ฉลาดด้วยข้อมูล ใครๆ ก็ทำได้ (คลังข้อมูลและการทำเหมืองข้อมูล)
เนื้อหาก่อนหน้านี้ :  Business Intelligence

Data Mining
นิยามเหมืองข้อมูล 
(1) การสกัดความรู้ที่น่าสนใจจากข้อมูลปริมาณมาก
ความรู้(Knowledge)
-ไม่ปรากฎให้เห็นเด่นชัด
-บ่งบอกเป็นนัย
-ไม่ทราบมาก่อน
-มีศักยภาพในการนำไปใช้ประโยชน์

 (2) กระบวนการในการหารูปแบบ (Hidden Pattern)
หรือหาความสัมพันธ์ (Hidden Relationship) ที่ซ่อนอยู่เพื่อนำมาใช้ในการตัดสินใจ
จากฐานข้อมูลขนาดใหญ่

(3)
- อัตโนมัติ
- ข้อมูลที่ไม่รู้จัก
- เพิ่มคุณค่า


การประยุกต์ใช้งาน Data Mining
 แบ่งได้เป็นสองกลุ่มใหญ่
1. การทำ Data Mining เพือการทำนาย
เป็นการนำความรู้ที่เกิดจากการเรียนรู้(Learning)ข้อมูลทีมีอยู่เพื่อทำนายข้อมูลใหม่ที่จะเกิดขึ้นในอนาคต

2. การทำ Data mining เพื่อการอธิบาย
เป็นการค้นหารูปแบบที่น่าสนใจของกลุ่มข้อมูล  มักเป็นความสัมพันธ์หรือลักษณะการเชื่อมโยงของข้อมูล

"เพื่อการอธิบาย" จะต่างจาก "เพื่อการทำนาย"   ตรงไม่ได้กำหนดล่วงหน้าว่าจะให้ Data Mining ค้นหารูปแบบอะไร
แต่ให้ค้นหาทุกรูปแบบที่น่าสนใจจากข้อมูล


โมเดลของ Data Mining
1. Association rule Discovery
เป็นการค้นหากฎความสัมพันธ์ของข้อมูล   โดยค้นหาความสัมพันธ์ของข้อมูลตั้งแต่สองชุดขึ้นไป
วัดด้วยค่าสนับสนุน (Support) เป็นเปอร์เซ็นต์ของการดําเนินการที่กฎที่ใช้มีความถูกต้อง
และค่าความมั่นใจ (Confidence) เป็นจํานวนของกรณีที่กฎถูกต้องโดยสัมพันธ์กับจํานวนของกรณีที่กฎสามารถนําไปใช้ได้

2. Classification & Prediction
เป็นการจัดแบ่งประเภทของข้อมูล โดยหาชุดต้นแบบหรือชุดของการทํางานที่อธิบายและแบ่งประเภทข้อมูลได้
 วัตถุประสงค์เพื่อให้สามารถใช้เป็นต้นแบบทํานายประเภทหรือข้อมูลที่ไม่มีการระบุประเภท
ชุดต้นแบบสร้างจากการวิเคราะห์  Training Data โดยอาจจะเป็นกลุ่มข้อมูลที่มีการระบุประเภทหรือกลุ่มเรียบร้อยแล้ว
รูปแบบของต้นแบบแสดงได้หลายแบบ  เช่น Classification Rules,
 Decision Trees หรือ  Neural Networks เป็นต้น

3. Database clustering หรือ Segmentation
 คือ การจัดกลุ่มข้อมูลซึ่งมีลักษณะคล้ายกับ Classification
ต่างกันตรงจะเป็นการวิเคราะห์โดยไม่พิจารณาตามประเภทที่มี
แต่จะใช้ขั้นตอนเปรียบเทียบ  หาวัตถุที่มีความเหมือนกัน แล้วจัดเข้ากลุ่มเดียวกัน

คลิปวิดีโอ Data Analysis  rsu.mooc


Data Mining มีจุดประสงค์ ทำนายอนาคต กับอธิบายปรากฎการณ์บางอย่าง
มี Pattren ที่สามารถ Perdict ทำนายได้
ยกตัวอย่าง
- Direct Marketing   
ทำการตลาดสื่อสารลูกค้าตรงๆ   Channel(ช่องทางสื่อสาร)ที่ดีที่สุดคือช่องทางที่ลูกค้าชอบ 
- Fraud Detection
ตรวจหาข้อมูลเท็จ  เช่น เคสบัตรเครดิตมีคนแอบเอาไปใช้  โดยมี pattern การใช้งานแตกต่างจากที่เจ้าของบัตรใช้งานประจำ

- Customer Attrition Churn
การคัดลูกค้า  เช่น หา pattern ลูกค้าคนที่กำลังจะเลิกใช้บริการของเรา

*** WEKA เป็น Open Source เครื่องมือในการทำเหมืองข้อมูล http://www.cs.waikato.ac.nz/ml/weka/

เนื้อหาต่อไป : Association Rule Discovery