เนื้อหาก่อนหน้านี้ : Business Intelligence
Data Mining
นิยามเหมืองข้อมูล
(1) การสกัดความรู้ที่น่าสนใจจากข้อมูลปริมาณมาก
ความรู้(Knowledge)
-ไม่ปรากฎให้เห็นเด่นชัด
-บ่งบอกเป็นนัย
-ไม่ทราบมาก่อน
-มีศักยภาพในการนำไปใช้ประโยชน์
(2) กระบวนการในการหารูปแบบ (Hidden Pattern)
หรือหาความสัมพันธ์ (Hidden Relationship) ที่ซ่อนอยู่เพื่อนำมาใช้ในการตัดสินใจ
จากฐานข้อมูลขนาดใหญ่
(3)
- อัตโนมัติ
- ข้อมูลที่ไม่รู้จัก
- เพิ่มคุณค่า
การประยุกต์ใช้งาน Data Mining
แบ่งได้เป็นสองกลุ่มใหญ่
1. การทำ Data Mining เพือการทำนาย
เป็นการนำความรู้ที่เกิดจากการเรียนรู้(Learning)ข้อมูลทีมีอยู่เพื่อทำนายข้อมูลใหม่ที่จะเกิดขึ้นในอนาคต
2. การทำ Data mining เพื่อการอธิบาย
เป็นการค้นหารูปแบบที่น่าสนใจของกลุ่มข้อมูล มักเป็นความสัมพันธ์หรือลักษณะการเชื่อมโยงของข้อมูล
"เพื่อการอธิบาย" จะต่างจาก "เพื่อการทำนาย" ตรงไม่ได้กำหนดล่วงหน้าว่าจะให้ Data Mining ค้นหารูปแบบอะไร
แต่ให้ค้นหาทุกรูปแบบที่น่าสนใจจากข้อมูล
โมเดลของ Data Mining
1. Association rule Discovery
เป็นการค้นหากฎความสัมพันธ์ของข้อมูล โดยค้นหาความสัมพันธ์ของข้อมูลตั้งแต่สองชุดขึ้นไป
วัดด้วยค่าสนับสนุน (Support) เป็นเปอร์เซ็นต์ของการดําเนินการที่กฎที่ใช้มีความถูกต้อง
และค่าความมั่นใจ (Confidence) เป็นจํานวนของกรณีที่กฎถูกต้องโดยสัมพันธ์กับจํานวนของกรณีที่กฎสามารถนําไปใช้ได้
2. Classification & Prediction
เป็นการจัดแบ่งประเภทของข้อมูล โดยหาชุดต้นแบบหรือชุดของการทํางานที่อธิบายและแบ่งประเภทข้อมูลได้
วัตถุประสงค์เพื่อให้สามารถใช้เป็นต้นแบบทํานายประเภทหรือข้อมูลที่ไม่มีการระบุประเภท
ชุดต้นแบบสร้างจากการวิเคราะห์ Training Data โดยอาจจะเป็นกลุ่มข้อมูลที่มีการระบุประเภทหรือกลุ่มเรียบร้อยแล้ว
รูปแบบของต้นแบบแสดงได้หลายแบบ เช่น Classification Rules,
Decision Trees หรือ Neural Networks เป็นต้น
3. Database clustering หรือ Segmentation
คือ การจัดกลุ่มข้อมูลซึ่งมีลักษณะคล้ายกับ Classification
ต่างกันตรงจะเป็นการวิเคราะห์โดยไม่พิจารณาตามประเภทที่มี
แต่จะใช้ขั้นตอนเปรียบเทียบ หาวัตถุที่มีความเหมือนกัน แล้วจัดเข้ากลุ่มเดียวกัน
คลิปวิดีโอ Data Analysis rsu.mooc
*** WEKA เป็น Open Source เครื่องมือในการทำเหมืองข้อมูล http://www.cs.waikato.ac.nz/ml/weka/
เนื้อหาต่อไป : Association Rule Discovery
Data Mining มีจุดประสงค์ ทำนายอนาคต กับอธิบายปรากฎการณ์บางอย่าง
มี Pattren ที่สามารถ Perdict ทำนายได้
ยกตัวอย่าง
- Direct Marketing
ทำการตลาดสื่อสารลูกค้าตรงๆ Channel(ช่องทางสื่อสาร)ที่ดีที่สุดคือช่องทางที่ลูกค้าชอบ
- Fraud Detection
ตรวจหาข้อมูลเท็จ เช่น เคสบัตรเครดิตมีคนแอบเอาไปใช้ โดยมี pattern การใช้งานแตกต่างจากที่เจ้าของบัตรใช้งานประจำ
- Customer Attrition Churn
การคัดลูกค้า เช่น หา pattern ลูกค้าคนที่กำลังจะเลิกใช้บริการของเรา
*** WEKA เป็น Open Source เครื่องมือในการทำเหมืองข้อมูล http://www.cs.waikato.ac.nz/ml/weka/
เนื้อหาต่อไป : Association Rule Discovery