วันพุธที่ 4 ตุลาคม พ.ศ. 2560

[บันทึกความรู้] Decision Tree

จากหลักสูตรเรียนออนไลน์ RSU-MOOC: rsu001 ฉลาดด้วยข้อมูล ใครๆ ก็ทำได้ (คลังข้อมูลและการทำเหมืองข้อมูล)
เนื้อหาก่อนหน้านี้ :  Classification

Decision Tree เป็นการทำ Model Construction รูปแบบหนึ่ง
ซึ่งแบบจำลองจะมีลักษณะคล้ายตันไม้    มีการสร้างกฎต่างๆเพื่อใช้ในการตัดสินใจไปแต่ละกิ่งก้านสาขา
โดยมี algorithm การทำงานที่ไม่ซับซ้อน  ทำให้สามารถทำความเข้าใจ Pattern รูปแบบได้ง่าย


-  จุดยอดภายใน  แทนลักษณะที่นำมาใช้แยกกลุ่มข้อมูล
-   ก้าน แทนค่าผลการทดสอบ
-  ใบ แทนค่าคลาส
 ขั้นตอนการสร้าง Decision Tree
1.  ใช้ข้อมูล  training data ทั้งหมดเป็น root
2.  แยกกลุ่มตามลักษณะประจำที่เลือก แล้วเรียกซ้ำ
3.  รวมและกำจัดกิ่งที่มีผลกระทบต่อความถูกต้องน้อยออกไป

ID3
- หลักการทำงานของ ID3 คือ เลือก Classifier แล้วทดสอบแต่ละ Nodeของ Dicision Tree
- หาตัว Classifier ตัวแบ่งประเภทข้อมุลที่จำแนกข้อมูลได้ดีที่สุด เพื่อใช้สร้าง Deicision Tree ที่ดีที่ที่สุด
- เป็น Iterative Process , Greedy Algorithm  แบ่งซ้ำไปเรื่อยๆจนไม่มีคว่ามสับสน

Entropy คือ  ค่าความสับสนของข้อมูล  การลด Entropy ทำได้โดยการหา Classifier ที่จำแนกข้อมูลได้ดีที่สุด

Entropy Measure
- ถ้ากลุ่มข้อมูลเหมือนกันหมด  จะได้ Entropy = 0
- กลุ่มข้อมูลที่แตกต่างกันและมีค่าเท่ากัน  จะได้  Entropy = 1
 
ดังนั้นค่า Entropy จะอยู่ระหว่าง 0 กับ  1   (0.003 ,0.413 , 0.917 เป็นต้น)
0 คือไม่มีความสับสนเลย  ,  1  คือสับสนสูงสุด    
(เพราะฉนั้นเวลาหา log จึงใช้ฐาน 2)

Information Gain คือ   การเพิ่มคุณค่าของข้อมูล  โดยการลด Entropy ยิ่งน้อยยิ่งดี