เนื้อหาก่อนหน้านี้ : Classification
Decision Tree เป็นการทำ Model Construction รูปแบบหนึ่ง
ซึ่งแบบจำลองจะมีลักษณะคล้ายตันไม้ มีการสร้างกฎต่างๆเพื่อใช้ในการตัดสินใจไปแต่ละกิ่งก้านสาขา
โดยมี algorithm การทำงานที่ไม่ซับซ้อน ทำให้สามารถทำความเข้าใจ Pattern รูปแบบได้ง่าย
- จุดยอดภายใน แทนลักษณะที่นำมาใช้แยกกลุ่มข้อมูลขั้นตอนการสร้าง Decision Tree
- ก้าน แทนค่าผลการทดสอบ
- ใบ แทนค่าคลาส
1. ใช้ข้อมูล training data ทั้งหมดเป็น root
2. แยกกลุ่มตามลักษณะประจำที่เลือก แล้วเรียกซ้ำ
3. รวมและกำจัดกิ่งที่มีผลกระทบต่อความถูกต้องน้อยออกไป
ID3
- หลักการทำงานของ ID3 คือ เลือก Classifier แล้วทดสอบแต่ละ Nodeของ Dicision Tree
- หาตัว Classifier ตัวแบ่งประเภทข้อมุลที่จำแนกข้อมูลได้ดีที่สุด เพื่อใช้สร้าง Deicision Tree ที่ดีที่ที่สุด
- เป็น Iterative Process , Greedy Algorithm แบ่งซ้ำไปเรื่อยๆจนไม่มีคว่ามสับสน
Entropy คือ ค่าความสับสนของข้อมูล การลด Entropy ทำได้โดยการหา Classifier ที่จำแนกข้อมูลได้ดีที่สุด
Entropy Measure
- ถ้ากลุ่มข้อมูลเหมือนกันหมด จะได้ Entropy = 0
- กลุ่มข้อมูลที่แตกต่างกันและมีค่าเท่ากัน จะได้ Entropy = 1
ดังนั้นค่า Entropy จะอยู่ระหว่าง 0 กับ 1 (0.003 ,0.413 , 0.917 เป็นต้น)
0 คือไม่มีความสับสนเลย , 1 คือสับสนสูงสุด
(เพราะฉนั้นเวลาหา log จึงใช้ฐาน 2)
Information Gain คือ การเพิ่มคุณค่าของข้อมูล โดยการลด Entropy ยิ่งน้อยยิ่งดี