วันนี้มีเรื่องอะไร: [บันทึกความรู้] Decision Tree

จากหลักสูตรเรียนออนไลน์ RSU-MOOC: rsu001 ฉลาดด้วยข้อมูล ใครๆ ก็ทำได้ (คลังข้อมูลและการทำเหมืองข้อมูล)
เนื้อหาก่อนหน้านี้ : Classification

Decision Tree เป็นการทำ Model Construction รูปแบบหนึ่ง
ซึ่งแบบจำลองจะมีลักษณะคล้ายตันไม้ มีการสร้างกฎต่างๆเพื่อใช้ในการตัดสินใจไปแต่ละกิ่งก้านสาขา
โดยมี algorithm การทำงานที่ไม่ซับซ้อน ทำให้สามารถทำความเข้าใจ Pattern รูปแบบได้ง่าย

- จุดยอดภายใน แทนลักษณะที่นำมาใช้แยกกลุ่มข้อมูล
- ก้าน แทนค่าผลการทดสอบ
- ใบ แทนค่าคลาส

ขั้นตอนการสร้าง Decision Tree
1. ใช้ข้อมูล training data ทั้งหมดเป็น root
2. แยกกลุ่มตามลักษณะประจำที่เลือก แล้วเรียกซ้ำ
3. รวมและกำจัดกิ่งที่มีผลกระทบต่อความถูกต้องน้อยออกไป

ID3

- หลักการทำงานของ ID3 คือ เลือก Classifier แล้วทดสอบแต่ละ Nodeของ Dicision Tree

- หาตัว Classifier ตัวแบ่งประเภทข้อมุลที่จำแนกข้อมูลได้ดีที่สุด เพื่อใช้สร้าง Deicision Tree ที่ดีที่ที่สุด

- เป็น Iterative Process , Greedy Algorithm แบ่งซ้ำไปเรื่อยๆจนไม่มีคว่ามสับสน

Entropy คือ ค่าความสับสนของข้อมูล การลด Entropy ทำได้โดยการหา Classifier ที่จำแนกข้อมูลได้ดีที่สุด

Entropy Measure

- ถ้ากลุ่มข้อมูลเหมือนกันหมด จะได้ Entropy = 0

- กลุ่มข้อมูลที่แตกต่างกันและมีค่าเท่ากัน จะได้ Entropy = 1