วันจันทร์ที่ 9 ตุลาคม พ.ศ. 2560

[บันทึกความรู้] Critical Thinking for Business

จากหลักสูตรเรียนออนไลน์ของ https://mooc.chula.ac.th/

Paradigm กรอบความคิด  ,ประสบการณ์เก่าของเราเป็นตัวกรองข้อมูล

Critique  วิพากษ์   ประกอบไปด้วย การแบ่งแยก (Separtate) และการเลือก (Choose)

Critical Thinking การคิดเชิงวิพากษ์

Socratic Method  วิธีการตั้งประเด็นคำถาม
กระบวนการกระตุ้นเปิดประเด็นให้เกิดการอภิปราย แสดงความเห็นเป็นวงกว้าง
พร้อมทั้งตั้งคำถามเพื่อให้เจาะลึกลงไปว่าความคิดดังกล่าวถูกสังเคราะห์ได้อย่างไร

การอภิปรายเรียบเรียงกระบวนการคิดจะทำให้เรามีมุมมองที่กว้างขวางขึ้น
สามารถคิดถึงคำตอบที่เป็นไปได้มากขึ้นที่สำคัญช่วยลดอคติของตน
(เมื่อลดอคติ -- > pardigm มีความยืดหยุ่น  เปิดกว้างให้เรียนรู้อะไรใหม่ๆได้มากขึ้น)
How do you know that ?
คุณรู้ได้อย่างไร ?
เมื่อเรารับข้อมูล ประมวลผลเรียบร้อยแล้ว ให้ถามตัวเองอีกครั้ง
- เรารู้ได้อย่างไร
- คิดได้อย่างไร
- ที่มาที่ไปของความคิดนั้น
- ทำไมถึงคิดเช่นนั้น

Thinking About Thinking  คิดก่อนคิด
เปลี่ยนวิธีคิดแบบ What is ( ต้องเป็นอย่างนั้นอย่างนี้ )
เป็น  What can be (มีอะไรที่สามารถเป็นไปได้อีกบ้าง   , ทางเลือกอื่น ,   สิ่งน่าสนใจอื่นๆ)

เทคนิคการตั้งคำถาม
   การตั้งคำถามที่ดีจะนำไปสู่คำตอบที่ดีต่อไปได้
- อย่าเพิ่งปักใจเชื่อ
- อย่าเพิ่งพอใจกับคำตอบในขณะนั้น
- ฝึกฝนให้มีความช่างสงสัยและเริ่มตั้งคำถาม
- มีความเป็นไปได้อื่นๆอีกหรือไม่

- What if จะเกิดอะไรขึ้นถ้า...
- What if...Then  แล้วจะเกิดอะไรขึ้น ต่อไป(ผลลัพธ์
)

Types of Questioning
- Position จุดยืน คือ การยืนยันคำตอบหนึ่งๆ เป็นความพยายามที่จะสรุปประเด็น
เช่น   ขาดทุนติดกันมาหลายเดือน ควรจะทำธุรกิจต่อไปหรือไม่  คำตอบมีอยู่สองคำตอบ  ทนทำต่อไปหรือเลิกทำ 
ถือว่าเป็นคำถามที่มีจุดยืน  การตั้งคำถามนี้ในที่ประชุมโดยใช้เสียงโหวตตัดสิน  ผลโหวตอาจไม่ได้นำพาไปสู่คำตอบที่ถูกต้อง
หรือแม้แต่ใช้ตั้งถามตัวเอง ก็อาจจะเผลอตอบไปโดยใช้อารมณ์ตัดสินล้วนๆ

- Interest
จุดสนใจ คือ การระดมความคิดจากทุกๆฝ่าย เพื่อมุ่งแสวงหาคำตอบหรือทางเลือกอื่นๆที่แตกต่างออกไป
เช่น    มีทางเลือกอะไรบ้าง ?   ,หาสาเหตุทำไมถึงขาดทุน , หาวิธีดำเนินงานธุรกิจใหม่ ,     คิดถึงผลกระทบที่จะตามมาจากวิธีการต่างๆที่นำมาแก้ไขปัญหา





วันพุธที่ 4 ตุลาคม พ.ศ. 2560

[บันทึกความรู้] Decision Tree

จากหลักสูตรเรียนออนไลน์ RSU-MOOC: rsu001 ฉลาดด้วยข้อมูล ใครๆ ก็ทำได้ (คลังข้อมูลและการทำเหมืองข้อมูล)
เนื้อหาก่อนหน้านี้ :  Classification

Decision Tree เป็นการทำ Model Construction รูปแบบหนึ่ง
ซึ่งแบบจำลองจะมีลักษณะคล้ายตันไม้    มีการสร้างกฎต่างๆเพื่อใช้ในการตัดสินใจไปแต่ละกิ่งก้านสาขา
โดยมี algorithm การทำงานที่ไม่ซับซ้อน  ทำให้สามารถทำความเข้าใจ Pattern รูปแบบได้ง่าย


-  จุดยอดภายใน  แทนลักษณะที่นำมาใช้แยกกลุ่มข้อมูล
-   ก้าน แทนค่าผลการทดสอบ
-  ใบ แทนค่าคลาส
 ขั้นตอนการสร้าง Decision Tree
1.  ใช้ข้อมูล  training data ทั้งหมดเป็น root
2.  แยกกลุ่มตามลักษณะประจำที่เลือก แล้วเรียกซ้ำ
3.  รวมและกำจัดกิ่งที่มีผลกระทบต่อความถูกต้องน้อยออกไป

ID3
- หลักการทำงานของ ID3 คือ เลือก Classifier แล้วทดสอบแต่ละ Nodeของ Dicision Tree
- หาตัว Classifier ตัวแบ่งประเภทข้อมุลที่จำแนกข้อมูลได้ดีที่สุด เพื่อใช้สร้าง Deicision Tree ที่ดีที่ที่สุด
- เป็น Iterative Process , Greedy Algorithm  แบ่งซ้ำไปเรื่อยๆจนไม่มีคว่ามสับสน

Entropy คือ  ค่าความสับสนของข้อมูล  การลด Entropy ทำได้โดยการหา Classifier ที่จำแนกข้อมูลได้ดีที่สุด

Entropy Measure
- ถ้ากลุ่มข้อมูลเหมือนกันหมด  จะได้ Entropy = 0
- กลุ่มข้อมูลที่แตกต่างกันและมีค่าเท่ากัน  จะได้  Entropy = 1
 
ดังนั้นค่า Entropy จะอยู่ระหว่าง 0 กับ  1   (0.003 ,0.413 , 0.917 เป็นต้น)
0 คือไม่มีความสับสนเลย  ,  1  คือสับสนสูงสุด    
(เพราะฉนั้นเวลาหา log จึงใช้ฐาน 2)

Information Gain คือ   การเพิ่มคุณค่าของข้อมูล  โดยการลด Entropy ยิ่งน้อยยิ่งดี

 



วันอังคารที่ 3 ตุลาคม พ.ศ. 2560

[บันทึกความรู้] Classification

จากหลักสูตรเรียนออนไลน์ RSU-MOOC: rsu001 ฉลาดด้วยข้อมูล ใครๆ ก็ทำได้ (คลังข้อมูลและการทำเหมืองข้อมูล)
เนื้อหาก่อนหน้านี้ : Association Rule Discovery

Data Classification (การจำแนกประเภทข้อมูล)
- เป็นกระบวนการหากฎเพื่อจำแนกประเภทของวัตถุจากคุณสมบัติของวัตถุ
- เป็นกระบวนการสร้างรูปแบบ (Model) จัดการข้อมูลให้อยู่ในกลุ่มที่กำหนดมาให้

Classification and Prediction
คือ การแยกประเภทข้อมูลให้อยู่ในกลุ่มที่กำหนดมาให้ โดยการสร้างกฏเพื่อช่วยในการตัดสินใจจากข้อมูลที่มีอยู่
เพื่อใช้ทำนายแนวโน้มการเกิดขึ้นของข้อมูลที่ยังไม่เกิดขึ้น  รวมทั้งทำนายค่าที่ไม่ทราบหรือค่าที่หายไป
 มี 3 ขั้นตอนดังนี้


1. Model Construction (การสร้างต้นแบบ)
สร้างจาก Training Data(ข้อมูลเรียนรู้) กลุ่มข้อมูลที่จะสอนว่าโมเดลควรเป็นอย่างไร
โดย Training Data จะถูก Algorithm วิเคราะห์แบ่งประเภท
สร้างเป็นโมเดลในรูปแบบของกฎการแบ่งประเภท

2. Model Evaluation (การประเมิน)
เมื่อได้โมเดลแล้ว   จะใส่ Testing Data(ข้อมูลทดสอบระบบ) เพื่อประเมินผลโมเดลว่ามีความถูกต้องแค่ไหน
และในขั้นตอนนี้จะปรับปรุงโมเดลจนกว่าจะได้ความถูกต้องในระดับที่น่าพอใจ  เมื่อสมบูรณ์แบบก็จะเป็น Classifier Model

3. Classifier Model (จำแนกประเภท)
ต่อจากนั้นนำ  Unseen Data ข้อมูลที่ไม่เคยเห็นมาก่อน  ใส่เข้าไปในโมเดลนี้ เพื่อทำการ Classification จัดจำแนกประเภทข้อมูล
แล้วไปทำการ Perdict ทำนาย

เนื้อหาต่อไป :  Decision Tree

[บันทึกความรู้] Association Rule Discovery

จากหลักสูตรเรียนออนไลน์ RSU-MOOC: rsu001 ฉลาดด้วยข้อมูล ใครๆ ก็ทำได้ (คลังข้อมูลและการทำเหมืองข้อมูล)
เนื้อหาก่อนหน้านี้ :  Data Mining

Association Rule
กฎความสัมพันธ์  ใช้ค้นหาความสัมพันธ์ที่แฝงอยู่ในข้อมูล  ,หา Frequency pattern (รูปแบบที่กิดขึ้นบ่อย )


Itemset รายการที่เกิดขึ้นในแต่ละครั้ง
Support ค่าสนับสนุน  ความถี่ของจำนวนข้อมูลทั้งหมดที่ประกอบด้วย A และ B
Confidence ค่าความเชื่อมั่น    ความถี่จำนวนข้อมูลเมื่อประกอบด้วย A แล้วประกอบด้วย B ด้วย
Minimum Support ค่าสนับสนุนต่ำสุดที่ยอมรับได้    ต่ำกว่านี้จะไม่นำไปวิเคราะห์
Minimum Confidence ค่าเชื่อมั่นต่ำสุดที่สนใจ

เช่น   ทำ  Market Basket Analysis วิเคราะห์พฤติกรรมสินค้าที่ลูกค้ามักซื้อไปด้วยกัน
A & B ->C[sup,conf]
สมมุติได้ค่ามา  sup = 20% ,conf = 90%
แสดงว่า   จำนวนลูกค้าที่ซื้อ A,B,C มี 20% ของลูกค้าทั้งหมด
 แล้วมีโอกาส 90 % ที่ลูกค้าซื้อสินค้า A และ B แล้วจะซื้อ C ไปด้วย


รูปแบบกฎความสัมพันธ์มีลักษณะดังนี้

        X -> Y  (support  , confident )

Support คือ ค่าสนับสนุนการเกิดขึ้นของกฎความสัมพันธ์ในฐานข้อมูล หาได้จาก
จำนวนลูกค้าที่ซื้อ X และ Y / จำนวนลูกค้าทั้งหมด 
แล้วคูณด้วย 100 แปลงเป็น %

Confident คื อค่าความเชื่อมั่นของกฎความสัมพันธ์ หาได้จาก
จำนวนลูกค้าที่ซื้อ X และ Y / จำนวนลูกค้าที่ซื้อ X 
แล้วคูณด้วย 100 แปลงเป็น %

X-->Y[20%,80%]   หมายถึง
-  จำนวนลูกค้าทั้งหมดที่ซื้อ X และ Y เป็นจำนวน 20% จากจำนวนลูกค้าทั้งหมด
-  มี  80% ของลูกค้าที่ซื้อ X แล้วจะซื้อ Y ไปด้วย


การหากฏความสัมพันธ์ด้วยวิธี  Apriori Alogorithm
ขั้นตอนที่ 1:  หา frequent itemset เป็นการหารูปแบบของข้อมูลที่เกิดขึ้นร่วมกันบ่อยๆ ในฐานข้อมูล

- สร้างรูปแบบของ itemset  (join) จะใช้รูปแบบของ itemset ที่มีค่ามากกว่า minimum support
มาทำการสร้างรูปแบบของ itemset ที่มีขนาดยาวเพิ่มขึ้นไปทีละหนึ่งขั้น

- การนับค่า support (count) หลังจากที่สร้างรูปแบบของ itemset ได้แล้ว
ขั้นถัดมาจะทำการคำนวณค่า support ที่เกิดขึ้น 
โดยที่ support คือจำนวนเปอร์เซ็นต์ที่พบ itemset ในฐานข้อมูล

ขั้นตอนที่ 2: สร้าง association rule
หลังจากที่หา frequent itemset ได้แล้ว จะนำรูปแบบที่หาได้มาสร้างเป็นกฏความสัมพันธ์

Frequency itemset คือ กลุ่มของ item set ที่มีค่า support มากกว่า minimum support


 ตัววัดประสิทธิภาพของกฏ
 lift คือ ค่าที่บ่งบอกว่าการเกิดรูปแบบ LHS และ RHS มีความสัมพันธ์กันแค่ไหน
โดยถ้าค่า lift เป็น 1 แสดงว่ารูปแบบ LHS และ RHS ไม่ขึ้นต่อกัน (independent)
ค่า lift คำนวณได้จาก
 
 

 confidence แสดงความเชื่อมั่นของกฏความสัมพันธ์ที่เมื่อรูปแบบ LHS เกิดขึ้นแล้วรูปแบบ RHS จะเกิดขึ้นด้วยเป็นจำนวนกี่เปอร์เซ็นต์
การคำนวณค่า confidence หาได้จาก

---------------------------------------------------------------------------------------------------

ตัวอย่าง : การคำนวนโดยใช้  Apriori Alogorithm

   


กำหนดค่า minimum support ไว้ที่ 50%


1. หาค่า Support ของแต่ละ Items  แล้วตัด Item ที่มีค่า Support ต่ำกว่าค่า Minimum ออกไป


2. นำ  item ที่ได้จากข้อ 1. มาสร้างเป็น itemset ทีมี Size ความยาว 2 (เพิ่มไปอีก 1 ชั้น)
แล้วตัด Itemset ที่มีค่า support ต่ำกว่า minimum ออกไป


3. ทำเหมือนข้อ 2 แต่เพิ่ม size ไปอีก 1 ชั้น เป็น 3
โดยมีเงื่อนไขว่าข้อมูล item แรกจะต้องมีค่าเหมือนกันจึงสามารถทำการ join กันได้
เช่น  {เบียร์, ขนมปัง, นมสด} เกิดจากการ join {เบียร์, ขนมปัง} และ {เบียร์, นมสด}

4. เนื่องจากไม่สามารถทำ Size ได้ยาวกว่านี้    ขั้นตอนการหา frequent itemset จึงหยุด
 ต่อไปคือทำการคำนวนหา  Confience และ lift




เนื้อหาต่อไป :  Classification

วันจันทร์ที่ 2 ตุลาคม พ.ศ. 2560

[บันทึกความรู้] Data Mining

จากหลักสูตรเรียนออนไลน์ RSU-MOOC: rsu001 ฉลาดด้วยข้อมูล ใครๆ ก็ทำได้ (คลังข้อมูลและการทำเหมืองข้อมูล)
เนื้อหาก่อนหน้านี้ :  Business Intelligence

Data Mining
นิยามเหมืองข้อมูล 
(1) การสกัดความรู้ที่น่าสนใจจากข้อมูลปริมาณมาก
ความรู้(Knowledge)
-ไม่ปรากฎให้เห็นเด่นชัด
-บ่งบอกเป็นนัย
-ไม่ทราบมาก่อน
-มีศักยภาพในการนำไปใช้ประโยชน์

 (2) กระบวนการในการหารูปแบบ (Hidden Pattern)
หรือหาความสัมพันธ์ (Hidden Relationship) ที่ซ่อนอยู่เพื่อนำมาใช้ในการตัดสินใจ
จากฐานข้อมูลขนาดใหญ่

(3)
- อัตโนมัติ
- ข้อมูลที่ไม่รู้จัก
- เพิ่มคุณค่า


การประยุกต์ใช้งาน Data Mining
 แบ่งได้เป็นสองกลุ่มใหญ่
1. การทำ Data Mining เพือการทำนาย
เป็นการนำความรู้ที่เกิดจากการเรียนรู้(Learning)ข้อมูลทีมีอยู่เพื่อทำนายข้อมูลใหม่ที่จะเกิดขึ้นในอนาคต

2. การทำ Data mining เพื่อการอธิบาย
เป็นการค้นหารูปแบบที่น่าสนใจของกลุ่มข้อมูล  มักเป็นความสัมพันธ์หรือลักษณะการเชื่อมโยงของข้อมูล

"เพื่อการอธิบาย" จะต่างจาก "เพื่อการทำนาย"   ตรงไม่ได้กำหนดล่วงหน้าว่าจะให้ Data Mining ค้นหารูปแบบอะไร
แต่ให้ค้นหาทุกรูปแบบที่น่าสนใจจากข้อมูล


โมเดลของ Data Mining
1. Association rule Discovery
เป็นการค้นหากฎความสัมพันธ์ของข้อมูล   โดยค้นหาความสัมพันธ์ของข้อมูลตั้งแต่สองชุดขึ้นไป
วัดด้วยค่าสนับสนุน (Support) เป็นเปอร์เซ็นต์ของการดําเนินการที่กฎที่ใช้มีความถูกต้อง
และค่าความมั่นใจ (Confidence) เป็นจํานวนของกรณีที่กฎถูกต้องโดยสัมพันธ์กับจํานวนของกรณีที่กฎสามารถนําไปใช้ได้

2. Classification & Prediction
เป็นการจัดแบ่งประเภทของข้อมูล โดยหาชุดต้นแบบหรือชุดของการทํางานที่อธิบายและแบ่งประเภทข้อมูลได้
 วัตถุประสงค์เพื่อให้สามารถใช้เป็นต้นแบบทํานายประเภทหรือข้อมูลที่ไม่มีการระบุประเภท
ชุดต้นแบบสร้างจากการวิเคราะห์  Training Data โดยอาจจะเป็นกลุ่มข้อมูลที่มีการระบุประเภทหรือกลุ่มเรียบร้อยแล้ว
รูปแบบของต้นแบบแสดงได้หลายแบบ  เช่น Classification Rules,
 Decision Trees หรือ  Neural Networks เป็นต้น

3. Database clustering หรือ Segmentation
 คือ การจัดกลุ่มข้อมูลซึ่งมีลักษณะคล้ายกับ Classification
ต่างกันตรงจะเป็นการวิเคราะห์โดยไม่พิจารณาตามประเภทที่มี
แต่จะใช้ขั้นตอนเปรียบเทียบ  หาวัตถุที่มีความเหมือนกัน แล้วจัดเข้ากลุ่มเดียวกัน

คลิปวิดีโอ Data Analysis  rsu.mooc


Data Mining มีจุดประสงค์ ทำนายอนาคต กับอธิบายปรากฎการณ์บางอย่าง
มี Pattren ที่สามารถ Perdict ทำนายได้
ยกตัวอย่าง
- Direct Marketing   
ทำการตลาดสื่อสารลูกค้าตรงๆ   Channel(ช่องทางสื่อสาร)ที่ดีที่สุดคือช่องทางที่ลูกค้าชอบ 
- Fraud Detection
ตรวจหาข้อมูลเท็จ  เช่น เคสบัตรเครดิตมีคนแอบเอาไปใช้  โดยมี pattern การใช้งานแตกต่างจากที่เจ้าของบัตรใช้งานประจำ

- Customer Attrition Churn
การคัดลูกค้า  เช่น หา pattern ลูกค้าคนที่กำลังจะเลิกใช้บริการของเรา

*** WEKA เป็น Open Source เครื่องมือในการทำเหมืองข้อมูล http://www.cs.waikato.ac.nz/ml/weka/

เนื้อหาต่อไป : Association Rule Discovery

วันอาทิตย์ที่ 1 ตุลาคม พ.ศ. 2560

[บันทึกความรู้] Business Intelligence

จากหลักสูตรเรียนออนไลน์ RSU-MOOC: rsu001 ฉลาดด้วยข้อมูล ใครๆ ก็ทำได้ (คลังข้อมูลและการทำเหมืองข้อมูล)
เนื้อหาก่อนหน้านี้ :  การประมวลผลเชิงวิเคราะห์แบบออนไลน์ (Online Analytical Processing: OLAP)

Business Intelligence(BI)   คือ Software ที่ใช้ในการรวบรวม จัดเก็บ วิเคราะห์และกำหนดการเข้าถึงข้อมูล
เพื่อช่วยในการตัดสินใจเชิงธุรกิจให้มีประสิทธิภาพ  โดยมีคุณลักษณะดังต่อไปนี้
- Decision Support System (DSS) ระบบสนับสนุนการตัดสินใจ
- Query  การสืบค้นข้อมูล
- Reporting การจัดทำรายงาน
- OLAP  (Online Analytical Processing)
-  การวิเคราะห์สถิติ
- การพยากรณ์
- Data Mining 

Business Dashboard คือ เครื่องมือที่ช่วยในการวิเคราะห์และจัดทำรายงาน  ทั้งในระดับผู้บริหารระดับสูงจนไปถึงเจ้าหน้าที่ระดับปฎิบัติงาน


Business Analytics(BA)
 "Right Information at the right time and in the right place"
Analytic คือ การวิเคราะห์เชิงวิทยาศาสตร์ (วิเคราะห์ข้อมูลและสารสนเทศ)
Business Analytic (BA) คือ หลักการกว้างๆ ของเทคนิคและการประยุกต์ใช้
เพื่อรวบรวม จัดเก็บ วิเคราะห์ และเข้าถึงข้อมูล เพื่อช่วยในการตัดสินใจในการวางกลยุทธ์และดำเนินงานธุรกิจให้มีประสิทธิภาพดีขึ้น

Business Performance Management (BPM) คือ  การวัด เฝ้า ดู และบริหารประสิทธิภาพของธุรกิจ

The BMP Process
1. ออกแบบ  BMP Program (What,When,How)
2.  กำหนดมาตรฐานตัววัด 
3. เตรียมระบบเฝ้าดูประสิทธิภาพ
4. เตรียมระบบเพื่อใช้วิเคราะห์ประสิทธิภาพ   แนวโน้ม การกรเพื่อมไหว และเหตุผลต่างๆ
เปรียบเทีบประสิทธิภาพจริงกับมาตรฐานที่กำหนดไว้
5. Take Action

เนื้อหาต่อไป : Data Mining