เรียนรู้เรื่อง Bayesian Statistics
เดี๋ยวนี้ เราได้ยินคำว่า Bayesian Statistics ที่น่าจะพูดไทยว่า สถิติแบบเบยส์ กันบ่อยขึ้น โดยเฉพาะในการคำนวณด้าน AI, และ machine learning (ML) ต่าง ๆ
ผมก็พยายามจะทำความคุ้นเคย ทั้งๆที่ไม่ค่อยถนัดหรือชอบด้านสถิติเท่าไหร่ แต่ไหนๆ ก็คงหนียาก ก็เลยพยายาม อ่านๆ เข้าใจๆ แล้วก็ เขียนๆ ไว้น่ะครับ
เนื้อเรื่องต่อไปนี้ เอามาจาก โจทย์ของ มหาวิทยาลัย Kumamoto
http://msec.kumamoto-u.ac.jp/problem/pdf/statistics/1_4/ans/ex_s1_4_1_ans.pdf
เนื้อหาคำถามมีว่า
มีเครื่องจักรตัวหนึ่ง หลังการใช้งาน หากทิ้งไว้ไม่ใช้งานในวันต่อไป โอกาสที่เครื่องจะเสียในแต่ละวันเป็น 10%
ถ้าใช้งานแล้วทิ้งไว้สามวัน
ถามว่า
1. ความน่าจะเป็นที่เครื่องจักรจะไม่เสีย (ใช้งานได้)หลังจากวางไว้สามวัน เป็นเท่าใด
2. ถ้าหลังผ่านไปสามวัน ปรากฏว่า เครื่องจักรเสีย ถามว่า ความน่าจะเป็นที่ เสียในวันที่สอง เป็นเท่าใด
แนวคิด
ข้อ 1. ข้อนี้ พื้น ๆ ไม่ยาก ครับ
โอกาสที่จะไม่เสียในวันที่ 1 = 9/10
โอกาสที่จะไม่เสียในวันที่ 2 = 9/10 x 9/10
โอกาสที่จะไม่เสียในวันที่ 3 = 9/10 x 9/10 x 9/10 = 729/1000 (คำตอบข้อ 1)
นั่นคือ โอกาสที่จะไม่เสียหลังสามวัน= 0.729 หรือ 72.9%
ข้อ 2. ข้อนี้ ลึกซึ้งและต้องใช้ Bayesian Stat ครับ
จากคำตอบข้อ 1 เราจะบอกได้ว่า โอกาสที่เครื่องจักรเสียในช่วงสามวัน
P(A) = 1 -(729/1000) = 271/1000 =.271
หรือ 27.1%
ตรงนี้ ถ้าเราไม่แข็งเรื่องความน่าจะเป็น อาจจะคิดคร่าว ๆ ว่า โอกาสเสีย วันละ 10% สามวันก็ 30% สิ ถ้าตอบอย่างงั้น ก็ต้องให้เรียนเพิ่มกันนิดครับ 555
ต่อไป คิดโอกาส ที่จะเสียในวันที่สอง
P(B2) = 9/10 x 1/10 = 0.09
โอกาสที่ เครื่องจะเสียหลังสามวัน หากเครื่องเสียในวันที่สอง P(A|B2) = 1
และจาก ทฤษฎีของ Baysian เราจะบอกได้ว่า
โอกาสที่ จะเสียหลังสามวันและเสียในวันที่สอง P(B2|A)
จะคำนวณได้จาก
P(B2|A)P(A) = P(A|B2)P(B2)
นั่นคือ
P(B2|A) = 1 x 0.09 / .271 = 90/271 = 0.332
จะเห็นว่า ไม่ใช่ 1/3 อย่างที่เราอาจจะอยากเดา (… ลองคิดดูนะครับ)
ในทำนองเดียวกัน เราจะบอกได้ว่า
โอกาสที่เครื่องเสียหลังสามวันโดยเสียในวันแรก P(B1) = 1/10 = 0.1
P(B1|A)= 1 x .1 / .271 = 100/271 = 0.369
โอกาสที่เครื่องเสียหลังสามวันโดยเสียในวันที่สาม P(B3) = 9/10 x 9/10 x 1/10 = .081
P(B3|A)= 1 x .081 / .271 = 81/271 = 0.299…
เพื่อให้เห็นภาพ สรุป มองภาพใหญ่กันอีกรอบนะครับ
นั่นคือ โอกาสที่เครื่องจะเสียหลังจากวางไว้สามวัน คือ 0.271
และในกรณีนั้น โอกาสที่จะเสียในวันแรก วันที่สองและวันที่สาม คือ .369, .332, .299 ตามลำดับ (และสามค่านี้รวมกัน แน่นอน เท่ากับ 1.0) นั่นคือ โอกาสที่จะเสียในวันแรก ๆ มากกว่าวันหลัง ๆ
คนที่อ่านมาถึงตรงนี้แล้วแจ่มแจ้ง นี่ต้องนับถือเลยครับ ส่วนคนที่อ่านแล้วยังมึน ๆ อะไร ทำไม อะไร ทำไม ขอใช้เวลาคิดคำนึงต่อกันครับ หากแจ่มแจ้ง อธิบายได้แจ่มแจ้ง ช่วยสอนคนอื่น ต่อๆ ไปกันนะครับ
สรุปว่า นี่แหละ คือ แง่มุมสำคัญ และ ประโยชน์ของ สถิติแบบ Bayesian ที่กำลังโด่งดัง ใช้กันมากมายครับ
การทำความเข้าใจ สัญลักษณ์ P(B|A)
ให้เราตีความว่า เมื่อ(ผล) A เกิดขึ้น ความน่าจะเป็นของ(เหตุ) B เป็นเท่าใด จะทำให้เข้าใจแนวคิดของ Bayesian Stat ได้ง่ายขึ้นครับ
この記事が気に入ったらサポートをしてみませんか?