การแจกแจงปัวซอง และการสร้างโมเดลประตูในฟุตบอล
หากคุณเคยดูรายการพรีวิวแมตช์ที่ผู้ดำเนินรายการบอก "แมตช์นี้มีเส้น Expected Goals 2.3 ซึ่งบ่งชี้โอกาส 61% ที่จะ Over 2.5" คุณกำลังดูเลขคณิตปัวซองในการทำงาน หากเคยเห็นค่าความน่าจะเป็นสามค่า (เจ้าบ้านชนะ 58%, เสมอ 25%, ทีมเยือนชนะ 17%) ที่ดูเหมือนมาจากไหนไม่รู้ การคำนวณที่สร้างมันแทบจะเป็นการจำลองปัวซอง
ปัวซองคือเครื่องยนต์ทางสถิติใต้โมเดลประตูฟุตบอลส่วนใหญ่ มันอยู่ที่นั่นมา 50 ปี ผลิตค่าความน่าจะเป็นเงียบ ๆ ที่ภายหลังถูกอธิบายด้วยคำศัพท์ที่ทันสมัยกว่า การเข้าใจวิธีทำงานของมันช่วยถอดความลึกลับของสิ่งที่ "การวิเคราะห์ฟุตบอลด้วย AI" กำลังทำอยู่จริง ๆ ใต้ฝา
บทความนี้พาคุณเดินผ่านปัวซองในภาษาเข้าใจง่าย แสดงวิธีนำไปใช้กับฟุตบอลโดยเฉพาะ จุดที่ใช้ได้ จุดที่ใช้ไม่ได้ และการปรับปรุงสมัยใหม่ที่เพิ่มขึ้นบนนั้น
ปัวซองคืออะไรจริง ๆ
การแจกแจงปัวซองอธิบายความน่าจะเป็นของจำนวนเหตุการณ์ที่เกิดในหน้าต่างเวลาคงที่ เมื่อรู้ค่าอัตราเฉลี่ย
ทางการ: หากเหตุการณ์เกิดขึ้นที่อัตราเฉลี่ยคงที่ λ (แลมบ์ดา) ต่อหน่วยเวลา และเกิดอย่างอิสระจากกัน ความน่าจะเป็นของเหตุการณ์ k เหตุการณ์เกิดในหน้าต่างนั้นคือ:
P(k) = (λ^k × e^(-λ)) / k!
คุณไม่จำเป็นต้องรักคณิตศาสตร์ ความหมายที่ใช้ได้จริง:
- λ = 1 หมายความว่าเหตุการณ์เฉลี่ยหนึ่งครั้งต่อหน้าต่าง P(0) ≈ 37%, P(1) ≈ 37%, P(2) ≈ 18%, P(3) ≈ 6%, P(4+) ≈ 2%
- λ = 2 หมายความสองครั้งต่อหน้าต่าง P(0) ≈ 14%, P(1) ≈ 27%, P(2) ≈ 27%, P(3) ≈ 18%, P(4) ≈ 9%, P(5+) ≈ 5%
- λ = 3 หมายความสามครั้งต่อหน้าต่าง P(0) ≈ 5%, P(1) ≈ 15%, P(2) ≈ 22%, P(3) ≈ 22%, P(4) ≈ 17%, P(5+) ≈ 19%
การแจกแจงจับว่าค่าเฉลี่ยคือสิ่งหนึ่ง แต่ผลลัพธ์เฉพาะกระจุกตัวรอบค่าเฉลี่ยด้วยความน่าจะเป็นที่รู้ เมื่อ λ = 2 คุณคาดหวัง 2 แต่ 0 และ 3 และ 4 ทั้งหมดเกิดขึ้นในเปอร์เซ็นต์ที่มีความหมาย
ทำไมปัวซองเข้ากับการทำประตูฟุตบอล
สามเหตุผลที่สมมติฐานเป็นจริงคร่าว ๆ สำหรับฟุตบอล
ประตูหายาก แมตช์ส่วนใหญ่เห็น 0-5 ประตู ปัวซองจัดการช่วง 0-5 ได้สะอาด มันพังที่จำนวนสูงมาก แต่ฟุตบอลแทบไม่ทดสอบเรื่องนั้น
ประตูเกิดในเวลาที่อิสระคร่าว ๆ เมื่อคุณตัดผลของสถานะเกมออก ประตูภายในแมตช์เกิดที่อัตราคงที่คร่าว ๆ ประตูในนาทีที่ 10 ไม่เปลี่ยนความน่าจะเป็นของประตูในนาทีที่ 40 อย่างที่คุณอาจคิด
อัตราหาได้จากคุณภาพทีม หากอัตราการทำประตูเฉลี่ยของทีม A คือ 1.5 ประตู/แมตช์ และอัตราการป้องกันของทีม B เสียประตู 1.2/แมตช์ ค่าประตูคาดหวังของทีม A ในแมตช์นี้คือการผสมแบบถ่วงน้ำหนัก (1.5 × 1.2 / ค่าเฉลี่ยลีก โดยปรับขนาดข้อได้เปรียบเจ้าบ้าน) ปัวซองรับ λ นั้นและสร้างการแจกแจงเต็ม
ผสมสิ่งเหล่านี้แล้วคุณได้โมเดลที่ใช้งานได้: สำหรับแต่ละแมตช์ ได้อัตราที่คาดหวังของทั้งสองฝั่ง ใช้ปัวซองกับแต่ละเพื่อสร้างการแจกแจงจำนวนประตู ผสมเหล่านั้นเป็นเมทริกซ์ผลลัพธ์ (เจ้าบ้านชนะ / เสมอ / ทีมเยือนชนะ / Over 2.5 / BTTS / ฯลฯ)
ปัวซองสร้างค่าความน่าจะเป็นสามค่าอย่างไร
สำหรับแมตช์ระหว่างทีม A (xG = 1.8) และทีม B (xG = 1.2) การจำลอง:
- ใช้ปัวซองด้วย λ=1.8 สำหรับทีม A คำนวณ P(ทีม A ทำได้ 0), P(1), P(2), P(3), P(4), P(5+)
- ใช้ปัวซองด้วย λ=1.2 สำหรับทีม B คำนวณเช่นเดียวกัน
- สมมติความเป็นอิสระ คูณ: P(ทีม A ทำได้ N และทีม B ทำได้ M) = P(A=N) × P(B=M)
- รวมข้าม N > M สำหรับเจ้าบ้านชนะ, N = M สำหรับเสมอ, N < M สำหรับทีมเยือนชนะ
- ปรับให้เป็นมาตรฐานหากจำเป็น
ผลลัพธ์: ค่าความน่าจะเป็นสามค่าสำหรับแมตช์ มาจากตัวเลขประตูคาดหวังสองค่าทั้งหมด เหมาะสมสำหรับแมตช์ส่วนใหญ่
จุดที่ปัวซองพังลง
สี่โหมดล้มเหลวจริงที่การสร้างโมเดลสมัยใหม่พยายามแก้ไข
การพึ่งพาสถานะเกม ทีมที่ไล่ตามขาดทุน 0-1 ใน 20 นาทีสุดท้ายเล่นต่างกัน อัตราการทำประตูของพวกเขาเพิ่มสูงกว่าค่าคาดหวังก่อนแมตช์ ปัวซองที่อิสระและมีอัตราคงที่ทำนายความถี่การกลับมาน้อยเกินไป
การพองตัวของผลเสมอ ในแมตช์ที่ทำประตูน้อย (λ ต่ำกว่า 1.5 ต่อฝั่ง) ปัวซองทำนาย 1-1 และ 0-0 มากเกินไปพร้อมกัน Dixon และ Coles เสนอการแก้ไขในปี 1997 ที่ปรับเซลล์คะแนนต่ำของเมทริกซ์ผลลัพธ์
สหสัมพันธ์ระหว่างทีม ประตูของทีมหนึ่งไม่อิสระจากของอีกทีมโดยสมบูรณ์ ฝั่งที่เสียประตูเร็วมักลดคุณภาพลงเมื่อแมตช์ดำเนินต่อ โมเดลปัวซองสองตัวแปรเพิ่มพารามิเตอร์สหสัมพันธ์เล็ก
สกอร์สุดขั้ว หางขวาของการแจกแจงปัวซอง (5-0, 6-0, 7-0) บางในปัวซองดิบแต่สังเกตได้บ่อยกว่าในทางปฏิบัติในแมตช์ที่ไม่สมดุล โมเดลสมัยใหม่ใช้การแก้ไขหางหรือใช้การแจกแจง negative binomial
กฎที่ใช้ได้: ปัวซองดิบเป็นพื้นฐานที่มีประโยชน์ แต่โมเดลในการผลิตเพิ่มการปรับปรุงเสมอ การปรับปรุงไม่เปลี่ยนการตีความ (ค่าความน่าจะเป็นสามค่า, Over/Under, BTTS) แต่ทำให้ตัวเลขแน่นเทียบกับความเป็นจริง
ปัวซองเหนือกว่าค่าความน่าจะเป็นผลลัพธ์
คณิตศาสตร์ปัวซองทำให้เมตริกปลายทางหลายตัวเป็นไปได้:
คะแนนคาดหวัง (xPts) สำหรับแต่ละแมตช์ จำลองการแจกแจงผลลัพธ์ผ่านปัวซอง คำนวณคะแนนคาดหวังสำหรับแต่ละฝั่ง รวมข้ามฤดูกาล คุณได้ xPts
ประตูคาดหวังที่ทำได้/เสีย ในหน้าต่าง ประวัติ xG ของทีมรวมกับปัวซองสร้างการแจกแจงความน่าจะเป็นของยอดประตูฤดูกาล
Over/Under และ BTTS ความน่าจะเป็น ทั้งหมดได้จากเมทริกซ์ผลลัพธ์ที่การจำลองปัวซองสร้าง
ในผล เมื่อคุณมี xG ต่อทีม (หรืออัตราการทำประตูที่คาดหวัง) ปัวซองให้พื้นผิวความน่าจะเป็นทั้งหมดของแมตช์ ไม่ใช่แค่สามค่าชนะ/เสมอ/แพ้
Tactiq จัดการการสร้างโมเดลประตูแบบปัวซองอย่างไร
Tactiq เป็นการวิเคราะห์ทางสถิติอิสระ ไม่เกี่ยวข้องกับตลาดภายนอก การวิเคราะห์ใช้การประมาณความน่าจะเป็นแบบจำลองเป็นส่วนหนึ่งของไปป์ไลน์เพื่อสร้างค่าความน่าจะเป็นสามค่าบนการ์ดแมตช์ วิธีเฉพาะ การปรับปรุงที่ใช้เหนือปัวซองพื้นฐาน และวิธีที่การจำลองจัดการปฏิสัมพันธ์ระหว่างสถานะเกมและคุณภาพฝ่ายตรงข้ามยังคงอยู่ในผลิตภัณฑ์
สำหรับผู้ใช้ ผลคือสามค่าความน่าจะเป็นบนการ์ดแมตช์สะท้อนการแจกแจงผลลัพธ์ที่จำลองมาซึ่งยึดค่าประมาณประตูคาดหวังและสัญญาณความแข็งแกร่งของทีม ไม่ใช่ฮิวริสติกที่เข้ารหัสด้วยมือ ตัวบ่งชี้ความมั่นใจสะท้อนว่าการแจกแจงไวต่อการเปลี่ยนแปลงเล็กในสัญญาณอินพุตสำหรับแมตช์เฉพาะนั้นแค่ไหน
สิ่งที่ผู้ใช้เห็นบนการ์ดแมตช์:
- ค่าความน่าจะเป็นสามค่าสำหรับผลลัพธ์ ผลิตผ่านการจำลอง
- ค่าประตูคาดหวังสำหรับแต่ละฝั่งพร้อมแนวโน้มล่าสุด
- การวิเคราะห์ที่เขียนซึ่งเรียกผลลัพธ์ในภาษาเรียบ ๆ: "ฝั่งเจ้าบ้านเข้ามาด้วยข้อได้เปรียบเล็กน้อยในประตูคาดหวัง ซึ่งแปลเป็นการแบ่งความน่าจะเป็นราว 52-25-23"
- ไม่มีข้อมูลตลาดภายนอกที่ใดเลย ไม่มีการเปลี่ยนเส้นทางไปยังแพลตฟอร์มของบุคคลที่สาม ไม่มีสกุลเงินเสมือน การวิเคราะห์ทางสถิติเท่านั้น
บทสรุป
ปัวซองคือม้าศึกทางสถิติใต้การสร้างโมเดลประตูฟุตบอลส่วนใหญ่ มันง่ายพอที่จะคำนวณรวดเร็ว ดีพอที่จะเข้ากับแมตช์ส่วนใหญ่ และเป็นรากฐานที่การปรับปรุงที่ซับซ้อนกว่า (Dixon-Coles, สองตัวแปร, negative binomial) สร้างขึ้น
การเข้าใจปัวซองถอดความลึกลับของค่าความน่าจะเป็นสามค่าที่คุณเห็นบนทุกแดชบอร์ดวิเคราะห์ พวกมันไม่ใช่เวทมนตร์ พวกมันคือการจำลองจากอินพุต xG สิ่งที่แยกโมเดลที่ดีออกจากโมเดลที่แย่คือการปรับปรุงที่แก้จุดอ่อนที่รู้จักของปัวซอง
Tactiq ใช้การประมาณความน่าจะเป็นแบบจำลองพร้อมการปรับปรุงเพื่อจัดการความซับซ้อนของแมตช์จริง การวิเคราะห์แสดงค่าความน่าจะเป็นสามค่าที่คาลิเบรตได้ดีบนทุกการ์ดแมตช์ การแข่งขันกว่า 1,200 รายการ การแปล 32 ภาษา ระดับฟรี 8 การวิเคราะห์ต่อวัน ไม่ต้องใช้บัตรเครดิต
หากคุณติดตามชุดบทความ คำศัพท์เมตริกตอนนี้ครอบคลุม AI วิเคราะห์การแข่งขันฟุตบอลอย่างไร, xG, xA, npxG, PPDA, Field Tilt, การกระทำที่ก้าวหน้า, SCA/GCA, xPts, Elo ratings และ Brier score และการคาลิเบรต ปัวซองคือเครื่องยนต์ความน่าจะเป็นที่ผูกเมตริกก่อนหน้าส่วนใหญ่เข้าด้วยกัน