วิทยาศาสตร์ข้อมูลในฟุตบอลโลกปี 2022

Nov 30 2022
ข้อมูลยกระดับสนามแข่งขันอย่างไร
FIFA World Cup 2022 กำลังดำเนินไปด้วยดี! โดยทั่วไปแล้ว สิ่งหนึ่งที่ฉันชอบเกี่ยวกับกีฬาก็คือในหลายๆ ด้าน แต่ละเกม ฤดูกาล และทัวร์นาเมนต์สามารถมองได้ว่าเป็นโลกเล็กๆ ของโลกธุรกิจ จากมุมมองของ Data Science มีการปฏิวัติข้อมูลขนาดใหญ่ในวงการฟุตบอล

FIFA World Cup 2022 กำลังดำเนินไปด้วยดี! โดยทั่วไปแล้ว สิ่งหนึ่งที่ฉันชอบเกี่ยวกับกีฬาก็คือในหลายๆ ด้าน แต่ละเกม ฤดูกาล และทัวร์นาเมนต์สามารถมองได้ว่าเป็นโลกเล็กๆ ของโลกธุรกิจ

ภาพถ่ายโดย Rhett Lewis บน Unsplash

จากมุมมองของ Data Science มีการปฏิวัติข้อมูลขนาดใหญ่ในวงการฟุตบอล ทีมฟุตบอลที่ใหญ่ที่สุดกำลังสร้างหรือรวมแผนกวิทยาศาสตร์ข้อมูลเข้าด้วยกัน การออกอากาศกำลังเริ่มแนะนำสถิติที่มีความหมายซึ่งอย่างน้อยก็มีเนื้อหาบางอย่าง เว็บไซต์ Analytics ปรากฏขึ้นทุกที่พร้อมข้อมูลที่น่าสนใจมากมายที่จะทำให้คุณเข้าใจ [1]

เป็นการปฏิวัติข้อมูลที่เกิดขึ้นก่อนหน้านี้มากในกีฬาประเภทอื่น โดยเฉพาะอย่างยิ่งในกีฬาเบสบอลที่ Data Scientists หลายคนอ้างถึง Moneyballของ Michael Lewis และ Nate Silver ( The Signal and The Noise , FiveThirtyEight , PECOTA) ว่าเป็นแรงบันดาลใจสำหรับสิ่งที่ Data Science สามารถทำได้ทั้งในด้านกีฬาและธุรกิจ

แต่สิ่งที่ทำให้สถิติประสบความสำเร็จอย่างมากในกีฬาเบสบอลไม่ได้แปลเป็นฟุตบอลอย่างง่ายดาย เบสบอลประกอบด้วยกิจกรรมที่ไม่ต่อเนื่อง ฟุตบอลมีความลื่นไหลในตัว เป็นการยากที่จะแบ่งการแข่งขันฟุตบอลออกเป็นเหตุการณ์ที่ไม่ต่อเนื่อง แม้ว่าจะมีความคืบหน้าไปมากแล้วก็ตาม จากมุมมองทางสถิติ ฟุตบอลมีสิ่งที่เป็นนามธรรมมากกว่าเมื่อเทียบกับเบสบอล

ความลื่นไหลและความเป็นนามธรรมเป็นส่วนสำคัญที่ทำให้การปฏิวัติข้อมูลในวงการฟุตบอลช้าลง แต่มันยังสะท้อนถึง Data Science ในธุรกิจได้ดียิ่งขึ้นอีกด้วย ในทางธุรกิจ สิ่งที่ Data Scientists พยายามทำส่วนใหญ่มักถูกสรุปเป็นการเปลี่ยนแนวคิดที่เหลวไหล เป็นนามธรรม และไม่ได้กำหนดชัดเจน ให้เป็นแบบจำลองและตัวเลขที่เป็นรูปธรรมที่สามารถเข้าใจได้ง่ายขึ้น

นั่นไม่ใช่การทุบตีเบสบอล ความสำเร็จของ Data Science ในกีฬาเบสบอลเป็นขั้นตอนที่จำเป็นสำหรับการสร้าง Data Science ในฟุตบอล และแม้แต่ในชุมชนธุรกิจ อันที่จริงแล้วThe Signal และ The Noiseตรงกับฉันในความท้าทายมากมายที่ฉันเคยเผชิญในวิทยาการข้อมูล ความสำเร็จของ Nate Silver ในวงการเบสบอลและการเมืองทำให้ฉันรู้สึกว่าโซลูชัน Data Science มีบทบาทที่ทรงพลังในโลกปัจจุบัน

ดังนั้น ในขณะที่ Data Science ยังคงสร้างโมเมนตัมในวงการฟุตบอล มีแนวโน้มที่น่าสนใจบางอย่างที่เกิดขึ้นในฟุตบอลโลกที่พูดถึง Data Science ในภาพรวม หนึ่งในนั้นคือการเพิ่มขึ้นของอารมณ์เสียครั้งใหญ่ ใน 32 เกมแรกของฟุตบอลโลกปี 2022 มี 11 เกมที่อาจสร้างอารมณ์เสียอย่างมาก และ 2 เกมที่ทำได้จริง ในขณะที่ฟุตบอลโลก 2018 สร้างอารมณ์เสีย 0 เกมในขั้นตอนเดียวกัน

อารมณ์เสียในที่นี้หมายถึงทีมอันดับ 15 ของฟีฟ่าหรือดีกว่าที่แพ้ให้กับทีมอันดับแย่กว่าพวกเขาอย่างน้อย 20 อันดับ เช่น อาร์เจนตินา (อันดับ 3) แพ้ซาอุดีอาระเบีย (อันดับ 51) ขึ้นอยู่กับคำจำกัดความ คุณสามารถนับ 2 – 3 เสียในปี 2022 และ 0–2 คว่ำในปี 2018 แอธเลติกนับ 3 [3] Potential Upset คือการแข่งขันใดๆ ที่เป็นไปตามข้อกำหนดอันดับ FIFA โดยไม่คำนึงถึงผลการแข่งขัน

เมื่อข้อมูลเข้าสู่ช่องใหม่ เรามักจะเห็นคู่แข่งที่เหนียวแน่นยึดมั่นในพฤติกรรมดั้งเดิมของตนและทนทุกข์กับมัน นั่นเป็นเพราะประเพณีเหล่านั้นมักมาจากคู่แข่งที่ยึดมั่นกลุ่มเดียวกัน ประเพณีเหล่านั้นคือสิ่งที่ทำให้ทีมงานเหล่านั้น ธุรกิจเหล่านั้นประสบความสำเร็จในอดีต และประเพณีเหล่านั้น แม้ว่ามักจะทำตามอย่างสุ่มสี่สุ่มห้า แต่โดยทั่วไปแล้วเป็นศูนย์รวมของความรู้ในสถาบัน เป็นพฤติกรรมที่มีการพัฒนาอย่างช้าๆ และพัฒนาอย่างต่อเนื่องเพื่อหาทางออกที่เหมาะสมที่สุด วิวัฒนาการที่ช้านั้นช่วยปกป้องคู่แข่งที่ยึดมั่นจากความผิดพลาดที่เป็นอันตราย แต่ยังขัดขวางความสามารถในการสร้างสรรค์สิ่งใหม่ๆ ได้เร็วพอๆ กับผู้ที่ตกอับ

พลังของ Data Science คือการนำเสนอวิธีที่รวดเร็วกว่าในการแก้ปัญหาที่เหมาะสมที่สุด ช่วยให้ผู้ที่ตกอับสามารถเรียนรู้สิ่งต่างๆ ได้อย่างรวดเร็ว ซึ่งคู่แข่งที่ยึดมั่นใช้เวลาหลายสิบปีในการหาคำตอบ โดยพื้นฐานแล้ว Data Science ทำได้ดี ช่วยให้เราสามารถวัดปริมาณสถานการณ์และดึงรูปแบบที่มีความหมายออกมาได้อย่างรวดเร็วโดยไม่ต้องสัมผัสกับแต่ละสถานการณ์ด้วยตัวเอง ด้วย Data Science เราสามารถเรียนรู้ได้เร็วกว่าที่เคยเป็นมา เราสามารถปรับระดับสนามแข่งขันสำหรับทีมรองบ่อนได้

ดังนั้นสำหรับคู่แข่งที่ยึดมั่น จึงเป็นสถานการณ์ที่ยากลำบากเมื่อข้อมูลไม่สอดคล้องกับประเพณีที่มีอยู่ นวัตกรรมและการเรียนรู้อาศัยอยู่ในความไม่ลงรอยกันเหล่านั้น แต่คำแนะนำและข้อผิดพลาดที่ไม่ดีก็เช่นกัน นอกจากนี้ อาจเป็นเรื่องน่าอายสำหรับคู่แข่งที่ยึดมั่นในการดำเนินการตามคำแนะนำที่เป็นนวัตกรรม เนื่องจากเป็นการยอมรับว่าความรู้บางอย่างของสถาบันไม่ถูกต้อง

คู่แข่งที่เหนียวแน่นน้อยกว่าจะเปิดรับโซลูชันที่เป็นนวัตกรรมใหม่ที่แนะนำโดย Data Science เนื่องจากพวกเขาไม่ยึดติดกับประเพณีมาตรฐาน กล่าวอีกนัยหนึ่ง ข้อมูลไม่ขัดแย้งกับความรู้ของสถาบัน ดังนั้นจึงไม่มีการยอมรับข้อผิดพลาดโดยนัย

อย่างไรก็ตาม ในฐานะนักวิทยาศาสตร์ข้อมูล เราไม่สามารถลดประเพณีของธุรกิจได้ เราจำเป็นต้องเคารพความรู้ของสถาบันที่อยู่เบื้องหลังพฤติกรรมทั่วไปของพวกเขา เราจำเป็นต้องใช้แนวทางแบบเบย์เพื่อทำความเข้าใจลูกค้าของเรา เมื่อเราค้นพบโอกาสสำหรับการดำเนินการเชิงสร้างสรรค์โดยธุรกิจ เราต้องเข้าใจว่าเราอาจเปลี่ยนความรู้สถาบันจำนวนมหาศาล เราต้องถามตัวเองว่า

  1. ประเพณีนั้นมาจากไหน และธุรกิจมีหลักฐานมากน้อยเพียงใดว่าเป็นความคิดที่ดีจริง ๆ
  2. เรามั่นใจได้แค่ไหนว่าข้อเสนอแนะเชิงนวัตกรรมนั้นถูกต้อง?
  3. โมเดลของเราแข็งหรือไม่? ข้อมูลที่อยู่เบื้องหลังนั้นสะอาดและชัดเจนหรือไม่?
  4. เราแน่ใจหรือไม่ว่าเราถามคำถามที่ถูกต้องในการเริ่มต้น?
ภาพถ่ายโดย Austin Distel บน Unsplash

กล่าวคือ 80% ของคำแนะนำหรือข้อมูลเชิงลึกอาจปรับเปลี่ยนพฤติกรรมที่มีอยู่เล็กน้อย แต่จะไม่เปลี่ยนแปลงครั้งใหญ่ ดังนั้นจึงไม่มีผลกระทบอย่างมากต่อประสิทธิภาพทางธุรกิจ การตรวจสอบความถูกต้อง 80% ช่วยให้ผู้นำธุรกิจดำเนินการด้วยความมั่นใจ และสร้างความมั่นใจว่าเรามีข้อมูลที่ดี มีรูปแบบที่มั่นคง และเราได้ถามคำถามที่ถูกต้อง นวัตกรรม 20% เป็นที่ที่เรารู้สึกตื่นเต้นมากที่มีโอกาสที่จะสร้างผลกระทบอย่างมากต่อประสิทธิภาพทางธุรกิจ

หากเราต่ำกว่าเกณฑ์การตรวจสอบ 80% แสดงว่ามีข้อกังวล นั่นหมายความว่าเรากำลังจะบอกธุรกิจว่าสิ่งที่พวกเขา 'เรียนรู้' จำนวนมากนั้นผิด เป็นไปได้อย่างแน่นอน แต่เราต้องระวังให้มาก เราต้องเป็นเบย์เซียนเกี่ยวกับเรื่องนี้และสร้างความมั่นใจของเรา จากจุดที่ธุรกิจเป็นอยู่จนถึงสิ่งที่เรากำลังแนะนำ เราไม่สามารถเพียงแค่ปิดชุดพฤติกรรมขนาดใหญ่และเปิดชุดสะสมใหม่ทั้งหมดโดยปราศจากความเข้าใจอย่างลึกซึ้งว่าเราไปถึงที่นั่นได้อย่างไร ในความเป็นจริง หากเราต่ำกว่าเกณฑ์ 80% เราก็ควรพิจารณาแบบจำลองโดยรวม มีปัญหาพื้นฐานที่อาจทำให้เราหลงทางหรือไม่

แม้ว่าเราจะผ่านเกณฑ์การตรวจสอบความถูกต้อง 80% ของเราแล้ว แต่นวัตกรรม 20% ของเราควรได้รับการพิจารณาจากมุมมองของเบส์ ข้อเท็จจริงที่ว่าโมเดลของเราผ่านการตรวจสอบความถูกต้อง 80% ทำให้เรามั่นใจได้บ้างว่าสิ่งต่างๆ ทำงานได้ดี แต่เรายังจำเป็นต้องตระหนักว่านวัตกรรม 20% นั้นอาจไม่ถูกต้อง เนื่องจากเรากล่าวว่ามันขัดแย้งกับความแข็งแกร่งของความรู้สถาบันที่มีอยู่ มีหลายวิธีที่เราสามารถสร้างความมั่นใจนั้น เราสามารถทดลอง (เช่น ลงมืออย่างรวดเร็วและทำลายสิ่งต่างๆ) ในที่ที่มีเดิมพันต่ำหรือธุรกิจมีความเสี่ยงที่จะทำเช่นนั้น หรือผ่านการวิเคราะห์เพิ่มเติมเมื่อจำเป็น

ย้อนกลับไปที่ตัวอย่างเวลาเปลี่ยนตัวของเรา ปรากฎว่าแบบจำลองแนะนำเวลาที่เหมาะสมที่สุดสำหรับทีมที่ตามหลังเพื่อทำการเปลี่ยนตัวครั้งแรกคือในนาทีที่ 58 [2] นั่นใกล้เคียงกับประเพณีที่มีอยู่มากพอที่จะเข้าสู่ 80% 'การตรวจสอบความถูกต้อง' ของเรา ดังนั้น ในแง่หนึ่ง ยังไม่มีนวัตกรรมใหญ่ๆ เกิดขึ้น แต่สิ่งที่น่าสนใจก็คือ ข้อมูลกำลังแสดงความรู้ของสถาบันว่าถูกต้องมากหรือน้อยในหัวข้อนั้น สิ่งที่เราอาจคาดหวังในสถานการณ์นี้ พิจารณาว่าการตัดสินใจมีความสำคัญเพียงใดสำหรับการแข่งขัน

ภาพถ่ายโดย Ben Sutherland, https://www.flickr.com/photos/bensutherland/14833714489, CC BY 2.0 License

และในขณะที่การตรวจสอบเป็นสิ่งที่ดี ธุรกิจจำเป็นต้องคาดหวังการหยุดชะงักจากทีมวิทยาศาสตร์ข้อมูล นวัตกรรม 20% จะมีค่าก็ต่อเมื่อธุรกิจเต็มใจที่จะดำเนินการเปลี่ยนแปลงและย้ายไปในทิศทางใหม่ หากไม่เป็นเช่นนั้น คู่แข่งที่เหนียวแน่นน้อยกว่าที่เต็มใจใช้ประโยชน์จากข้อมูลเชิงลึกใหม่ๆ เหล่านั้นจะเอาชนะพวกเขาได้ ในฟุตบอลโลก เราจะยังคงเห็นความปั่นป่วนมากขึ้นเรื่อย ๆ เมื่อทีมรองบ่อนเอาชนะกลยุทธ์ของชนชั้นสูงที่มีอยู่

ในฐานะนักวิทยาศาสตร์ด้านข้อมูล เราควรตื่นเต้นกับตำแหน่งที่ไม่เหมือนใครของเราในการขับเคลื่อนกีฬาและธุรกิจในทิศทางใหม่และเป็นนวัตกรรม แต่ขอให้เราจำไว้ว่านวัตกรรมหมายถึงการล้มล้างประเพณี และประเพณีส่วนใหญ่มาจากความรู้และประสบการณ์ที่สั่งสมมา

เมื่อเราแนะนำนวัตกรรม เรากำลังส่งสัญญาณว่ามีบางอย่างผิดปกติกับฐานความรู้ขององค์กรของเรา ไม่ได้หมายความว่าเราผิด แต่หมายความว่าเราต้องระวัง เราต้องเข้าใจว่าประเพณีเหล่านั้นที่เรากำลังครอบงำไม่ได้เกิดขึ้นจากความว่างเปล่า เราจำเป็นต้องชั่งน้ำหนักความแข็งแกร่งของหลักฐานที่สนับสนุนพวกเขาเทียบกับความแข็งแกร่งของคำแนะนำใหม่ของเรา เราต้องเป็น Bayesian ไม่เพียงแต่ในโมเดลของเราเท่านั้น แต่ยังรวมถึงวิธีที่เรานำคำแนะนำของเราไปใช้ด้วย

ได้รับการติดต่อ

อย่าลังเลที่จะติดต่อฉันบนLinkedInสำหรับมุมมองเพิ่มเติมเกี่ยวกับสาขาวิทยาศาสตร์ข้อมูล

อ้างอิง

[1] ลิตเติลตัน, เบน. ข้อมูลและการตัดสินใจ ในฟุตบอล

[2] ไมเออร์, เบรต. (2555). กฎการตัดสินใจที่เสนอสำหรับช่วงเวลาของการเปลี่ยนตัวฟุตบอล วารสารการวิเคราะห์เชิงปริมาณในกีฬา. 8. 11–11. 10.1515/1559–0410.1349.

[3] ค็อกซ์, ไมเคิล. ช็อกฟุตบอลโลก: เซอร์ไพรส์ในรอบแบ่งกลุ่มทำให้ทัวร์นาเมนต์สนุกสนานน้อยลงหรือไม่?