FIFA WM-Spielvorhersage – Teamähnlichkeitsmethode
Es gibt mehrere Probleme beim Versuch, das Ergebnis eines Spiels zwischen zwei Mannschaften vorherzusagen, wenn diese Mannschaften noch nie gegeneinander gespielt haben (oder zumindest die aktuellen Spieler nicht).
Nationalmannschaften sind sehr dynamisch und es gibt eine starke Rotation, was eine weitere Herausforderung ist, mit der wir uns hier auseinandersetzen müssen. Sie neigen auch dazu, eine sehr kleine Anzahl von Spielen zu spielen, was zu einer größeren Unsicherheit führt.
In diesem Artikel werde ich darauf eingehen, wie man Prognosen erstellt, ohne dass diese Teams gegeneinander spielen. Der Ansatz, den ich verfolgen werde, besteht darin, eine Gruppe von Teams zu finden, die ähnlich wie unser Team spielen, und zu sehen, wie ein bestimmtes Team gegen diese Gruppe gespielt hat, und durch eine gewisse Anhäufung auf das gegnerische Team zu projizieren.
In früheren Artikeln, die ich gepostet habe, habe ich die Verwendung kleiner Datenreihen als verallgemeinerte Sequenzen diskutiert, um Muster für kommende Spiele zu finden. Ich glaube nicht, dass dies hier die Lösung ist, da wir Sequenzen, die Monate voneinander entfernt waren, nicht verallgemeinern können, sowie die Tatsache, dass diese Teams so dynamisch sind, dass wir es wahrscheinlich nicht können, es sei denn, eine Sequenz hat eine Länge von 3 oder weniger haben sogar eine gute Stichprobengröße, um zukünftige Spiele vorherzusagen.
Die Daten:
Für dieses Problem habe ich zwei Datensätze verwendet. Die erste ist eine Sammlung aller Spiele zwischen zwei nationalen Ländern. Der zweite Datensatz enthält die FIFA-Rangliste jeder Mannschaft zu einem bestimmten Zeitpunkt in den letzten 20 Jahren.
Um eine relevante und rücksichtsvolle Überschneidung in den Kadern zu gewährleisten, habe ich mich entschieden, die Daten der letzten 3 Jahre zu betrachten und die früheren Spiele zu entfernen, da sie für die Erkenntnisse, die wir finden werden, weniger relevant sind .
Das Clustern
Um das Clustering durchzuführen, müssen wir eine Reihe von Metriken und Merkmalen definieren, die Teams charakterisieren und sie in „Stile“ gruppieren. Ich beschloss, mir Teams anzusehen und wie sie gegen andere Teams spielen. Insbesondere wollte ich sehen, wie Teams gegen Gruppen von Teams spielen, die nach FIFA-Ranglisten gruppiert sind. Ich habe mich entschieden, Teams mit 10 Personen zu gruppieren, was bedeutet, dass Gruppe 1 Teams auf den Plätzen 1–10 haben würde, Gruppe 2 Teams von 10–20 und so weiter. Pro Gruppe wollte ich die durchschnittliche Anzahl an erzielten und kassierten Toren sehen.
Ich habe mich auch entschieden, alle Teams unter dem Rang 100 zu entfernen, da sie etwas irrelevant sind und der Unterschied zwischen 4-0 und 6-0 in Bezug auf die Eigenschaften für diesen Fall gering ist.
Da die Daten aufgrund ihrer Art von erzielten und kassierten Toren gleich skaliert sind, habe ich dann ein einfaches Verfahren von K-Means auf verschiedenen Sätzen von Clustern ausgeführt, um den optimalen Satz von Clustern für die Aufteilung zu erreichen.
In dieser Abbildung oben habe ich mich entschieden, die Aufteilungen von 6 und 10 Clustern zu betrachten. Beim Eintauchen in die Daten und Ergebnisse sind die Unterschiede zwischen 10 und 15 jedoch recht gering, und 6 schien eine kleine Gruppe von Clustern zu sein.
Um diese Ergebnisse zu visualisieren, habe ich mich entschieden, die Dimension auf 2 zu reduzieren, um die Ergebnisse darzustellen. Ich habe PCA als Dimensionsreduktionsmethode verwendet, da es die Varianz auf eine Weise bewahrt, die für unser Ziel geeignet ist.
In der obigen Grafik sehen wir ein Beispiel für eine Reihe von Teams. Dies wurde während der 1/8-Phase der WM geschrieben, und wir können einige interessante Erkenntnisse sehen.
Zunächst einmal werden Belgien und Deutschland in einem bestimmten Cluster ausgewiesen . Dies ist ziemlich interessant, da beide in frühen Stadien reguliert wurden und es scheint, als ob die Daten dies im Voraus anzeigten.
Eine weitere Erkenntnis ist, dass die meisten Mannschaften, die die Gruppenphase hinter sich gelassen haben, am unteren Rand des Diagramms gruppiert sind und die „Favoriten“ sich im unteren Teil dieses Bündels befinden. Sie können sich das fast wie eine zweidimensionale Punktzahl für den Erfolg vorstellen, bei der wir vorhersagen können, dass England und Brasilien das Finale erreichen. (Offensichtlich ist dies eine unbeaufsichtigte Methode ohne klare Anzeichen dafür, dass dies ein Erfolgsergebnis ist, aber aufgrund der Linearität der Methode können wir einige Ergebnisse in dieser Richtung bewerten.)
Erwähnenswert ist auch, dass das Verhalten von Portugal und den Niederlanden im Vergleich zu unterschiedlich eingestuften Teams sehr ähnlich ist, im Vergleich zu Brasilien, Frankreich, England und Argentinien, die ein unterschiedliches Verhalten aufweisen.
Die Projektion
Im nächsten Schritt müsste ich eine Art Projektion der Daten durchführen, um die vorhergesagten Ergebnisse zu bewerten. Das Motiv hier als Erinnerung ist, das Verhalten eines Teams gegenüber allen Teams in einer anderen Gruppe, in der sich das gegnerische Team befindet, zu gruppieren, um zu beurteilen, ob das gegebene Team die gleiche Leistung gegenüber dem gegebenen gegnerischen Team erbringen wird.
Daher ist die vorgeschlagene Methode die folgende:
- Definieren Sie ein bestimmtes „aktuelles“ Team und sein gegnerisches Team
- Erstellen Sie eine Matrix, die alle Ergebnisse des aktuellen Teams enthält.
- Wählen Sie alle Teams aus, die das gleiche Label wie das gegnerische Team haben
- aggregieren und berechnen Sie die durchschnittlich erzielten und kassierten Tore .
- Führen Sie dasselbe aus der Sicht des gegnerischen Teams durch.
- Führen Sie als Nächstes einen einfachen Mittelwert zwischen den erzielten Toren aus dem POV des aktuellen Teams und den Gegentoren aus dem POV des gegnerischen Teams durch.
Hinweis: Manchmal gibt es Mannschaften, die noch nie gegen eine Mannschaft aus einem anderen Cluster gespielt haben. In diesem Fall müssen wir diesen Ansatz ändern und zu einer hierarchischen Clustering-Methode übergehen, bei der wir versuchen, den kleinsten Cluster zu nehmen, während wir der Einschränkung gehorchen, dass das gegnerische Team gegen mindestens ein Team in diesem Cluster spielt.
Beispiel: Wenn ein Team gegen kein Team in einem Cluster gespielt hat, gehen Sie entweder im hierarchischen Dendrogramm eine Ebene nach oben oder suchen Sie das nächste Cluster, das das aktuelle Team gegen gespielt hat.
Weitere Schritte
Ich würde vorschlagen, dass dies als Feature zu einem größeren gestapelten Modell beiträgt. Wir haben ein allgemeines Problem mit zu dynamischen Teams und Spielern, die sich bewegen.
Möglicherweise möchten wir eine zusätzliche Ebene der Charakterisierung in Betracht ziehen, indem wir eine niedrigere Granularität der Daten erstellen. Dies könnte auf Spielerebene erfolgen, was auf unterschiedliche Charakterisierungen bestimmter Spieler in der Startmannschaft hinweisen kann.
Für weitere Informationen erreichen Sie mich unter: [email protected]
Git-Repository:

![Was ist überhaupt eine verknüpfte Liste? [Teil 1]](https://post.nghiatu.com/assets/images/m/max/724/1*Xokk6XOjWyIGCBujkJsCzQ.jpeg)



































