Sportvorhersagen mit ML: Eine Analyse der National Hockey League

Updated on Mar 21,2025

Die Welt des Sports ist voller Überraschungen, aber was wäre, wenn wir einige dieser Überraschungen mit Hilfe von Machine Learning vorhersehen könnten? In diesem Blogbeitrag tauchen wir tief in die Materie ein und untersuchen, wie Machine Learning zur Vorhersage von Sportergebnissen, insbesondere in der National Hockey League (NHL), eingesetzt werden kann. Wir analysieren die wichtigsten Fakten, Datenquellen und Methoden, um Sportfans und Wettende mit wertvollen Einblicken zu versorgen.

Kernpunkte

Machine Learning (ML) kann verwendet werden, um Sportergebnisse vorherzusagen, insbesondere in der NHL.

Die Datenbeschaffung ist ein entscheidender Schritt, wobei verschiedene Websites für Sport- und Wettstatistiken genutzt werden.

Feature Engineering, einschließlich kumulativer und Differenzmerkmale, verbessert die Genauigkeit der Vorhersagen.

Verschiedene ML-Algorithmen, wie Random Forest und XGBoost, können für Sportvorhersagen verwendet werden.

Die Genauigkeit der ML-Modelle kann mit den Vorhersagen von Buchmachern verglichen werden, um die Leistung zu bewerten.

Numerische Experimente mit virtuellem Geld können verwendet werden, um die potenzielle Rentabilität von Wettstrategien zu bewerten.

Zukünftige Schritte umfassen die Erhöhung der Modellgenauigkeit und die Bereitstellung des Modells online.

Einführung in Sportvorhersagen mit Machine Learning

Warum Machine Learning für Sportvorhersagen?

In der heutigen datengetriebenen Welt bietet Machine Learning (ML) aufregende Möglichkeiten in verschiedenen Bereichen, einschließlich Sportvorhersagen. Durch die Analyse riesiger Datenmengen können ML-Algorithmen Muster und Erkenntnisse aufdecken, die für das menschliche Auge möglicherweise nicht erkennbar sind. Diese Fähigkeit macht Machine Learning zu einem wertvollen Werkzeug für Sportanalysten, Wettende und Fans, die ein tieferes Verständnis der Wahrscheinlichkeiten von Sportergebnissen suchen. Das Ziel dieses Projekts ist es, ein Machine Learning Tool zu entwickeln, das Sportfans hilft, gegen Buchmacher zu spielen und ihre Gewinnchancen bei Sportwetten zu erhöhen.

Statistiken der National Hockey League: Sportstatistiken + Wettstatistiken. Man kann sich zu verschiedenen Websites begeben, auf denen man verschiedene Sportstatistiken sehen kann. Man kann diese Statistiken nutzen, um bessere Vorhersagen zu treffen.

  • Die Popularität von Sportvorhersagen: Fußball, Basketball, American Football, Rugby, Ice Hockey, Australian Rules Football, Baseball, Cricket, Rugby League. Die Tabelle zeigt die Anzahl der Studien nach Sportart. Fußball ist die beliebteste Sportart, gefolgt von Basketball und American Football.

  • Das NHL-Punktesystem muss man kennen, um Sport besser vorherzusagen: 2 Punkte für den Sieg nach regulärer Spielzeit oder Verlängerung, 1 Punkt für den Verlust in der Verlängerung oder im Penaltyschießen und 0 Punkte für den Verlust nach regulärer Spielzeit.

Ziel des Projekts: Entwicklung eines Tools, das Sportfans hilft, gegen Buchmacher zu spielen.

R. Bunker, T. Susnjak, Journal of Artificial Intelligence Research 73, 1285-1322, (2022).

Dieses Projekt zielt darauf ab, ein Machine Learning Tool zu entwickeln, das Sportfans hilft, gegen Buchmacher zu spielen und ihre Gewinnchancen bei Sportwetten zu erhöhen. Es ist jedoch wichtig zu beachten, dass das Ziel nicht darin besteht, mit anderen zu konkurrieren, sondern ein ML-Tool zu entwickeln, um Sportfans zu helfen, mit Buchmachern zu konkurrieren.

Die National Hockey League (NHL): Wichtige Fakten

Die National Hockey League (NHL) ist eine professionelle Eishockeyliga in Nordamerika, die aus 32 Teams besteht.

Die Liga ist in zwei Konferenzen unterteilt, die Eastern Conference und die Western Conference, mit jeweils zwei Divisionen. Die Saisonstruktur umfasst eine Vorsaison, eine reguläre Saison (ca. 1300 Spiele) und die Stanley Cup Playoffs.

Regeln und Punktesystem

Das Punktesystem in der NHL ist wie folgt:

  • 2 Punkte für einen Sieg (einschließlich Verlängerung oder Penaltyschießen)
  • 1 Punkt für eine Niederlage in der Verlängerung oder im Penaltyschießen
  • 0 Punkte für eine Niederlage in der regulären Spielzeit

Diese Regeln und die Saisonstruktur sind entscheidend für das Verständnis der Daten, die für Machine Learning Modelle verwendet werden.

Die Season Structure: Preseason, Regular Season (~1300 matches), Stanley Cup Playoffs

NHL Teams: Von 2000-01: 30 teams, Von 2017-18: 31 teams, Von 2021: 32 teams

Datenbeschaffung und Feature Engineering für NHL-Vorhersagen

Sammeln relevanter Daten für Machine Learning

Der erste Schritt bei der Entwicklung eines ML-Modells zur Vorhersage von NHL-Ergebnissen ist das Sammeln relevanter Daten. Diese Daten können aus verschiedenen Quellen stammen, darunter:

  • Offizielle NHL-Website: Bietet umfassende Statistiken, Ergebnisse und Spielpläne.
  • Sportstatistik-Websites: Websites wie Hockey-Reference.com bieten detaillierte historische Daten.
  • Wettstatistik-Websites: Websites wie Flashscore.com bieten Wettquoten und Informationen.

Die Kombination von Sport- und Wettstatistiken kann die Genauigkeit der ML-Modelle erheblich verbessern. Zum Beispiel kann die Einbeziehung von Wettquoten Einblicke in die öffentliche Wahrnehmung der Wahrscheinlichkeit eines bestimmten Ergebnisses liefern.

Web Scraping: Die Daten werden über verschiedene Webseiten gesammelt, um sie für die Vorhersagen zu verwenden.

  • Die Web Scraping-Methode wird im Programm verwendet: Python mit Selenium. Die Raw Dataset Size enthält NHL Seasons von 2018/2019 bis 2022/2023: ~ 5557 rows x 43 columns including bet statistics from bwin and bet-at-home. Downloadzeit: ~4 hours for one season (~1200 matches)

Man kann die Quotenformate in den Einstellungen umschalten.

Feature Engineering: Kumulative und Differenzmerkmale

Sobald die Daten gesammelt sind, besteht der nächste Schritt darin, Features zu entwickeln, die die Vorhersagekraft des ML-Modells verbessern können. Feature Engineering umfasst die Transformation von Rohdaten in aussagekräftige Eingaben für die Algorithmen. Zwei Arten von Features, die besonders nützlich sind, sind kumulative und Differenzmerkmale.

  • Kumulative Merkmale: Dies sind Merkmale, die historische Daten über einen bestimmten Zeitraum aggregieren. Zum Beispiel könnte ein kumulatives Feature die Gesamtzahl der von einem Team in den letzten fünf Spielen erzielten Tore sein. Diese Funktionen helfen, Trends und Konsistenz zu erfassen.

  • Differenzmerkmale: Diese Merkmale berechnen die Differenz zwischen zwei kumulativen Merkmalen. Zum Beispiel könnte ein Differenzmerkmal die Differenz zwischen den Toren sein, die ein Team zu Hause und auswärts erzielt hat. Diese Funktionen helfen, die relative Stärke oder Schwäche von Teams zu analysieren.

Die Art der Merkmale:

  • Raw Features: von Webseiten heruntergeladen, nur nach dem Spiel verfügbar
  • Cumulative Features: Engineered Features, aus Raw Features gewonnen, vor dem Spiel verfügbar
  • Difference Features: Engineered Features, aus Cumulative Features gewonnen, vor dem Spiel verfügbar

Durch die Einbeziehung dieser Features in das ML-Modell kann die Genauigkeit von NHL-Vorhersagen erheblich verbessert werden. Es ist es ist wichtig, dass man eine binäre Zielvariable wie Home_win für jedes Hockeyspiel aus dem Datensatz enthält.

Verwendung von Machine Learning zur Vorhersage von NHL-Ergebnissen: Ein praktischer Leitfaden

Schritte zur Erstellung eines ML-Modells für Sportvorhersagen

Hier sind die Schritte zur Vorhersage der zukünftigen Spiele mit Sportstatistiken:

  1. Dataset preparation: Splitten des Datasets in Sportstatistiken und Wettstatistiken, Reinigen fehlender Werte, Hinzufügen von Punkten nach Hockeyspielregeln, Kodieren nicht numerischer Daten, Entfernen von Merkmalen mit starker Korrelation, Hinzufügen eines Zielmerkmals: Gewinn oder Verlust des Heimteams

    . Um zukünftige Spiele vorherzusagen, benötigen wir Merkmale, die vor dem Spiel verfügbar sind.

  2. Training und Testen des ML-Modells: Feature Importance, Training Dataset, Test Dataset. Bei dem Training und Testen des ML Modells soll man verschiedene Machine Learning Algorithmen verwenden: Random Forest Classifier, CatBoost Classifier, XGB Classifier .

Um zu bestimmen, ob die Genauigkeit gut oder schlecht ist, kann man es mit anderen wissenschaftlichen Arbeiten vergleichen: Weissbock et al. (2013) -> 59%, Sergii (2023) -> 59.9%, Weissbock & Inkpen (2014) -> 60.3%, Gu et al. (2019) -> 91.8% Wie man das Modell im Hockey verbessern kann: Mehr Samples, mehr Merkmale einschließlich individueller Spielerleistung, Principal Components Analysis (PCA), verschiedene Methoden wurden angewendet SVM und Boosting-Methoden

Wettstrategien und potenzielle Gewinne

Potenzielle Gewinne durch numerische Experimente

Um die potenziellen finanziellen Vorteile von ML-gestützten NHL-Vorhersagen zu bewerten, können numerische Experimente durchgeführt werden. Bei diesen Experimenten wird simuliert, wie man auf der Grundlage der Vorhersagen des ML-Modells wetten würde.

Das Ziel des Projekts: Entwicklung eines Machine Learning Tool, das Sportfans hilft, gegen Buchmacher zu spielen und ihre Gewinnchancen bei Sportwetten zu erhöhen. Dazu gehört es, sich mit bestehenden Vorhersagen zu vergleichen und zu schauen, wo noch Potenzial besteht. Dieses Potenzial möchte man mit Machine Learning identifizieren und nutzen.

  • Beispiel für ein numerisches Experiment: Budget: 200€, Dataset: last 20 NHL matches in the season 2022/2023, Strategy: fixed bet 10 € on every match. Total Net Profit: +34.4€

Mit einem Budget von 200€ und einem fixen Einsatz von 10€ konnte so ein Netto Profit von 34.4€ erzielt werden

ML-gestützte Sportvorhersagen: Vor- und Nachteile

👍 Pros

Verbesserte Genauigkeit: ML-Modelle können große Datenmengen analysieren und Muster erkennen, die Menschen möglicherweise übersehen.

Objektivität: ML-Modelle sind nicht durch Emotionen oder Vorurteile beeinflusst, was zu objektiveren Vorhersagen führt.

Skalierbarkeit: ML-Modelle können schnell an neue Daten und sich ändernde Bedingungen angepasst werden.

Automatisierung: ML-Modelle können den Vorhersageprozess automatisieren, wodurch Zeit und Ressourcen gespart werden.

👎 Cons

Datenabhängigkeit: ML-Modelle sind stark von der Qualität und Verfügbarkeit von Daten abhängig.

Overfitting: ML-Modelle können so trainiert werden, dass sie zu gut zu den Trainingsdaten passen, was zu einer schlechten Leistung bei neuen Daten führt.

Interpretierbarkeit: ML-Modelle können schwer zu interpretieren sein, was es schwierig macht, zu verstehen, warum sie bestimmte Vorhersagen treffen.

Kosten: Die Entwicklung und Wartung von ML-Modellen kann kostspielig sein.

Vergleich mit Buchmachern: ML-Modell vs. Experten

Wie schlägt sich das ML-Modell im Vergleich zu Buchmachern?

Ein entscheidender Aspekt bei der Bewertung eines ML-Modells zur Sportvorhersage ist der Vergleich seiner Leistung mit der von Buchmachern. Buchmacher beschäftigen Expertenteams, die historische Daten, Teamnachrichten und andere Faktoren analysieren, um Wettquoten festzulegen. Daher kann ein ML-Modell, das Buchmacher durchweg übertrifft, als vielversprechend angesehen werden.

Die Ergebnisse: Die Ergebnisse sind sehr ähnlich: ML model predictions accuracy: 58.80%, Bookmaker predictions accuracy: 58.48%. Das lässt darauf schließen, dass beide die gleichen Variablen bei der Vorhersage verwenden. Auch werden die gleichen Fehler gemacht und die Verteilung der Fehler ist ähnlich. So lassen sich Machine Learning model predictions vs Bookmaker predictions am besten vergleichen. Damit man den Buchmachern etwas voraushaben kann, muss man also andere oder mehr Datenquellen nutzen, um sich zu verbessern.

Häufig gestellte Fragen (FAQ)

Was sind die wichtigsten Datenquellen für Sportvorhersagen?
Die wichtigsten Datenquellen sind die offizielle NHL-Website, Sportstatistik-Websites wie Hockey-Reference.com und Wettstatistik-Websites wie Flashscore.com.
Welche Arten von Features sind für ML-Modelle nützlich?
Kumulative und Differenzmerkmale sind besonders nützlich, um Trends und relative Stärken von Teams zu erfassen.
Wie kann die Genauigkeit von ML-Modellen bewertet werden?
Die Genauigkeit kann bewertet werden, indem die Vorhersagen des ML-Modells mit den Vorhersagen von Buchmachern und veröffentlichten Ergebnissen verglichen werden.
Welche ML-Algorithmen eignen sich für Sportvorhersagen?
Verschiedene Algorithmen, wie Random Forest, CatBoost und XGBoost, können effektiv eingesetzt werden.
Wie können numerische Experimente verwendet werden?
Numerische Experimente mit virtuellem Geld können verwendet werden, um die potenzielle Rentabilität von Wettstrategien zu bewerten.

Verwandte Fragen

Wie können Sportwetten durch Machine Learning revolutioniert werden?
Machine Learning revolutioniert Sportwetten, indem es datengestützte Erkenntnisse liefert, die traditionelle Analysemethoden übertreffen. ML-Algorithmen analysieren riesige Datensätze, um Muster zu erkennen, Spielausgänge vorherzusagen und Wettsysteme zu optimieren. Durch die Integration von Echtzeitdaten und komplexen statistischen Modellen können Wettende fundiertere Entscheidungen treffen und ihre Erfolgschancen erhöhen. ML berücksichtigt Faktoren wie Spielerstatistiken, Teamleistung, historische Daten und sogar externe Einflüsse wie Wetterbedingungen, um ein umfassendes Bild zu erstellen. Diese datengestützte Herangehensweise kann Wettsysteme verfeinern, profitable Möglichkeiten aufdecken und traditionelle Wettstrategien übertreffen. Da ML-Modelle ständig aus neuen Daten lernen und sich anpassen, eröffnen sie neue Möglichkeiten, Sportwetten zu revolutionieren und sowohl Gelegenheitsspielern als auch Profisportlern einen Wettbewerbsvorteil zu verschaffen.

Most people like