En de winnende tijd is:
We noteren 1994, Johan Olav Koss reed zijn verbazingwekkende 10.000 meter tijdens de Olympische Spelen in Hamar (1994). Een TV commentator zei, dat er geen maat was om deze man mee te meten en dat het praktisch onmogelijk was wat hij liet zien. Maar is dat wel zo? Was zijn tijd niet te voorspellen? In verschillende studies hebben onderzoekers geprobeerd de winnende tijd voor verschillende sporten te voorspellen.
Voor het doctoraalvak Onderzoekspracticum Econometrie heb ik met begeleiding van dr. R.H. Koning onderzoek gedaan naar het voorspellen van schaatstijden met behulp van statistische methoden. Verschillende methoden bieden uitkomst bij het voorspellen van toekomstige sportprestaties. Ik heb gekozen voor het gebruik van extreme-waarde modellen. Extreme-waarde modellen concentreren zich op het gedrag van een toevalsvariabele in de staarten van een verdeling, zowel voor de maxima als de minima. In het geval van schaatstijden kijken we naar de minima van een dergelijke toevalsvariabele.
Onderzoek is afbakenen. Ik heb gekozen voor het voorspellen van de winnende tijd van de 1500 meter. Ik begon erg enthousiast en was vastberaden de winnende tijd in Salt Lake City te gaan voorspellen. Echter, zo makkelijk gaat dat niet. Ik heb mijn doelstelling dan ook moeten bijstellen. Dit resulteerde in de volgende onderzoeksvraag:
Is het mogelijk om de winnende tijd op de 1500 meter voor mannen en vrouwen voor de olympische winterspelen in Salt Lake City, in februari, te voorspellen op basis van eerder waargenomen tijden?
Data
Vervolgens moest ik data verzamelen, de extreme waarden zijn de snelste tijden die gereden worden in een schaatsseizoen. Om het model eenvoudig te houden is er voor gekozen om het effect van de klapschaats niet mee te nemen. Echter, als je dan de snelste tijd van het seizoen neemt, heb je maar een paar datapunten. Daarom heb ik er voor gekozen om meerdere toernooien per seizoen te bekijken en in plaats van de snelste tijd, de drie snelste tijden mee te nemen. Een voorwaarde voor het meenemen van een toernooi is wel dat de mondiale top op de 1500 meter aanwezig heeft moeten kunnen zijn. De toernooien die geschikt zijn om mee te nemen, zijn: wereldbeker wedstrijden, wereldkampioenschap afstanden (WK afstanden) en de olympische spelen (1998).
Dat met de klapschaats snellere tijden gerealiseerd worden wisten we al en vanaf het seizoen 1997/1998 blijkt dit verschil significant te zijn. We bekijken dus vijf seizoenen en gedurende die seizoenen zijn 31 toernooien gereden. Het is duidelijk dat de ene baan sneller is dan de andere en dat gedurende het ene toernooi harder wordt gereden dan tijdens een ander. Wat we echter nog niet weten is of die effecten voor mannen en vrouwen relatief hetzelfde zijn. Wat we ook niet weten is of de jaarlijkse vooruitgang voor mannen en vrouwen hetzelfde is.
Het modelOp basis van de drie snelste schaatstijden tijdens een toernooi gereden kunnen we een extreme-waarde verdeling afleiden en deze verdeling wordt gekarakteriseerd door drie parameters. In Tabel 1 staan de variabelen die meegenomen zijn. Er is aangegeven in welke categorieën elke variabele is onderverdeeld en welke waarden de categorieën aan kunnen nemen. Er is voor een wereldbekerwedstrijd en een snelle baan geen dummy variabele opgenomen, oftewel je gaat er vanuit dat het om een tijd gaat, gereden gedurende een wereldbekerwedstrijd op een snelle baan.
|
Variabelen |
Categorieën |
Waarden |
|
Seizoen |
1,2,3,4,5 |
[-1,1] |
|
Geslacht |
Man, vrouw |
{0,1} |
|
Toernooi |
Wereldbeker wedstrijd, WK afstanden, olympische spelen |
WKÎ {0,1} Olympische spelen Î {0,1} |
|
Baan |
Snel, normaal, langzaam |
Normaal Î {0,1} Langzaam Î {0,1} |
Voordat we het model kunnen gaan schatten, moeten we de parameters uitdrukken in een functie van de variabelen zoals aangegeven in Tabel 2.
|
Parameters |
Lineair afhankelijk van: |
|
Locatie paramater; m Î Â |
Constante + Seizoen + Geslacht + Toernooi + Baan |
|
Schaalparameter; s >0 |
Constante + Baan |
|
Vormparameter; x Î Â . |
Constante |
Met behulp van S-PLUS 2000 heb ik de maximum likelihood schatters uitgerekend en met een likelihood ratio toets onderzocht of we de data van mannen en vrouwen samen mogen nemen. De uitkomst van deze test is dat het model van de mannen en de vrouwen apart geschat moeten worden. In dit artikel wordt alleen het resultaat van het model van de mannen behandeld.
Uitkomst
Tijdens de olympische spelen in Nagano (1998) won Ådne Søndrål goud op de 1500 meter in 1,47.87. Deze tijd was langzamer dan de ultieme tijd die volgens het model mogelijk was. Met behulp van percentielen kunnen we bepalen welke prestatie neergezet is bij de winnende tijd van Søndrål.
Wanneer we de waarde van het percentiel uitrekenen dat overeenkomt met de winnende tijd voor het door mij geschatte model van de olympische spelen in Nagano vinden we het 46ste percentiel. De volgende stap is het berekenen van de waarden van de parameters voor Salt Lake City en het invullen het gevonden percentiel. De voorspelde winnende tijd voor de 1500 meter in Salt Lake City is dan: 1,43.74
Uit het onderzoek krijgen we mooie uitkomsten, maar het model overschat de kans op een snelle tijd en de verdeling is dikstaartiger dan de data. Tevens had ik ook maar data van één Olympische Spelen om het percentiel te berekenen.
Toen brak de grote dag aan, dinsdag 19 februari 2002, ’s ochtends werd ik geïnterviewd door RTL4 voor een item in het RTL4 nieuws van 18:00 en “5 in het land” op RTL5. De race heb ik ’s avond met een paar vrienden gekeken. De spanning steeg toch enigszins, vooral toen de snelle tijden uitbleven. Gelukkig kwam toen een kleine Amerikaan, Derek Parra, op het ijs en reed onder de 1,44 (1.43,95)! Een overschatting van 0.2%.
Mocht je interesse gewekt zijn en wil je de paper lezen of heb je vragen dan kun je mij mailen.
Arjan-Tim Ferweda










