MLB simulointimalli v1.0

31.01.2026

Ihminen on vuosituhansia pyrkinyt selittämään todellisuutta luvuin ja on onnistunutkin siinä jo melko tarkasti tähän päivään tullessa. Olen kuitenkin sitä mieltä, että emme koskaan pääse mihinkään teoriaan, joka numeerisesti kuvaa todellisuutta täydellisesti, sillä elämme todennäköisyyksien maailmassa. Pystymme vain likimääräisesti, joskin joissain tapauksissa melko tarkasti ennustamaan tulevaa, mutta lopultakin, aina on kyse vain tapahtuman todennäköisestä lopputuloksesta ei varmuudesta. Ja tämä on mielestäni äärimmäisen kaunista. (niin kuin moni muukin asia - heh)

Opiskelen tilastoja, todennäköisyyksiä ja tilastojen tulkintaa jatkuvasti aivan omaksi ilokseni. Niin kuin olen aiemmin kertonut, olen matematiikassa melko kehno (tosin tämä voi myös olla narratiivi, jota syötän itselleni ja josta olisi ehkä hyvä pyrkiä pois), mutta silti koen suurta mielenkiintoa tilastollista matematiikkaa kohtaan. Ehkä se kiehtoo juuri monimutkaisuutensa (ja ymmärtämättömyyteni) takia. No joka tapauksessa, tilastot ja niiden pyörittely urheilussa tuovat sen seuraamiseen aivan oman ulottuvuutensa. Pystyt seuraamaan pelejä ikään kuin tietynlaisten lasien läpi katsoen, jotka selittävät sinulle ehkä  joitakin syy-seuraussuhteita. Tilastojen perusteella sinulla on aina tapahtuville asioille jokin valmis odottama ja tämä odottama saattaa olla intuition mukainen tai sen vastainen. Onkin aina jälkikäteen äärimmäisen mielenkiintoista pohtia ja spekuloida jos jokin matsi ei mennyt sinne päinkään niin kuin aikaisempien tilastojen ja omien ennusteiden perusteella olisi voinut odottaa. 

Sisältövaroitus

Menemme nyt urheilutilastojen ja lukujen maailmaan, joten heti alkuun annan varoituksen sanan sisällöstä. Tämä joko kiinnostaa tai ei kiinnosta, mutta olen puhunut, että avaan omaa voimalukupohjaista malliani ja päivittelen sitä tänne avoimesti, joten ota kuppi kahvia ja tasku Casio pöydälle niin pärjäät varmasti.

Voimaluvut

Käydäänpä sitten itse pihviin eli mistä minun tilastopohjainen voimalukumallini muodostuu? Mitkä ovat keskiarvot ja mitä keskiarvojen ylä- ja alapuolella oleminen tarkoittaa.
Olen lähtenyt liikenteeseen tarkoituksella hyvin yksinkertaisella mallilla, joka mittaa pääasiassa vain joukkueiden hyökkäyksen tehoa ja syöttöpeliä. Nämä ovat isoimmat elementit jotka vaikuttavat peliin. Tällä tavoin pitämällä mallit mahdollisimman yksinkertaisena välttyy myös helpommin turhalta "kohinalta" jota voi syntyä, jos malliin ottaa liikaa muuttujia ja eri tilastoja. Silloin on riski, että data on väärää ja se ei näytä välttämättä oikeita asioita.

Hyökkäysindeksini muodostuu kaikessa yksinkertaisuudessaan joukkueen wRC+ tilastosta. Se on mielestäni todella hyvä ja itsessään laaja tilasto mittaamaan joukkueiden todellista lyöntivoimaa. wRC+ huomioi kaikki pesälle pääsyt, walkit, osumat, liigan keskimääräinen hyökkäystason, park factor (kentän olosuhteet) ja se skaalataan liigan keskiarvoon 100. Eli wRC+ 120 on 20 % parempi kuin liigan keskiarvo ja wRC+ 80 on tietenkin 20 % heikompi liigan keskiarvoa. 

R/GP eli juoksut per peli sekä koti ja vieras RD eli run differential eivät ole mukana noissa voimaluvuissa. Ne ovat vain lisänä kertomassa, kuinka joukkue t0dellisuudessa on pystynyt juoksuja tuottamaan kauden aikana. 

Sitten puolustukseen tai toisin sanoen syöttöpeliin. Olen valinnut puolustusindeksiin syöttäjäpainotteiset tilastot, koska syöttäjällä on merkittävästi suurin rooli lyöjien kentälle pääsyssä ja syöttäjien tilastot antavat tarkimman ja parhaan kuvauksen joukkueen koko ulkokenttäpelistä. 

ERA (earned runs average) mittaa kuinka paljon juoksuja joukkue antaa per yhdeksän vuoroparia. FIP (fielding independent pitching) on karkeasti täysin syöttäjän tilasto. Se mittaa annetut home runit, kävelyt + osumat, stikeoutit (eli poltot) ja syötetyt vuoroparit. K% - BB% on syöttäjän "polttoprosentti" miinustettuna annetut vapaataipaleet. 
Näille puolustuksen/syöttäjien tilastoille olen antanut kullekin oman painotuksensa ja päivitän kauden kuluessa ajan tasaiset liigan keskiarvot kullekin tilastolle ja excel laksee tämän perusteella puolustuksen voimaluvun. Melkoisen simppeliä. 

Alla oleva voimaluku taulukko on viilattu nyt offseasonin aikana joukkueiden pelaajahankintojen ja viime kauden tilastojen perusteella. MIelenkiinnolla odotan kuinka kauden alettua voimaluvut alkavat elämään. Jos nyt muutaman joukkueen tässä nostan pienine perusteluineen keitä tulen erityisesti seuraamaan ovat ne seuraavat. Tietenkin New York Mets (oma suosikkini), Colorado Rockies, yksinkertaisen huono ja Phillies, joka on taulukossani voimaluvuilla mitattuna ennakkosuosikki kauteen lähdettäessä. 
voimalukutaulukko v 1. normaalisti joukkueet sortattu divisioonien sisäisesti paremmuus järjestykseen ylhäältä alas päin
voimalukutaulukko v 1. normaalisti joukkueet sortattu divisioonien sisäisesti paremmuus järjestykseen ylhäältä alas päin

Monte Carlo simulaatio

Alkeellisen MLB simulointimallini toinen palikka on Monte Carlo simulaatio. Tämän kanssa olen konsultoinut paljon tekoälyä, mutta sain kuin sainkin sen lopulta kasaan. Lainaan Wikipediaa: "Monte Carlo -simulaatio on numeerisen mallintamisen menetelmä, jossa hyödynnetään todennäköisyyslaskentaa ja tilastotiedettä. Siinä toistetaan samantapaisia laskelmia useita kertoja peräkkäin käyttäen jotain nk. Monte Carlo -algoritmia. Tulos ei ole tarkka. Sitä käytettäessä virheen todennäköisyys voidaan kuitenkin asettaa halutulle tasolle mutta tarkkuuden kasvaessa myös suoritusaika kasvaa."

Oma Monte Carloni perustuu voimalukuihini. Syötän siihen kahden vastakkain pelaavan joukkueen hyökkäys- ja puolustuindeksin ja Monte Carlo antaa molempien joukkueiden juoksuodottaman. Näiden parametrien perusteella se simuloi numeerisesti 100 000 peliä ja antaa voittotodennäköisyydet molemmille joukkueille. Esim. joukkue A 0,50517 ja joukkue B 0,49483. No tämä lopputulos on käytännössä 50/50 eli todella tasaiset joukkueet kyseessä. Tällaisissa tasaisissa otteluissa -kun teen otteluennakkoa/analyysia- voimalukutaulukossani olevat R/GP sekä Home/Away RD ovat todella hyviä tilastoja kertomaan kuinka joukkueet ovat todellisuudessa pystyneet olemaan tehokkaita ja pelanneet sekä kotona, että vieraissa. 
 
Ensikaudelle olisi ajatus yrittää väsätä myös voimalukuihini pohjautuvaa kausisimulaatiota, mutta aloitetaan projekti yksinkertaisesti ja edetään pala kerrallaan seuraillen, että kuinka seuraaminen näiden lukujen lävitse sujuu. 

ps. Jos olet matemaatikko tai muuten vaan tilastollisest asiat on sinulla hallussa ja pidät urheilusta niin saa laittaa kehittävää palautetta! 

pps. Baseballissa -sekä minulle- tilastot merkitsevät!

Uusimmat kirjoitukset 

Ihminen on vuosituhansia pyrkinyt selittämään todellisuutta luvuin ja on onnistunutkin siinä jo melko tarkasti tähän päivään tullessa. Olen kuitenkin sitä mieltä, että emme koskaan pääse mihinkään teoriaan, joka numeerisesti kuvaa todellisuutta täydellisesti, sillä elämme todennäköisyyksien maailmassa. Pystymme vain likimääräisesti, joskin joissain...

Antoisan elokuvavuoden lisäksi vuosi 1998 jäi historiaan ja nimenomaan baseball-historiaan New York Yankeesin ylivoimaisesta mestaruudesta, joka muuten oli järjestykssessään heille mestaruus numero 24. Kun puhutaan erilaisista listoista baseball-saavutuksista, niin en usko, että ainakaan aivan pintaa raapaisemalla löytyisi sellaista listausta,...

Sen lisäksi, että se (kauneus) piilee yksityiskohdissa, kliseisesti, se on myös katsojan silmissä. Halusin yrittää hieman avata omalta kohdaltani mitä minä näen baseballissa ja miksi se on lajina -erityisesti MLB:ssä- niin kaunis, että haluan siitä tarinaa kertoa. Totta kai myös baseballissa (MLB:ssä) on varjopuolensa, kuten esimerkkinä kuuluisa...

Strikeout Media - MLB tarinat uutiset tilastot
Kaikki oikeudet pidätetään 2026
Luo kotisivut ilmaiseksi!