Uutinen 20.12.2016

Aineistoon sopimattomat tilastolliset menetelmät aiheuttavat tilastoharhoja myös luonnontieteissä

Monilla luonnontieteiden eri aloilla, ilmakehätieteet mukaan lukien, tutkittavien aineistojen epävarmuudet synnyttävät usein tutkimustuloksiin tilastoharhoja etenkin jos tutkijat käyttävät aineistoon sopimattomia tilastollisia menetelmiä.

Tuoreen tutkimuksen mukaan sopimattomien menetelmien käyttö kansainvälisesti ilmakehätieteiden alalla on melko yleistä. Tutkimuksen tavoitteena onkin auttaa kaikkien geotieteiden alojen ja erityisesti ilmakehätieteiden yhteisöjä tiedostamaan tilastoharhojen riskit ja siten vähentää tutkimustulosten tulkintaan liittyviä epävarmuuksia. "Kaikkein yksinkertaisimpienkin tilastomenetelmien käyttö on siksi aina perusteltava huolellisesti", muistuttaa Ilmatieteen laitoksen tutkija Mikko Pitkänen.

Tutkimuksessa käytettiin apuna keinotekoista aineistoa, joka käyttäytyy likimain kuten oikea mittausaineisto. Keinotekoisen aineiston etuna on sen tarkasti tunnetut virheet ja epävarmuudet. Todellisen mittausaineiston virheitä tunnetaan harvoin täsmällisesti, minkä vuoksi epäsopivien tilastomenetelmien harhoja on hyödyllistä tarkastella keinotekoisella aineistolla.

PNS-menetelmä yksi ongelmallisimmista menetelmistä

Yksi ongelmallisista tilastomenetelmistä on laajalti tunnettu ja käytetty ns. pienimmän neliösumman menetelmä (PNS), jonka on tarkoitus kuvastaa, kuinka voimakkaasti selitettävä muuttuja riippuu tarkasta selittävästä muuttujasta. PNS ei huomioi selittävässä muuttujassa olevia epävarmuuksia, mutta käytännössä lähes aina mittaukset ja mallitulokset sisältävät jonkin verran epävarmuutta. Tällöin PNS on korvattava jollakin epävarmuudet huomioivalla tilastomenetelmällä.

Mikäli PNS:ää kuitenkin käytetään epävarmalle selittävälle muuttujalle, seurauksia voi olla kahdenlaisia. Ensinnäkin riippuvuus selittävän ja selitettävän muuttujan välillä voidaan tulkita heikommaksi kuin se oikeasti on. Toisaalta syitä heikolle riippuvuudelle saatetaan alkaa etsiä ja korjata vääristä paikoista, mikä voi viedä tutkimusta harhateille. Tilastoharhan suuruus vaihtelee mitättömästä hyvin merkittävään ja sen suuruutta on vaikeaa arvioida ilman alkuperäistä tutkimusaineistoa.

Osassa julkaistusta tuloksista tämä virhelähde on kuitenkin osattu huomioida ja toisaalta tieteen avoimuus tarjoaa mahdollisuuden tarkastella tilastoharhan vaikutusta tutkimuksessa jälkikäteen. "Lisäksi vaihtoehtoisia, epävarmuudet huomioivia menetelmiä on tarjolla runsaasti, joten tarvittavat korjausliikkeet ovat toteutettavissa monin tavoin", toteaa Itä-Suomen yliopiston tutkija Santtu Mikkonen.

Lisätietoja:

Ilmatieteen laitosTutkija, meteorologi Mikko Pitkänen, puh. 050 344 7116, mikko.pitkanen(at)fmi.fi

Itä-Suomen yliopistoFT Santtu Mikkonen, puh. 040 355 2319, santtu.mikkonen(at)uef.fi

Pitkänen, M.R.A., S. Mikkonen, K.E.J.Lehtinen, A. Lipponen and A. Arola (2016), Artificial bias typically neglected in comparisons of uncertain atmospheric data, Geophys. Res. Lett., 43, doi:10.1002/2016GL070852.

http://onlinelibrary.wiley.com/doi/10.1002/2016GL070852/full