Friday, 18 February 2011

Virhemarginaalissa




YLE Uutiset julkisti seuraavan uutisen syyskuussa 2010.

"Perussuomalaisten kannatus jatkaa nousuaan. YLE Uutisten elokuun puoluekannatusmittauksessa perussuomalaiset saivat jälleen uuden ennätyslukemansa, 10,7 prosenttia.

Suosituin puolue on edelleen kokoomus, jota kannatti 22,8 prosenttia vastaajista. Laskua heinäkuusta on 0,2 prosenttiyksikköä.

Tällä viikolla tehdyissä haastatteluissa kokoomuksen suosio oli 24,6 prosenttia, eli noususuunnassa. Taloustutkimus arvioi tämän johtuvan samaan aikaan käynnissä olleesta Venäjä-keskustelusta.

SDP:n kannatus pysyi lähes ennallaan ja oli elokuussa 20,4 prosenttia. Keskustalle mittaus näytti täysin samaa kuin heinäkuussakin eli 19,7 prosentin kannatusta.
Vihreät edelleen perussuomalaisten takana

Vihreiden kannatus oli pienessä laskussa ja tulos oli 9,2 prosenttia. Myös vasemmistoliitolla suunta oli alaspäin ja kannatus 7,5 prosenttia.

RKP:n kannatus sen sijaan on noussut 0,4 prosenttiyksikköä ja oli nyt 4,4 prosenttia. Kristillisdemokraateille mittaus näyttää saman verran miinusta ja 3,9 prosentin kannatuksen.

Taloustutkimus haastatteli tutkimusta varten 2 900 ihmistä elokuun 3. - 26. päivänä. Tutkimuksen virhemarginaali on 1,6 prosenttiyksikköä suuntaansa. Kyselyssä selvitettiin puolueiden kannatusta eduskuntavaaleissa."


Yllä oleva ei ole enää uutinen, pikemminkin se on vanhanen. Persujen, demareiden ja kepulaisten kannatus on kyselyjen mukaan lähes tasoissa tätä kirjoitettaessa 18.2.2011. Tilastotieteilijänä mielenkiintoni keskittyykin tässä uutisoinnissa hyvin tyypilliseen toteamukseen: ”Tutkimuksen virhemarginaali on 1,6 prosenttiyksikköä suuntaansa”.

Mikä vikana?
Ensinnäkin tutkimuksella ei ole mitään virhemarginaalia, tutkimuksen antamilla kannatusluvuilla on. (Vähän tilastotieteellisempi nimi on tosin luottamusväli, mutta virhemarginaali on yleisesti käytetty ja ihan kuvaava termi.)
Toiseksi virhemarginaali riippuu käytetystä luottamustasosta. Se on luku, joka ilmoittaa millä todennäköisyydellä voidaan olettaa virhemarginaalin olevan ilmoitetun suuruisen. Yleisin käytetty luottamustaso on 95% eli virhemarginaalin voidaan katsoa olevan ilmoitetun 95% varmuudella. Todellinen kannatus kyselyn hetkellä on siis tietyllä tavalla kolmen epävarmuudesta kertovan luvun takana. Ilman tietoa luottamustasosta virhemarginaali jää roikkumaan hieman epämääräisesti ilmaan.
Kolmanneksi kannatusten virhemarginaali ei ole yksikäsitteinen luku, vaikka luottamustasokin olisi vakio, sillä se riippuu myös puolueen tutkimuksessa saadun kannatusluvun suuruudesta.

Virhemarginaalin laskeminen ei ole kovin monimutkaista. Esimerkiksi Kokoomuksen 24,6% kannatukselle kyseisellä 2900 ihmisen otoksella ja 95% luottamustasolla se lasketaan lausekkeesta:






Jos halutaan pelata enemmänvarman päälle, käytetään suurempaa luottamustasoa. 99% luottamustasolla virhemarginaali olisi






(Tilastotieteen oppikirjoista tarkemmat perustelut niitä kaipaaville.)

Sen sijaan esim. RKP:n kannatuksen virhemarginaali oli tässä tutkimuksessa vain 0,7 py. Suurin virhemarginaali on silloin, kun puolueen kannatus olisi 50%. Se olisi 1,8 py kyseisellä 2900 haastatellun otoksella ja 95% luottamustasolla.

Tämä kaikki edellyttää sitä, että otanta on tehty ”harhattomasti”, eli virhemarginaali johtuu vain satunnaisuudesta, ei systemaattisista virheistä, kuten jotakin puoluetta suosivasta haastateltavien valinnasta. Tähän on vain luotettava, koska käytännössä lukijalla ei ole mitään mahdollisuutta selvittää tätä asiaa.

Helsingin Sanomat selvittää lukijoilleen virhemarginaalin käsitettä 18.2.2011 lehdessä olleen gallup-tuloksen yhteydessä.

"Juha-Pekka Raeste
HELSINGIN SANOMAT

Mielipidetiedustelujen toinen kummajainen on virhemarginaali.

Perinteisesti tiedustelujen lopussa muistetaan mainita, että tulosten virhemarginaali on suurten puolueiden osalta kaksi prosenttia suuntaansa.

Se on vain peukalosääntö, joka kertoo yli 20 prosentin kannatusta nauttivan puolueen virhemarginaalin kahden tuhannen hengen otoksesta.

Jos esimerkiksi kokoomuksen kannatus olisi gallup-tuloksen mukaan 20 prosenttia, tosiasiassa kokoomuksen kannatus on tällöin kansalaisten keskuudessa 95 prosentin todennäköisyydellä mitä tahansa 18,3 prosentin 21,8 prosentin välillä.

Näin tarkka vaihteluväli kannatukselle on tällöin 3,5 prosenttiyksikköä. Tuon vaihteluvälin sisällä kaikki tulokset ovat yhtä todennäköisiä.

Toisin sanoen mainittu 20 prosentin tulos ei edes ole yhtään todennäköisempi kuin mikään muukaan luku 18,3-21,8 prosentin välillä."


Kiville menee tämäkin. Yllä oleva johtopäätös edellyttäisi tasajakaumaa. Virhemarginaalin, joka koostuu satunnaisista tekijöistä, voidaan kuitenkin katsoa noudattavan normaalijakaumaa. Kaikkein todennäköisin kannatuksen arvo on silloin juuri otoksesta saatu tulos ja kannatuslukeman todennäköisyys pienenee, mitä kauempana se on otoksen antamasta arvosta. Esimerkiksi YLE: n uutisissa Kokoomuksen 24,6% kannatuksen todennäköisyys olisi suunnilleen 0,05%, mutta esim. virhemarginaalin sisällä olevan 26,0% kannatuksen vain 0,015%. (Periaatteessa normaalijakauma edellyttää jatkuvaa muuttujaa, mutta tässä kannatuksen prosenttiluku on laskettu pyöristyssääntöjen mukaan, eli 24,6% prosentin kannatus tarkoittaa 24,55% ja 24,65% välissä olevaa kannatusta.)

Kun nyt kerran on lähdetty ruotimaan, niin korjataan pieni terminologinen virhekin. Vaihteluväli ei ole tilastotieteessä virhemarginaalin synonyymi. Vaihteluväli on tilastollisen muuttujan suurimman ja pienimän arvon erotus. Vaaligallupissa se on suurimman ja pienimmän kannatuksen erotus prosenttiyksiköinä. Alla oleva tilastossa vaihteluväli tammikuussa 2011 olisi siis Kokoomuksen ja Muiden kannatuksen erotus, 21,0-1,1 = 19,9 prosenttiyksikköä.




Entisenä matematiikan opettajana olen surullinen siitä tilastomatematiikan ymmärryksen tasosta, joka esimerkiksi vaaliennusteiden suhteen vallitsee. Sekä niistä kertovien että niitä lukevien keskuudessa. Kun suuret mediat käsittelevät tilastoja tällä tietotaidolla, niin millaisia mahtavat tulkinnat olla maakuntalehdissä? Mikä on poliittisten päättäjien taito lukea tilastoja? Vanhan sanonnan vale, emävale, tilasto voisi hyvin korvata uudella. Huonosti perillä asiasta, ihan metsässä, tilastoa tulkitsemassa.

16 comments:

  1. Olisit opettanut paremmin, niin ei tarvitsisi itkeä surkeaa matematiikan ymmärtämisen tasoa. Muutenkin sinun jutuistasi paistaa lävitse omahyväinen ylimielisyys. Muut ovat tyhmiä, minä yksin tajuan kaikki jutut heti oikein.

    ReplyDelete
    Replies
    1. Olipa yllättävä ja outo kommentti hyvän jutun päätteeksi.

      Delete
  2. Lukijan tulkinta on hänen totuutensa. Jos sinulle arvon nimimerkki Anonyymi minun persoonani on välittynyt yllä mainitulla tavalla, niin tottahan se on silloin - sinulle. Sen verran olen saanut elämäni varrella palautetta, että voin kertoa sinulle. Et ole yksin mielipiteesi kanssa.

    ReplyDelete
  3. Tulin tälle palstalle HeSan keskuetelupalstalta. Hyvä, että noita lukuja vatvotaan tarkemmin. Eikä vain parjata gallup-demokratiaa. Sinällään tuo Hesarin eilinen juttu oli varsin hyvä lähestyminen aiheeseen. - Ja hämmästyttävän hyvinhän ne viime vaalien tulokset on mielipidekyselyillä ennakoitu. (Me) iäkkäämmät ihmiset vain voimme aiheuttaa taas pienen yllätyksen: aiemmin gallupit eivät saavuttaneet kännykkäihmisiä vaan lankapuhelimien omistajia. Nyt tilanne on toisinpäin.

    ReplyDelete
  4. Suomessa on otettu käyttöön uusi haukkumasana, jolla voidaan lopettaa keskustelu. Sana on: YLIMIELINEN.
    Se, että toinen keskustelija on oikeassa tai että hän selvästi osoittaa jonkin asian olevan pielessä tai väärin, voidaan aina syrjäyttää väittämällä kyseisen puhujan olevan "ylimielinen". Selvästi sanan käyttö on kopioitu usa-englannin usein käytetystä arrogant -sanasta.
    Tämä ilmiö näkyy myös työelämässä. Kolleegan, pomon tai alaisien mielipiteistä eikä faktoista tarvitse välittää, kun vaan saadaan leimattua puhuja ylimieliseksi. Väärässä oloa ei vaan voi tunnustaa.

    ReplyDelete
  5. Taidat kannattaa persuja, kun niin kovasti mainostat heidän gallup-kannatustaan. Vaalit ovat vielä kaukana ja Soiniakin saa äänestää vain Uudellamaalla. Kovasti aikaisessa vaiheessa Soinikin ministerin hattua itselleen sovittaa, varmaan numeroa 59.

    ReplyDelete
  6. Olen luvannut äänestää puoluetta, joka ottaa rationaalisen kannan pakkoruotsiin. Kannan ei tarvitse olla sama kuin omani. Rationaalisina perusteluina en tule hyväksymään mm. seuraavia:
    "Kaksikielisyys on rikkaus"
    "Ruotsin kieli on avain muiden kielten opintoihin"
    "Opiskelemalla ruotsia pääsemme osaksi pohjoismaista yhteisöä."
    "Ruotsia osaamalla voimme tehdä kauppaa ruotsalaisten kanssa."
    jne.
    Sen sijaan esimerkiksi seuraava argumentti on minusta rationaalinen.
    "Kannattamalla pakkoruotsia ja luistelemalla siitä käydystä keskustelusta takavasemmalle säilytämme hyvät välit RKP:n kanssa ja voimme jatkaa hallitusyhteistyötä. Se on puolueellemme tärkeämpää kuin kansan enemmistön mielipiteen huomioiminen."
    En takaa, että näillä perusteluilla arvokas ääneni rapsahtaisi, mutta ainakin se on mahdollista, mikä taas ei ole sitä edeltävien perustelujen kohdalla.
    Persut ovat toistaiseksi ainoat, jotka ovat puolueena ottaneet selkeän muilla kuin idiotismeilla perustellun linjan pakkoruotsiin. Kaima Soinia en aio äänestää, vaikka se uusimaalaisena olisikin minulle mahdollista. Henkilö, jonka suosikkijoukkue on pahimpien rähinöitsijöiden kannattama Millwall, ei voi olla uskottava missään muussakaan.
    Olen muuten lyönyt viime syksynä alkaen vetoja konjakkipuollosta (kolmen tähden Jallu lasketaan tässä yhteydessä vielä siksi) siitä, että Persut saavat vähintään 25 paikkaa kevään eduskuntavaaleissa. Vetoon tarttuvien määrä on kummasti hiipunut talven kuluessa. Syksyllä kättä päälle -tyyppejä riitti pelottavankin paljon. Ans kattoo. Veto on vielä voimassa uusillekin halukkaille.

    ReplyDelete
  7. En voi käsittää, etteikö esimerkiksi minulle se, että osaan sujuvasti sekä suomea että ruotsia olisi eduksi. Kaksikielisyys on rikkaus!

    ReplyDelete
  8. Logiikka on yhtä rautainen kuin kahden asunnon tapauksessa. Jos omistat kaksi asuntoa, niin varmaan koet tilanteen rikkautena. Sen sijaan jos pankki omistaa molemmat ja etkä saa toista kaupaksi, vaan lainan korot juoksevat molemmista, et varmaan koe tilannetta rikkautena. Olet kahden asunnon loukussa. Kaksikielisyys on rikkaus vain niille, jotka osaavat molempia. Muille se on rasite.
    Sen sijaan olen sitä mieltä, että aidosti kaksikielisiä pitäisi palkita reilusti niissä julkisissa ammateissa, joissa kaksi- tai useampi kielisyys on välttämätöntä toimenkuvan kannalta. Kuten vanhusten hoitotyössä kaksi- tai useampikielisessä ympäristössä. Eikä millään näennäiskorvauksilla, vaan ihan reiluilla palkanlisillä. Se, että kielitaidosta olisi selkeää rahassa mitattavaa hyötyä voisi houkuttaa opiskelemaan mm. ruotsia. Tätä kutsutaan porkkanamenettelyksi. Nyt on saatu maistaa lähinnä keppiä.

    ReplyDelete
  9. En voi ymmärtää, miten Timoa jatkuvasti pidetään ruotsin kielen vastaisena? Johtuneeko yleisestä luetun ymmärtämisen puutteesta?

    ReplyDelete
  10. Osaatko sanoa, mistä tuo luottamusvälin laskennassa käytetty luottamustason kerroin tulee?

    Googlettelemalla huomasin sille annettujen arvojen 1%, 5% ja 10% riskille (=luottamustasot 99%, 95% ja 90%) olevan 2.58, 1.96 ja 1.64 vastaavassa järjestyksessä.

    Millään katsomallani sivulla ei selitetty kuinka tuo kerroin lasketaan, enkä sitä osaa noista numeroista katsomalla tajuta (ehkä pitäisi osata!!).

    ReplyDelete
  11. Ne lasketaan normaalijakauman tiheysfunktion avulla. Sen matematiikka ei aukene aivan Ojalan laskuopin avulla. Hyvä kysymys, mutta en katsonut tarkempaa selitystä poikkitieteellisen palstan asiaksi.

    http://fi.wikipedia.org/wiki/Normaalijakauma

    ReplyDelete
  12. Nimimerkki Pikkutakki lausuu kuitenkin Iltalehdessä:

    "Professori Matti Wiberg varoitti, että gallup-uutisia kirjoittavat
    tilastotieteen peruskurssin reputtaneet toimittajat. Professori erehtyi.
    Osa toimittajista ei ole kurssia edes aloittanut.

    Tästä eteenpäin gallup-uutisten lukijoiden kannattaa kiinnittää huomiota
    virhemarginaaliin. Se on yksi toimittaja suuntaansa."

    ReplyDelete
  13. Tähänkin juttuun oli eksynyt pieni terminologinen virhe. Vaihteluväli on väli pienimmästä muuttujan arvosta suurimpaan muuttujan arvoon eli tässä tapauksessa väli [1.1,21.0]. Jutussa ilmoitettu erotus 21.0-1.1=19.9 sen sijaan on vaihteluvälin pituus, jos hiuksia aletaan halkomaan.

    ReplyDelete
  14. Näinhän tuo on. Kiitokset oikaisusta.

    ReplyDelete
  15. En tiedä menevätkö enää perille, koska hyvin vanha kirjoitus, mutta kiitokset kirjoittajalle erinomaisesta argumentoinnista. Harvoin näkee näin ihailtavaa logiikan käyttöä!

    ReplyDelete