Wednesday, 18 June 2014

Benfordin laki




Hesarin tiedepalstalla oli tiistaina 17.6. juttu Benfordin laista. Kuten Hesarin tiedejutut usein, varsinkin populaaria matematiikkaa ja fysiikkaa käsittelevät jutut, niin tämäkin oli vähän sinne päin.

Benfordin lain mukaan tietyn tyyppisissä lukusarjoissa pienet numerot ovat yleisempiä luvun ensimmäisenä numerona kuin suuret luvut. Ykkönen on yleisin, sen todennäköisyys on noin 30 %, kun taas ysi alussa on keskimäärin alle 5 %:ssa luvuista.

Ensimmäisen numeron suhteelliset osuudet Benfordin lain mukaisessa jakaumassa

Hesarin jutussa pääanalyytikko Risto Hiltusen antama yksinkertaistettu selitys saattaa jäädä useimmille lukijoille käsittämättömäksi.

"Ajattele vaikka pörssiosaketta, jonka arvo on aluksi yksi euro ja jonka arvo nousee 20 prosenttia vuodessa.

Ensimmäisenä vuonna osakkeen kurssi on 1,0 euroa, seuraavana vuonna 1,22 euroa ja kolmantena 1,44 euroa.  Kurssin nousu yhdestä kahteen euroon vie viisi vuotta, kahdesta kolmeen euroon enää neljä vuotta

Kun vuodet etenevät, kasvuvauhti kiihtyy. Yhdeksiköllä alkavaa arvoa ei saavuteta lainkaan, sillä geometrisessa sarjassa kasvava pörssikurssi hyppää suoraan 8 eurosta 10 euroon."

Sivuutetaan nyt se, että osakekurssit noteerataan päivittäin, ei vuosittain, tällä 20 % vuotuisella kasvulla kurssin nousu eurosta kahteen euroon kestää 3,8 vuotta sekä että 1,2 x 8 = 9,6. Koitetaan sen sijaan miettiä, mitä tässä oikein yritetään sanoa? Varmaan lähinnä sitä, että jos lukua 1 aletaan kertoa luvulla 1,2, niin tulokseksi saadaan lukusarja, jossa pieniä numeroita on useimmin luvun alussa kuin suuria. Eli tämä puhtaasti matemaattinen lukusarja noudattaa matemaattista Benfordin lakia. Ei liene kovin hämmästyttävää, koska Benfordin lain matemaattinen muoto on johdettu juuri geometrisen lukusarjan perusteella. 

Lukusarja, jossa ykköstä on kerrottu luvulla 1,2. Olen ryhmitellyt eri numeroilla alkavat omille riveilleen. Nyt lopetin sarjan 46:een, muta jos lukuja kerättäisiin riittävät paljon, niin ne alkaisivat pikkuhiljaa noudattaa Benfordin jakaumaa yhä paremmin. 

Siinä kirjoittaja on ihan oikeassa, että pörssikurssit noudattavat riittävän suuressa aineistossa varsin hyvin Benfordin lakia. Se johtuu niiden luonteesta. Pörssikurssien arvot nousevat ja laskevat prosentuaalisesti, eikä niiden kasvulla ja vähenemisellä ole merkittäviä rajoittavia tekijöitä. Esimerkkiaineistossa halvin osake maksoi 4 senttiä (Sarasvuon Trainer's house) ja kallein yli 46.000 euroa. Kysymys on yksinkertaisesti siitä, että samansuuruinen prosentuaalinen muutos ykkösellä alkavaan lukuun antaa edelleen tulokseksi ykkösellä antavan luvun todennäköisemmin kuin millä muulla numerolla alkavaan lukuun. 1,6 x 1,2 = 1,92, mutta 8 x 1,2 = 9,6 ja 9 x 1,2 = 10,8, eli jo uusi ykkösellä alkava luku. Avainsana ei ole siis kasvu, vaan prosentuaalinen muutos.

Satunnaisen päivän pörssikurssit. Olen merkannut punaisella ykkösellä alkavat (yksi jäänyt merkkaamatta). Ykkösellä alkavia on 32/132 = 24,2 %. Jos joku haluaa laskea koko jakauman, niin aineisto on tähän hyvä, joskin lukumäärä saisi olla reilusti suurempi. 

Muita tyypillisiä näin käyttäytyviä lukuja ovat mm. tuotteiden hinnat, kaupunkien ja valtioiden väkiluvut, radioaktiivinen hajoaminen. Niissä Benfordin malli toimii hyvin. Sehän ei ole siinä mielessä laki, että se pakottaisi asiat toimimaan sen määrittelemällä tavalla.

Kirjoittaja jatkaa: "PÖRSSIKURSSIEN tapaan monet muut elävän elämän luvut ovat syntyneet kasvun tuloksena. Ne noudattavat Benfordin lakia tarkasti."

Tämä nyt on täyttä höpö höpöä. Kasvuun perustuvat lukusarjat noudattavat Benfordin lain kuvailemaa matemaattista mallia enemmän ja vähemmän tarkasti. Jotkut eivät juuri lainkaan. Kuten vaikka lapsiperheiden lasten lukumäärät. Lapsiluku kun ei lisäänny geometrisessä sarjassa (yleensä), vaan aritmeettisessa. Lisäksi lukujonoon liittyy monia reunaehtoja, kuten tavoitteita tietystä ideaalista lapsien määrästä. Meillähän se on ollut perinteisesti kaksi ja vielä eri sukupuolta, poika mieluusti vanhempi. Kiinan yhden lapsen politiikka antoi huutia Benfordin lain jakaumalle.

Lasten määrät suomalaisissa lapsiperheissä. Järjestys on Benfordin mukainen, mutta 2-lapsiset perheet ovat "yliedustettuja". 

Benfordin laki on suuntaa antava, mikä ilmenee mm. tästä. Maailman korkeimpien rakennelmien korkeuksien ensimmäiset numerot antavat eri jakauman, riippuen siitä, missä yksikössä korkeus on annettu. 

Artikkelissa mainittu lantin heitto -esimerkki on sinänsä valaiseva siitä, että asioiden tilastollinen käyttäytyminen on ihmisillä yleensä aika lailla hämärän peitossa. Benfordin lain kanssa lantinheitolla ei kuitenkaan ole mitään tekemistä.

Sen sijaan artikkelin lopussa oleva kertomus paljastaa Benfordin lain todellisen hyödyn. Jos lukusarjassa, jonka voisi olettaa noudattavan pääpiirteissään Benfordin lakia, havaitaan merkittävää poikkeamaa tästä, niin se antaa perustellun aiheen epäillä lukusarjassa olevan jotain vialla. Kuten vaikka kreikkalaisissa talousluvuissa.

Lopuksi vielä kerrotaan, että Benfordin laki toimisi useimmissa elävän elämän lukujoukoissa. Todellisuudessa useimmissa se ei toimi. 


5 comments:

  1. Tässä poikkitieteilijälle kommentoitavaa:

    Tuoreessa Tähdet ja avaruus-lehdessä kirjoitetaan Kuun pimeästä puolesta:
    "Kuu syntyi kun Marsin kokoinen protoplaneetta törmäsi maapalloon. Aluksi kiertolaisemme sijaitsi 10-20 kertaa lähempänä maapalloa kuin nykyään. Samalla sen pyörähdysaika lukkiintui niin, että Kuu edelleen kääntää aina saman puolensa maapalloa kohti. "

    Missä Kuu oli?

    Terveisin
    Jaakko Ruohtula

    ReplyDelete
    Replies
    1. En oikein ymmärrä kysymystä. Voitko tarkentaa?

      Delete
  2. Mutta entä Benfordin laki ja hinnat?

    Kaupasta ja tuotteesta riippumatta ovat hinnan toiseksi viimeinen ja kolmanneksi viimeinen numero yhdeksäisiä (9). Onko tämä Benfordin lain jonkin pykälän mukaista vai onko tästä säädetty ihan oma lakinsa?

    ReplyDelete
    Replies
    1. Sille on ihan oma lakinsa.

      http://en.wikipedia.org/wiki/Price_point

      Delete
  3. Katunumeroiden määrässä kuulemma toimii, vaikka siinä ei ole mitään prosentuaalista. Ykkösellä alkavia on eniten.

    ReplyDelete