Googlen flunssaepäonnistuminen osoittaa big datan ongelman

Onko enemmän dataa parempaa dataa? Jorge Royan

Kun puhutaan ”big datasta”, on usein siteerattu esimerkki: ehdotettu kansanterveystyökalu nimeltä Google Flu Trends. Siitä on tullut jonkinlainen big data -liikkeen keulakuva, mutta se ei ehkä olekaan niin tehokas kuin monet väittävät.

Big datan ideana on, että suuret tietomäärät voivat auttaa meitä tekemään asioita, joita pienemmät tietomäärät eivät pysty. Google hahmotteli Flu Trends -lähestymistapaa ensimmäisen kerran vuonna 2008 Nature-lehdessä julkaistussa artikkelissa. Sen sijaan, että luotettaisiin Yhdysvaltain tautien valvonta- ja ehkäisykeskuksen (CDC) käyttämään tautiseurantaan – kuten lääkärikäynteihin ja laboratoriokokeisiin – kirjoittajat ehdottivat, että epidemioita olisi mahdollista ennustaa Google-hakujen avulla. Influenssaan sairastuessaan monet amerikkalaiset etsivät sairauteensa liittyvää tietoa.

Googlen tutkimusryhmä keräsi yli 50 miljoonaa potentiaalista hakusanaa – kaikenlaisia lauseita, ei pelkästään sanaa ”flunssa” – ja vertasi näiden sanojen hakutiheyttä raportoitujen influenssan kaltaisten tapausten määrään vuosina 2003-2006. Näistä tiedoista kävi ilmi, että miljoonista lausekkeista 45 sopi parhaiten havaittuihin tietoihin. Tämän jälkeen työryhmä testasi malliaan vuoden 2007 epidemian tautiraportteihin. Ennusteet näyttivät olevan melko lähellä todellisia tautitasoja. Koska Flu Trends pystyi ennustamaan tautitapausten lisääntymisen ennen CDC:tä, sitä tituleerattiin big datan aikakauden tuloksi.

Vuosien 2003 ja 2008 välillä influenssaepidemiat Yhdysvalloissa olivat olleet vahvasti kausiluonteisia, ja niitä esiintyi joka talvi. Vuonna 2009 ensimmäiset tapaukset (CDC:n raportoimat) alkoivat kuitenkin pääsiäisenä. Flu Trends oli jo tehnyt ennusteensa, kun CDC:n tiedot julkaistiin, mutta kävi ilmi, että Googlen malli ei vastannut todellisuutta. Se oli aliarvioinut huomattavasti ensimmäisen taudinpurkauksen kokoa.

Ongelma oli se, että Flu Trends pystyi mittaamaan vain sitä, mitä ihmiset etsivät; se ei analysoinut, miksi he etsivät kyseisiä sanoja. Kun ihmisen panos poistettiin ja raakadatan annettiin tehdä työnsä, mallin oli tehtävä ennusteensa käyttäen vain hakukyselyjä edellisiltä vuosilta. Vaikka nämä 45 termiä vastasivat säännöllisiä kausiluonteisia taudinpurkauksia vuosina 2003-8, ne eivät vastanneet vuonna 2009 esiintynyttä pandemiaa.

Kuusi kuukautta pandemian alkamisen jälkeen Google – jolla oli nyt jälkiviisaus – päivitti mallinsa niin, että se vastasi vuoden 2009 CDC:n tietoja. Näistä muutoksista huolimatta Flu Trendsin päivitetty versio joutui jälleen vaikeuksiin viime talvena, kun se yliarvioi influenssaepidemian laajuuden New Yorkin osavaltiossa. Vuosien 2009 ja 2012 tapaukset herättivät kysymyksen siitä, kuinka hyvin Flu Trends pystyy ennustamaan tulevia epidemioita sen sijaan, että se vain löytäisi malleja aiemmista tiedoista.

Uudessa analyysissä, joka julkaistiin PLOS Computational Biology -lehdessä, yhdysvaltalaistutkijat raportoivat, että Googlen Flu Trendsin arviossa influenssan ajoituksesta ja intensiteetistä on ”merkittäviä virheitä”. Tämä perustuu Google Flu Trendsin ennusteiden ja todellisten epidemiatietojen vertailuun kansallisella, alueellisella ja paikallisella tasolla vuosina 2003-2013

Silloinkin kun hakukäyttäytyminen korreloi influenssatapausten kanssa, malli arvioi toisinaan väärin tärkeitä kansanterveydellisiä tunnuslukuja, kuten taudinpurkauksen huipun kokoa ja kumulatiivisia tapauksia. Ennusteet osuivat erityisen harhaan vuosina 2009 ja 2012:

Alkuperäistä ja päivitettyä Google Flu Trends (GFT) -mallia verrattiin CDC:n influenssan kaltaisten sairauksien (ILI) tietoihin. PLOS Computational Biology 9:10

Vaikka he kritisoivat Flu Trends -mallin tiettyjä näkökohtia, tutkijat ovat sitä mieltä, että internetin hakukyselyjen seuranta voisi vielä osoittautua arvokkaaksi, etenkin jos se yhdistettäisiin muihin seuranta- ja ennustemenetelmiin.

Muut tutkijat ovat myös ehdottaneet, että muut digitaalisen tiedon lähteet – Twitter-syötteistä matkapuhelinten GPS-järjestelmiin – voivat olla hyödyllisiä välineitä epidemioiden tutkimisessa. Sen lisäksi, että tällaiset menetelmät auttavat epidemiaepidemioiden analysoinnissa, tutkijat voivat niiden avulla analysoida ihmisten liikkumista ja kansanterveystiedon (tai väärän tiedon) leviämistä.

Vaikka verkkopohjaisiin työkaluihin on kiinnitetty paljon huomiota, on olemassa toisenlaista big dataa, jolla on jo nyt valtava vaikutus tautitutkimukseen. Genomin sekvensointi antaa tutkijoille mahdollisuuden koota yhteen, miten taudit tarttuvat ja mistä ne voivat olla peräisin. Sekvenssidata voi jopa paljastaa uuden tautimuunnoksen: aiemmin tällä viikolla tutkijat ilmoittivat uudesta denguekuumevirustyypistä.

Ei ole epäilystäkään siitä, etteikö big datalla olisi lähivuosina merkittäviä sovelluksia niin lääketieteessä kuin muillakin aloilla. Puolustajien on kuitenkin oltava varovaisia sen suhteen, mitä he käyttävät ideoiden havainnollistamiseen. Vaikka onnistuneita esimerkkejä on syntymässä runsaasti, ei ole vielä selvää, että Google Flu Trends on yksi niistä.

Vastaa Peruuta vastaus