contatore visite

martedì 4 maggio 2021

La storia di GFT (Google Flu Trends), l'algoritmo di Google che doveva rivoluzionare il modo di far scienza.

L'influenza stagionale è da sempre una tra le malattie più difficili da prevedere: una vera "bestia nera" per i sistemi sanitari dei paesi più avanzati, per i quali rappresenta sia un alto costo in termini di mortalità (negli USA tra i 12.000 e gli 80.000 decessi per anno, in Italia - dove gli anziani sono più numerosi - intorno ai 10.000) che di costi economici (giornate di lavoro perse, impennata della domanda presentata ai servizi sanitari, ecc.).


Da qui l'importanza per i manager pubblici di monitorare l'evoluzione delle relative epidemie: cosa che di norma avviene consultando FluView, il rapporto settimanale compilato dai CDC di Atlanta.

FluView ha le potenzialità per presentarsi come un ottimo mezzo per ottenere informazioni sul loro immediato futuro (predizioni a breve termine), tuttavia risulta afflitto da un grave limite: la lentezza con la quale i dati sono raccolti (essi vengono trasmessi dagli ospedali e dai presidi medici non certo in tempo reale) ed aggregati a cura del servizio statistico.

Il risultato è che un report FluView appena pubblicato dipinge la situazione della settimana precedente.

Nel 2008 Google mise gratuitamente a disposizione un servizio web, battezzato Google Flu Trends, il cui fine era aiutare a prevedere i focolai di influenza; costituito da un algoritmo di AI, aggregava le query presentate al motore di ricerca basate su termini legati in qualche modo alla patologia, quali ad esempio: "influenza", "dolori", "malessere", "febbre", "antifebbrile pediatrico", ecc.

Google tracciava oltre 50 milioni di termini che i suoi utenti di tutto il mondo avrebbero potuto cercare ai primi sintomi di influenza.

Tuttavia è opportuno considerare che non sempre chi si trovi a letto con l'influenza dedichi il suo tempo a far ricerche su Google sul proprio malessere; neppure tutti coloro che digitano "febbre" sul motore di ricerca ne sono automaticamente colpiti.

La soluzione ideata dal team sviluppatore dell'algoritmo è stata quella di "guardare al passato": mettere cioè in relazione, utilizzando le serie storiche degli anni precedenti, la frequenza delle ricerche delle parole chiave "attenzionate" con gli andamenti evidenziati dai FluView reports nello stesso periodo.

Si trattava cioè di attuare un utilizzo intelligente dei big data che in quel periodo si andavano accumulando con ritmo esponenziale.


Negli anni immediatamente successivi tale metodo predittivo sembrò funzionare con precisione puntuale.

La stessa metodologia, pensavano gli sviluppatori, avrebbe potuto esser applicata per ottenere previsioni attendibili anche in contesti del tutto diversi, quali l'economia, la demografia, l'urbanistica, la sociologia, il comportamento e molte altre scienze sociali.

Chris Anderson, editore di Wired, scrisse nel 2008 un articolo intitolato "la fine della teoria: il diluvio di dati rende il metodo scientifico obsoleto" (1) nel corso del quale pronosticava l'abbandono del metodo scientifico classico, secondo il quale le correlazioni riscontrate devono esser giustificate da un impianto teorico (una ricerca accurata e verificata sperimentalmente di un rapporto causa-effetto) che ne dia giustificazione prima di poterne trarre conclusioni (e cioè prima di poter azzardare previsioni per il futuro).

"Cosa può imparare la scienza da Google?" si chiedeva Anderson.

Nello stesso periodo GFT ha fornito stime dell'attività influenzale per più di 25 paesi.

Poi, del tutto inaspettatamente, nel 2013 iniziò a sbagliare le previsioni indicando valori che erano più del doppio del numero di casi che si sarebbero verificati: dall’agosto 2011 al settembre 2013 l'algoritmo predittivo riuscirà a fornire previsioni credibili sull’andamento dell’influenza solo in 8 settimane su 100.

In silenzio Google "eutanasizzò" il progetto due anni più tardi, nel 2015, senza che nel frattempo il margine di errore si fosse ridotto.


Il fallimento è sicuramente da imputarsi - anche - alla mancata previsione dell'influenza suina (A-H1N1) del 2009, una pandemia non stagionale che prese l'avvio in Messico nel mese di agosto per diffondersi rapidamente in tutto il mondo.

Sembrò allora lampante che GFT contribuisse a prevedere la stagione invernale più che quella influenzale!

Nonostante fossero in seguito state apportate modifiche all'algoritmo originale, l'incidenza degli "svarioni" non diminuì affatto negli anni seguenti.


Ancor oggi non è del tutto chiaro quale sia stato il vero motivo per il quale GFT ha iniziato a fallire le previsioni dopo un periodo nel quale aveva fatto centro.

Sicuramente, come hanno fatto notare alcuni ricercatori (2), un problema di fondo dell'algoritmo è legato all'incapacità di rendere irrilevanti le ricerche sul motore correlate all'influenza, ma che non hanno nulla a che vedere con lo stato di salute di chi le effettua.

Tuttavia, da sola questa, spiegazione non può render conto delle ragioni profonde di questo insuccesso.

D'altra parte, l'esperienza con GFT ha contribuito a raffreddare gli entusiasmi suscitati dall'uso dei big data come strumento per ottenere in modo continuativo previsioni attendibili (attraverso i molteplici algoritmi predittivi che vengono sfornati di continuo in questi anni); ci ha costretto a prestare una maggiore attenzione all'evoluzione dei fenomeni che ci prefiggiamo di studiare, pianificando frequenti checks in grado di allertare con prontezza il ricercatore qualora si osservino scostamenti significativi tra le predizioni ed i valori riscontrati.


Note:

(1) https://www.wired.com/2008/06/pb-theory/

(2) nel marzo 2014 David Lazer, Ryan Kennedy, Gary King e Alessandro Vespignani hanno pubblicato uno studio sulla rivista Science dal titolo The Parable of Google Flu: Traps in Big Data Analysis (https://science.sciencemag.org/content/343/6176/1203)



Altre fonti:

https://en.wikipedia.org/wiki/Google_Flu_Trendshttps://en.wikipedia.org/wiki/Google_Flu_Trends

https://www.cdc.gov/flu/weekly/index.htm

Nessun commento:

Posta un commento

Elenco posts

 Elenco dei miei posts scritti nel periodo dal 28/3/18 all'11/04/24:                                                    ( su FB ) - vide...