L'ultimo mezzo secolo ha visto il grande successo della metodologia statistica applicata alle indagini sulla salute della popolazione al fine di individuare "fattori di rischio" collegati all'insorgenza di patologie quali il cancro, malattie del sistema circolatorio o respiratorio, malattie del sistema nervoso, sindromi degenerative e molte altre.
Tali indagini vengono condotte analizzando i diversi esiti che si possono riscontrare nella storia di gruppi di individui inizialmente omogenei: la speranza dei ricercatori è infatti quella di individuare particolari fattori ambientali, stili di vita o tratti genetici la cui presenza risulti fortemente correlata all'insorgenza della malattia (1).
I risultati vengono poi generalmente espressi in termini di probabilistici.
Rilevare, relativamente ad un soggetto, la presenza di un insieme specifico di geni nel suo DNA, l'adozione di una particolare abitudine alimentare, la dimora per lunghi periodi in aree del territorio che risultino contaminate da sostanze inquinanti, permette di calcolare un valore percentuale genericamente indicato come "tasso di rischio": esso ci fornisce informazioni sulla "probabilità aggiuntiva" di sviluppare una specifica patologia da parte di un soggetto che rientri nella casistica osservata, rispetto al rischio medio proprio dell'intera popolazione cui questi appartiene (2).
Questo tipo di ricerche ha effettivamente permesso di scoprire molti fattori di rischio ed ha spinto governi e servizi sanitari ad adottare politiche di screening, informare i propri cittadini sui pericoli contestuali a certe abitudini, agire sull'ambiente per migliorarne la compatibilità con la vita umana: grazie ad esse sono state risparmiate parecchie vite.
A dispetto di quanto sinora affermato, dobbiamo rassegnarci all'evidenza che le probabilità forniscono molta meno "conoscenza" di quanto ci si potrebbe aspettare: spesso ne viene sopravvalutata l'importanza pratica, e si fa fatica a distinguere le situazioni in cui l'approccio probabilistico funziona rispetto a quelle in cui non genera alcun risultato degno di nota.
Winnie Langley ha compiuto i 100 anni nel 2007 fumando ininterrottamente da quando ne aveva soltanto 17: si stima che la sigaretta accesa con le candeline della torta preparata per festeggiare il secolo di vita sia stata la sua 170 millesima.
Susannah Mushatt Jones nacque invece nel 1899 e morì nel 2016, poco prima di compiere 117 anni: la donna più longeva nella storia degli USA era solita fare colazione con 4 fette di bacon e consumarne altre durante il giorno.
Si tratta, in entrambi i casi, di comportamenti assolutamente sconsigliati dall'OMS in quanto "fortemente correlati" all'insorgenza di due diverse forme di carcinoma: cancro ai polmoni nel primo caso ed al colon-retto nel secondo.
"Tre fette di bacon al giorno comportano un aumento del rischio di sviluppare un cancro al colon-retto pari al 20%" è la classica modalità con la quale il pubblico viene informato dell'esistenza di una correlazione statistica tra un comportamento a rischio e l'insorgenza di una patologia.
In nota 2 ho descritto il metodo utilizzato per ottenere questo valore: si confronta l'incidenza del cancro riscontrata in una popolazione con quella relativa ad un suo sottoinsieme i cui elementi siano accomunati dall'abitudine di consumare bacon con regolarità.
Questo vale per il gruppo "ad alto rischio" nel suo insieme, ma cosa significa per il singolo individuo "esser soggetto ad un aumento di rischio pari al 20%"?
Per capire il significato di questa domanda dobbiamo innanzitutto richiamare le famose "frequenze naturali" al cui utilizzo - in alternativa ai valori espressi in percentuale - Gerd Gigerenzer invita medici, ricercatori, divulgatori e giornalisti (3)
Si prendano due gruppi di 100 persone ciascuno, il primo - che definiremo "gruppo ad alto rischio" - costituito da soggetti che sono soliti far colazione con il bacon, l'altro formato da chi non abbia questa abitudine ("gruppo a basso rischio").
L'incidenza del cancro al colon-retto rilevato sulla popolazione anglosassone nel suo insieme risulta pari al 5%, mentre dall'osservazione dei due gruppi risulta che l'abitudine a consumare pancetta comporti un aumento del rischio pari al 20%.
Nel "gruppo a basso rischio" ci attendiamo di trovare circa 5 persone che svilupperanno comunque la patologia, pur senza consumare bacon, mentre in quello "ad alto rischio" ne troveremo ... forse sei!
Se passiamo dai due gruppi alla popolazione, sappiamo che, ogni 100 soggetti, 5 di loro svilupperanno questo tipo di cancro: quanti di questi faranno parte del gruppo ad alto rischio?
Se il numero dei soggetti ad alto rischio rispetto alla popolazione è ridotto - in genere avviene così - potremmo scoprire che tutti e 5 i nuovi malati appartengono ad una categoria a basso rischio (ad esempio solo uno su 1000 casi di cancro proviene dalla categoria ad alto rischio).
Nel 2017 fece sensazione la notizia pubblicata dalla stampa danese secondo la quale il consumo di "ibuprofene" - un farmaco antidolorifico - risultava comportare un aumento del rischio d'infarto negli ultracinquantenni in una misura pari al 30%.
All'apparenza una notizia allarmante, ma prima di chiederne il bando dalle farmacie proviamo a chiederci cosa possa significare "+30%" in termini di vite umane.
Iniziamo con l'osservare che l'informazione espressa in percentuale non ci dice assolutamente nulla in merito: non sappiamo quanti eventi si verificassero prima dell'uso del farmaco, né se gli attacchi di cuore siano comuni o meno tra i danesi.
Indagando le statistiche del paese si scopre come ogni anno in Danimarca venga colpita da infarto mediamente una persona su 800 tra coloro che hanno più di 50 anni.
Rapportando il dato al periodo di un mese otteniamo un valore pari ad un infarto su circa 10.000 ultracinquantenni.
Dunque un aumento di rischio del 30% comporta che da un ultracinquantenne ogni 10.000 si passi ad 1,3 su 10.000: si registra cioè un infarto in più ogni 32.000 ultracinquantenni (4)
In entrambi i casi citati, per la stragrande maggioranza degli individui adottare un comportamento ad alto rischio sembra non debba portare ad alcuna conseguenza negativa significativa.
Da ciò consegue la scarsa rilevanza delle probabilità per la nostra capacità di formulare previsioni in tali contesti.
Anche quando conosciamo tutti i fattori di rischio di una certa patologia, non riusciamo a migliorare la capacità predittiva in relazione al singolo individuo: non siamo cioè in grado di sapere se nel breve periodo si ammalerà un individuo facente parte della categoria ad alto rischio oppure uno della categoria a rischio limitato.
Anzi!
Nella quasi totalità dei contesti la maggior parte di coloro che svilupperanno la patologia non risulterà far parte della categoria definita "ad alto rischio": infatti appartenere a quella "a basso rischio" non significa essere immuni, ma semplicemente disporre di una probabilità minore relativamente ad un evento avverso.
Poiché poi i gruppi "ad alto rischio" sono poco numerosi - e "basso rischio" non significa assolutamente "rischio zero" - peserà di più la numerosità di coloro che non ne fanno parte nella composizione del gruppo degli sfortunati (5).
Tale "debolezza predittiva" vale tuttavia soltanto a livello del singolo individuo: aumentando le dimensioni del gruppo si nota un incremento dell'affidabilità relativa alle previsioni probabilistiche.
Sappiamo cioè stimare con efficacia il "rischio medio" per un gruppo.
Il paradosso sta nel fatto che la certezza sulle probabilità di un evento su grande scala possa coesistere con l'ignoranza su piccola scala per lo stesso evento.
Fumare provoca il cancro ai polmoni perché questo evento è più frequente tra i fumatori rispetto a chi se ne astiene: tuttavia se io ho questa dipendenza, mi ammalerò a causa sua o trascorrerò tranquillo la mia vita di fumatore come la centenaria Winnie?
Nessuno è in grado di rispondere a questa domanda.
Lo stesso principio vale per le terapie: "qual è la probabilità che un farmaco mi faccia bene la prossima volta che lo assumerò?"
Sembra incredibile, ma le probabilità di successo di una cura misurate sul singolo individuo possono rivelarsi incredibilmente basse!
Le procedure per l'autorizzazione alla commercializzazione di un farmaco sono estremamente rigide, e l'efficacia dello stesso viene monitorata per parecchio tempo anche dopo la sua comparsa sui banconi delle farmacie.
Nonostante ciò non siamo assolutamente in grado di dare risposta certa alla domanda formulata (6).
Talora si riscontrano veri e propri paradossi: farmaci la cui efficacia è provata dagli studi sulle popolazioni ma che non funzionano quasi mai sul singolo individuo (7).
Le probabilità infatti descrivono un effetto su larga scala che tuttavia potrebbe non manifestarsi nella stragrande maggioranza dei casi individuali.
Quanto è dunque affidabile la medicina?
Di norma si misura l'efficacia di un farmaco sui gruppi e non sui singoli individui, anche se di recente sono stati fatti tentativi per comunicare il "grado di incertezza individuale"; la rivista "Nature" ha pubblicato un grafico dove sono mostrati i cosiddetti NNT (Numbers Need to Treat), cioè quante persone bisogna trattare per attendersi un risultato positivo.
Stabilite le soglie utilizzate per definire cosa si intenda per " terapia efficace", nell'immagine allegata viene usata l'icona dell'omino grigio per rappresentare la tendenza di un farmaco ad esser risolutivo, quella dell'omino nero invece per rappresentare la mancanza di un effetto positivo (cioè: grigio -> farmaco ha funzionato, nero -> non ha funzionato).
I 10 farmaci presenti in figura sono tutti approvati da FDA, sono molto famosi ed in loro la maggioranza dei medici ripone piena fiducia.
Il loro effetto positivo è stato talvolta "misurato" in maniera del tutto attendibile: osservando una popolazione durante gli anni è risultato che alcuni di essi abbiano contribuito a dimezzare i casi di una specifica patologia, addirittura in alcuni contesti ad eliminarla del tutto.
Tuttavia ... la prevalenza degli "omini neri" su quelli grigi ci fornisce un'informazione spiazzante: la maggior parte delle volte tutti questi farmaci NON FUNZIONANO!
La situazione migliore tra quelle rappresentate vede che su quattro pazienti cui venga prescritto il prodotto, tre di essi non proveranno alcun effetto positivo (e naturalmente nessuno è in grado di indicare in anticipo chi sarà il quarto fortunato).
Nel caso del Nexium (acidità di stomaco) potrebbe non vedersi alcun effetto nel 96% dei casi: significa che su 25 soggetti che vanno dal medico per farselo prescrivere, 24 rimarranno delusi (e nessuno saprà mai se al 25esimo il disturbo sarà passato da sé oppure davvero per l'azione del farmaco).
Dunque, in base ai dati disponibili, la nostra capacità di prevedere quando un farmaco risulti efficace su un dato individuo è praticamente nulla.
In alcune situazioni gli NNT possono addirittura raggiungere valori altissimi, nell'ordine delle migliaia.
La logica ci porta a dedurre che sia d'uso trattare con certi farmaci un numero elevato di pazienti - e tra loro anche chi non ne avrebbe bisogno - pur di ottenere un beneficio "di gruppo"; spesso non siamo infatti in grado di capire se un farmaco abbia funzionato, quando ha funzionato e con chi ha funzionato.
Esempio rivelatore di questa situazione è quello della prescrizione delle "statine": in un gruppo a rischio moderato il farmaco viene assunto da 20 persone ma il beneficio è per una sola.
Infatti solo un soggetto su 20, in assenza di somministrazione delle stesse, avrebbe rischiato un infarto: ma non sappiamo chi (né prima né a posteriori); e così 19 persone si trovano ad aver assunto il farmaco senza averne alcun bisogno.
L'infarto è una conseguenza identificabile con certezza: ma che dire nel caso di un farmaco contro il mal di testa?
Il punto è che in uno studio clinico la variabilità individuale nella risposta ad un farmaco viene aggregata a quella di tutti gli altri partecipanti.
E questo aspetto ha valenza anche relativamente alle variazioni che si possono verificare nello stesso individuo in tempi diversi: se una singola somministrazione di un farmaco non mi ha provocato alcun effetto, devo dedurne di essere un "non responder" (8), magari a causa dei miei geni?
Certamente no! La dose successiva potrebbe infatti sortirlo.
Il nostro corpo è complesso e l'equilibrio che ne determina la salute è il risultato dell'interazione di numerosissime variabili, gran parte delle quali ci sono sconosciute; praticamente è impossibile ricostruire i processi attraverso i quali un dato caso clinico si concluda con l'esito osservato.
Tuttavia sappiamo che, ad esempio, nel 20% dei casi trattati quel particolare farmaco ha sortito effetti positivi: quindi ci troviamo di fronte ad una "conoscenza statistica robusta, tuttavia debole a livello del singolo individuo".
E' una situazione paragonabile al lancio di un dado.
In entrambi i casi lo svilupparsi di un evento è governato da leggi deterministiche; il risultato finale tuttavia dipende da un'infinità di variabili (la velocità, l'altezza dalla quale viene lasciato cadere, la temperatura e l'umidità dell'aria, la rugosità della superficie sulla quale rimbalza, le caratteristiche fisiche del dado stesso, e così via) tra loro interagenti.
Non siamo in grado né di identificarle tutte quante, né di misurarle con la necessaria precisione.
Tuttavia, qualora il dado non sia truccato, possiamo prevedere come la frequenza con cui uscirà ogni faccia tenda ad esser la stessa, a patto che i lanci siano numerosi.
Rimane un'ultima domanda: possiamo quindi utilizzare gli NNT quale indicatore affidabile delle probabilità di successo di un farmaco?
La risposta è negativa, e per molte ragioni.
Prima fra tutte la soggettività del concetto di "successo": come lo misuriamo?
Le conoscenze su larga scala sono affette da una così grande incertezza generale che diventa impossibile capire nel singolo individuo "cosa provochi cosa" e con che efficacia.
Ci troviamo a pensare per categorie generali, ma dobbiamo convivere con la complessità dell'esperienza.
Mentre a livello di popolazione siamo in grado di identificare una causa con certezza; a quello individuale spesso non è possibile.
Le regole su larga scala sono cioè diverse da quelle su piccola scala.
Esempio chiarificante dell'importanza della scala alla quale osserviamo un fenomeno è il seguente.
Immaginiamo di voler studiare le cause di un'alta incidenza di tumori al polmone rilevata in una popolazione senza esser coscienti che ne sia il fumo la vera causa:
- in un paese dove tutti fumano ci troveremo necessariamente ad analizzare soltanto i comportamenti divergenti, e così magari identificheremo cause errate.
- se invece il vizio del fumo riguarda soltanto una minoranza, avremo la possibilità di identificare in coloro che sono soggetti a questa dipendenza (divergenti) una maggior incidenza della patologia rispetto alla media, dunque di stabilire una correlazione fumo-cancro.
Ecco dunque come ad una data scala la causa preponderante risulti ovvia, mentre ad una più piccola essa sparisca.
Cadiamo spesso nell'errore di pensare di poter capire cosa faccia ammalare una data persona - e non un'altra - esclusivamente dal confronto: tuttavia, studiando solo le differenze tra "chi" rischiamo di perder di vista "il perché".
Concentrandoci invece sulle differenze tra "quanti" ed ignorando il "chi", possiamo vedere con chiarezza gli effetti su larga scala.
Geoffrey Rose scrisse nel 1985 un interessante articolo intitolato "Sick individuals and sick population" dove affermava:
"la causa più difficile da identificare è quella universalmente presente perché non ha effetto sulla distribuzione della malattia".
Ciò che distingue i gruppi non ha nulla a che vedere con le caratteristiche degli individui.
Oggi le probabilità associate ad eventi pericolosi tendono ad esser molto piccole, spesso piccolissime: ma, come afferma Gigerenzer, il doppio di un rischio molto piccolo è ancora un numero molto piccolo, forse trascurabile.
In statistica si parla di "problema dell'ignoranza del tasso di base": l'effetto è dare una sembianza di utilità ad applicazioni ingenue del calcolo delle probabilità, nascondendone inoltre le conseguenze dannose di cui parlerò tra un attimo.
Gigerenzer ci ha più volte messo in guardia circa il rischio dell'eccedenza dei "falsi positivi" rispetto a coloro che "positivi" lo sono davvero, specie qualora si tratti di utilizzare dati statistici per prender decisioni - relativamente ai singoli - che possano comportare conseguenze severe.
Un test sviluppato per identificare chi sia portatore di una data patologia, pur presentandosi con un'affidabilità pari al 98%, comporta l'errata identificazione di un 2% di persone sane come da essa affette.
Se poi si tratta di una campagna di screening effettuata su larga parte della popolazione - oggi di gran moda - poiché "i sani" sono la stragrande maggioranza, si rischia di intervenire, con cure farmacologiche o peggio ancora con interventi chirurgici non necessari, su decine di migliaia di persone in ottimo stato di salute (9)
Una medicina che imponga screening a tappeto potrebbe provocare più danni che vantaggi alla collettività nel suo complesso (vedi Gerd Gigerenzer, "Imparare a rischiare"): esempio ne sono le tante mastectomie indotte da uno screening per il cancro al seno in donne perfettamente sane.
La confusione tra "causa" e "fortuna".
"Il fumo provoca il cancro al polmone perché una comunità di fumatori ne è colpita in modo più frequente rispetto ad una comunità dove non esista questo vizio" scrive Blastland; "tuttavia" continua "Winnie è arrivata a superare il secolo pur fumando perché è stata fortunata" (mentre molti altri, aggiungerei io, si sono ammalati senza aver mai fumato una sigaretta).
L'autore di "la metà nascosta" ci mette in guardia dal confondere questi due termini: ad una scala più elevata il nesso causale risulta chiaro, a livello di individuo prevale l'azione di mille altre variabili (la fortuna).
Spesso la confusione che se ne fa, specie in sede di comunicazioni al pubblico, nasconde la malafede: "se Winnie è sopravvissuta 100 e passa anni, ALLORA il fumo non fa poi così male, è una questione di FORTUNA", potrebbero sostenere le multinazionali dei tabacchi.
Talvolta sono i governi ad attribuire alla fortuna (sfortuna) la colpa dei propri insuccessi.
Una campagna di screening che comporti l'impiego di ingenti risorse per ridurre un dato rischio del 30% è da considerarsi una buona spesa? La risposta dipende da quanto significhi 30% in termini di persone: una, dieci, mille, un milione?
Un recente metastudio suggeriva non esistesse un consumo sicuro di alcool: meglio non consumarne affatto, era la conclusione.
Tuttavia se analizziamo i dati in termini di frequenze naturali, invece che di percentuali, la conclusione è diversa: su 100.000 persone use ad assumere una bevanda alcolica al giorno, 918 avrebbero presentato problemi di salute entro l'anno, dato da confrontarsi con i 914 non bevitori che si sarebbero comunque trovati nella stessa condizione.
Quindi una differenza di 4 su 100.000, del tutto trascurabile.
David Spiegelhalter in proposito ha scritto: "non esiste un modo sicuro di vivere, ma nessuno raccomanda di astenersene"
E la "medicina personalizzata", di cui si parla sempre più spesso come una delle prossime rivoluzioni nella cura della malattie?
I grandi progressi nello studio della genetica, ed in particolare del genoma umano, ci spingono ad immaginare un futuro nel quale ci sarà un rimedio specifico per ognuno di noi, basato sulle nostre caratteristiche fisiche. Una estrema "personalizzazione" della medicina.
L'individualismo - una filosofia che è alla base dell'epidemiologia moderna - sostiene che debba esistere una causa che spieghi come mai un individuo si ammala, e che dunque sia possibile portare a termine una ricerca che la identifichi senza possibilità di errore.
Questa "visione ottimistica" viene smentita dal fatto che gran parte dell'attuale conoscenza medica dipenda "dalle medie e dalle probabilità": sappiamo che tagliandoci con un coltello una mano rimarremo mutilati, tuttavia non sappiamo perché un'alimentazione a base di frutta e verdura ci difenda meglio da molte patologie.
Come non sappiamo il perché Winnie o Susannah non siano morte prematuramente.
La "conoscenza di gruppo" diventa ignoranza quando passiamo alla scala del singolo: potremo migliorare le nostre conoscenze, riuscire a "maneggiare" gruppi di dimensioni più contenute.
Tuttavia ritenere che un giorno potremo "lavorare" sull'individuo per fare previsioni attendibili è un mito che assomiglia molto a quello che prevede di riuscire ad indovinare il numero stampato sulla facciata di un dado (non truccato) lanciato semplicemente studiando il dado stesso.
Note:
(1) "se non è l'ambiente allora sono i geni": vedi quanto ho scritto relativamente a questo falso paradigma (a proposito dei gamberi marmorizzati) al seguente link:
https://davidemolinapersonale.blogspot.com/2021/05/il-crescente-rumore-nelle-evidenze.html
(2) Vediamo con un esempio di cosa si tratta.
Ipotizziamo che l'incidenza di un tipo di cancro - calcolata dividendo il numero di casi rilevati in un'area per il totale della popolazione - risulti pari ad un individuo ogni 1000.
Un'indagine epidemiologica finalizzata all'identificazione delle sue probabili cause ci informa che tra chi segue una specifica abitudine alimentare tale patologia si manifesti in un caso ogni 800 soggetti, derivando così il valore del rischio associato a tali consumi nella misura del 25%.
Come si ottiene questo valore?
Uno su mille significa lo 0,1%, mentre uno su 800 lo 0,125%; ora 0.125% è pari al 25% in più rispetto a 0,1% .
Su una popolazione di 100.000 individui - quella di una cittadina di provincia - si riscontreranno - in base all'incidenza - mediamente 100 casi; la probabilità per un soggetto di far parte di questi 100 sfortunati cresce del 25% qualora esso risulti far parte del gruppo a rischio.
(3) vedi quanto scritto in merito al seguente link https://davidemolinapersonale.blogspot.com/2020/05/i-medici-comprendono-la-matematica.html ed il testo "Imparare a rischiare" di Gerd Gigerenzer.
(4) in realtà all'incrementare dell'età è correlato l'aumento del rischio di infarto, dunque una crescita del 30% avrebbe impatto maggiore rispetto a quanto affermato: tuttavia anche qualora raddoppiassimo il rischio, otterremmo 1 su 16.000, che è ancora un valore molto basso.
Il doppio di un numero basso è un numero egualmente basso (vedi il mio post su Gerd Gigerenzer già citato).
(5) a riprova di quanto appena affermato, oggi la maggior parte delle mamme di bambini down risulta appartenere alla classe a basso rischio.
Basso rischio è comunque maggiore di zero, e siccome sono molti di più i soggetti che appartengono a questa classe rispetto al numero di soggetti ad alto rischio, sarà in questa che troveremo più casi.
(6) i medici al momento di prescrivere un farmaco sono infatti soliti affermare: "proviamo con questo e vediamo come va ...".
(7) Sapere con sicurezza che si verifichi un effetto positivo nell'1% dei casi quale conseguenza dell'adozione di una terapia, significa comunque che 99 soggetti su 100 non ne ricaveranno alcun benefico: la maggioranza schiacciante!
E nessuno è in grado di dire in anticipo quale dei 100 sarà il fortunato.
(8) Vedi gli articoli di Stephen Senn su https://errorstatistics.com "responder despondecy" e "Painful dichotomies"
"Mastering Variation: variance components in personalized medicine" (2016 Statistics in Medicine)
Vedi anche il website "theNNT.com"
(9) Un esempio pratico, il test per la demenza senile.
La demenza senile colpisce in Inghilterra circa il 6% dei sessantacinquenni.
Sottoporre a screening tutti i 65enni inglesi significa includere nel test - oltre ai 6 soggetti ogni 100 che l'hanno sviluppata - anche 94 soggetti ogni 100 che non ne sono affetti.
Il test è in grado di individuare 4 soggetti sui 6 affetti da demenza senile, ma nello stesso tempo identifica erroneamente anche 23 persone positive tra i 94 che sono sani.
Saranno emesse quindi 23+4=27 verdetti legati ad una patologia che non lascia scampo, 23 dei quali a persone sane che potranno in conseguenza di ciò disperarsi, "prepararsi" ad una situazione nella quale non saranno più padroni di sé con azioni che possono stravolgere la loro vita futura.
https://www.dailymail.co.uk/news/article-478075/100-year-old-celebrates-birthday-smoking-170-000th-cigarette.html
https://it.wikipedia.org/wiki/Susannah_Mushatt_Jones
Nessun commento:
Posta un commento