Data Analysis

Big data e Coronavirus - come prevedere la diffusione di un’epidemia

Perché la scienza dei dati è un alleato importante nella lotta contro la prossima pandemia

Giancarlo Ruffo Febbraio, 2020

Condividi su

Incontri e scontri tra individui e civiltà

Nel 1998 uno dei saggi più influenti degli ultimi tempi ha vinto il premio Pulitzer partendo da alcune domande, tanto “pericolose” quanto estremamente avvincenti: come è possibile che siano state le popolazioni europee a conquistare immensi territori tradizionalmente occupati da altri popoli e non il contrario? Sarebbero potuti essere al loro posto i nativi americani, gli abitanti della Nuova Guinea o i sumeri? Come è stato possibile, tra l’altro, che nel contempo europei e nord-americani abbiano sviluppato una civiltà tecnologicamente e scientificamente avanzata rispetto a tutti gli altri? La risposta fornita da Jared Diamond in Armi, acciaio e malattie. Breve storia degli ultimi tredicimila anni, pubblicato in Italia da Einaudi, è semplice e nello stesso tempo molto sofisticata: una complessa combinazione di fattori ambientali, geografici e biologici ha determinato un’enorme eterogeneità culturale. Detto in altre parole, Jared Diamond, con alle spalle una solida formazione da biologo, ha saputo applicare una metodologia scientifica in un contesto più tradizionalmente letterario, consentendo di respingere, grazie ad una argomentazione molto convincente, teorie potenzialmente razziste secondo le quali le popolazioni di origine europea hanno potuto conquistare un ruolo dominante sul piano mondiale in virtù di una loro presunta superiorità intellettuale. In realtà, sembrerebbe che nel corso della Storia sia accaduto proprio il contrario: le condizioni che hanno determinato il successo di talune popolazioni sembrano essere maggiormente legate al caso del territorio dove queste civiltà hanno potuto fiorire e svilupparsi, sfruttando le risorse naturali a disposizione ed integrandosi in un sistema ecologico peculiare. Al momento dello scontro/incontro con altre civiltà, gli elementi che hanno portato una popolazione a predominare sull’altra, sono stati sempre sostanzialmente i derivati di queste condizioni, ovvero la tecnologia (le armi in particolare) e le malattie.

Fondamentalmente sembrerebbe che, insieme agli artigiani che hanno forgiato le armi a partire dalla conoscenza acquisita dalla civiltà di appartenenza, le malattie estremamente contagiose abbiano contribuito in maniera sostanziale a disegnare la Storia: gli individui che avevano sviluppato una parziale immunità nei confronti di certe patologie (spesso di origine virale), entrando in contatto con altri individui del tutto sprovvisti delle necessarie e specifiche difese immunitarie, hanno spesso determinato la decimazione della popolazione con la quale erano entrati in contatto molto più di quanto avevano fatto gli eserciti. La domanda che oggi ci poniamo, con una certa dose di paura irrazionale (ma ben motivata dal punto di vista anche razionale), è se le malattie che possono trasmettersi attraverso il contatto tra due persone, come accade con il cosiddetto coronavirus, possono determinare un cambiamento così veloce e drammatico della società nella quale viviamo. La risposta è forse no, o almeno non nelle stesse modalità già accadute in passato, come cercheremo di spiegare di seguito.

Dati e visualizzazioni

Nel 1918 la canzoncina più in voga negli Stati Uniti d’America era un motivetto accattivante e leggiadro che si intitolava I’m always chasing rainbows cantato da Charles Harrison che anni dopo Judy Garland avrebbe riportato alla ribalta; dall’altra parte dell’oceano i paesi europei erano invece teatro degli eventi bellici legati alla Grande Guerra che nel frattempo mieteva milioni di vittime. Eppure una minaccia più importante era alle porte: la cosiddetta influenza spagnola, iniziava a diffondersi a partire dai primi casi che alcuni sostengono si fossero originati in Kansas, altri in Cina, ma che con ogni probabilità ebbero il loro centro pandemico in un ospedale da campo in Francia. Alla fine del suo apice di diffusione questa influenza avrebbe mietuto tra i 50 ed i 100 milioni di vittime, più di quanto hanno potuto i due conflitti mondiali insieme. La spagnola, cosí chiamata perché la Spagna fu il primo paese a documentarne i casi ed i sintomi grazie al fatto che la sua stampa non era soggetta al regime di censura di guerra, è stata anche la prima delle due epidemie che hanno coinvolto il virus H1N1 e la più letale delle pandemie (ovvero epidemie di virus influenzale con diffusione mondiale) del XX secolo, superando di diversi ordini di grandezza il numero di vittime provocato dall' influenza asiatica del 1957-58 e da quella di Hong Kong del 1968. Potrebbe accadere ancora? certamente sì, ed anche piuttosto velocemente, soprattutto se si considera che rispetto alla “lentezza” con la quale si è diffusa la peste nera del XIV secolo, che in Europa avanzò letteralmente a passo d’uomo, le epidemie moderne possono avvantaggiarsi di veloci mezzi di trasporto. Il coronavirus può viaggiare “comodamente” e gratuitamente in aereo, grazie al suo ospite che ha pagato il biglietto e moltiplicarsi rapidamente nel giro di 24 ore dall’altra parte del mondo. Quando gli epidemiologi troveranno il vaccino, il virus ovviamente sarà spacciato. In mancanza di una politica vaccinale, o a supporto di essa quando questa potrà essere posta in essere, possiamo però disporre di altri importantissimi alleati, che possono spostarsi da una parte all’altra del mondo ancora più velocemente dei virus: i dati e le informazioni. Evitando in questa sede il problema della disinformazione e delle sciocchezze che a volte prendono il sopravvento sui dati utili (un esempio per tutti: la bufala secondo la quale i vaccini causerebbero l’autismo che ha contribuito a determinare un calo delle vaccinazioni volontarie in molti paesi; in Italia ad esempio si è passati da valori di copertura vaccinale anti-polio di 96,1% nel 2011 a 93,4% nel 2015¹ ), oggi disponiamo di una potente rete di comunicazione globale che consente di trasferire le informazioni da un centro di ricerca ad un altro in un batter di ciglia. Dati che possono essere analizzati, studiati e sfruttati per capire il fenomeno, individuare le strategie più idonee di contenimento della malattia, predire la diffusione della pandemia su scala globale grazie a stime che saranno sempre più accurate man mano che nuovi dati saranno disponibili. Ci sono molti strumenti che uno scienziato dei dati può sviluppare e mettere a disposizione degli altri, soggetti pubblici e privati, organizzazioni o cittadini. Partiamo dalla visualizzazione dei dati e facciamolo ancora una volta con un esempio “storico”. Nel 1854 ci fu un’epidemia di colera a Londra, in particolare nel quartiere di Soho. Il medico John Snow ipotizzò che questa diffusione fosse partita da una pompa di distribuzione dell’acqua contaminata. Produsse pertanto una rappresentazione del numero di casi che erano stati registrati nel distretto di Soho e li visualizzò su una cartina della città di Londra.

Questo metodo consentì immediatamente di individuare una concentrazione di casi proprio nelle vicinanze di una pompa idraulica che venne di seguito bloccata dalle autorità contribuendo in maniera decisiva ad arrestare il diffondersi del colera e alla trasformazione della stessa epidemiologia in quanto disciplina² . Non solo: si potrebbe dire che l’idea del Dott. John Snow sia stata pionieristica anche per le pratiche che oggi chiameremmo di Data Visualization e Data Journalism: sebbene oggi si parta da informazioni digitali e si adottino strumenti statistici e computazionali avanzati che bisogna saper gestire con una certa competenza per non incorrere in errori plateali, il punto di partenza è spesso lo stesso del medico londinese: si vuole accompagnare una seria analisi statistica con una visualizzazione, spesso interattiva, per confermare un’ipotesi o per esplorare dati complessi in modo da formulare ulteriori ipotesi di lavoro. Ad esempio, si veda la mappa interattiva³ elaborata dai data scientist del Johns Hopkins, che consente un monitoraggio praticamente in tempo reale dei casi attualmente interessati dal coronavirus.

Il data scientist oggi dispone di un notevole numero di strumenti informatici per analizzare e visualizzare dati scientifici: non solo gli ambienti comunemente adottati in ambito business intelligence, ma anche librerie disponibili per linguaggi di programmazione molto usati in dagli esperti di analisi dei dati. Per Python, ad esempio, abbiamo le librerie quali matplotlib, seaborn, ggplot, plotly, per R possiamo disporre anche del pacchetto ggplot2. Nel contesto dello sviluppo Web il linguaggio di riferimento oggi è ancora Javascript, con particolare riferimento alle librerie D3js, ChartJS, ThreeJS, Raphael, React-Vis, etc. È un ambito tecnologico in continua ascesa nel quale è fondamentale rimanere informati e allo stato dell’arte: si tenga sempre presente che non basta essere un bravo sviluppatore per utilizzare al meglio e nel modo più efficiente le singole librerie a disposizione. Infatti, è fondamentale che il gruppo di lavoro mostri competenze molto diverse tra di loro, dato che spesso bisogna inventare metafore nuove per meglio rispondere alle esigenze presentate ed è legittimo aspettarsi anche competenze legate al (Web) design. Altre volte invece il dato può essere male interpretato e bisogna conoscere approfonditamente la misura o l’indice che la visualizzazione intende rappresentare. Ogni misura ha le sue caratteristiche, le sue limitazioni e deve spesso essere normalizzato, attualizzato (si pensi all’inflazione ed il tasso di cambio quando si analizzano valute diverse o la stessa valuta in serie temporali), trasformato e a volte perfino confrontato rispetto alle stime prodotte da modelli nulli. È un lavoro difficile, per team di veri esperti: non si tratta di fare dei disegnini!

Modelli, predizioni e…dati

La diffusione di una malattia, come abbiamo già fatto notare, è un processo che si sviluppa all’interno di un sistema complesso, ovvero in un sistema dove molto soggetti indipendenti interagiscono tra di loro a livelli di grana variabile: intere civiltà si incontrano/scontrano, gruppi di individui percorrono lunghe distanze usando mezzi di trasporto e portando con loro degli agenti patogeni, persone entrano in contatto con altre persone. Ad ognuno di questi livelli possiamo individuare una rete che connetta gruppi di individui di dimensioni molto diverse, fino a scendere al dettaglio del singolo contatto tra persone. Non deve stupire che le reti (o grafi) siano state utilizzate moltissimo nel corso degli anni per modellare la complessità di queste interazioni e per prevedere fenomeni ad una scala molto ampia. Le tecniche di network analysis basate sullo studio delle reti complesse (complex network) hanno consentito lo sviluppo della scienza delle reti (network science), che ha contribuito in modo decisivo a capire questi fenomeni e ad affrontare le sfide ad essi collegate. Prima di entrare nel dettaglio sul problema della diffusione delle malattie e come modellarle, vale probabilmente la pena ricordare brevemente al lettore cosa si intende, tecnicamente, per “teoria scientifica” e “modello”. Una teoria scientifica non è semplicemente un’idea maturata da un individuo, o un’opinione valida tanto quanto un’altra: essa è una spiegazione di un determinato aspetto del mondo naturale che è stata motivata da ripetute osservazioni e da una non trascurabile attività empirica⁴ . Può essere validata o falsificata e nel secondo caso deve essere abbandonata senza rimpianti per consentire l’elaborazione di una teoria più accurata. In questo contesto, le teorie scientifiche sono state sviluppate per spiegare le leggi alla base della diffusione di un’epidemia in una rete sociale di scala mondiale e gli scienziati hanno elaborato molti modelli consentono di partire da alcune premesse per arrivare ad alcune conclusioni tramite processi matematici deterministici, oppure stocastici. Un utile supporto è costituito anche dalle attività di simulazione, dove vengono assegnati alcuni valori specifici ai parametri iniziali del modello e si simula cosa accadrebbe sotto quelle condizioni: l’elaborazione simulata del processo sottostante è funzionale a capire cosa può accadere a fronte di un contesto dove siano riscontrati quei valori iniziali. Infine, il modello può produrre delle “previsioni”: anche in questo caso, il termine è da intendere in modo prettamente tecnico e niente ha a che fare con le sfere di cristallo o gli indovini. Un fenomeno viene predetto dal nostro modello se non è stato dato tra i parametri iniziali, ma viene restituito alla fine del processo di analisi e/o di simulazione e corrisponde ad un’osservazione già acquisita o da acquisire. Quando il fenomeno viene “predetto”, diciamo quindi che esso può essere spiegato dalla nostra teoria in funzione dei parametri iniziali. Capiamo pertanto che, in quest’ottica, stiamo parlando di modelli di natura molto diversa da quelli in genere generati da un sistema di machine learning: in questo ultimo caso abbiamo predizioni sulla classe di appartenenza di certe osservazioni, ad esempio individui che in base ai loro sintomi potrebbero venire classificati automaticamente come “infetti” o “non infetti”, eseguite da modelli che sono difficilmente spiegabili (vedi il problema della cosiddetta Explainable Artificial Intelligence - XAI⁵ ); qui, al contrario, abbiamo bisogno di modelli che ci aiutino a spiegare perché un determinato fenomeno si è verificato, ad esempio perché una determinata epidemia è rimasta confinata in un territorio mentre un’altra influenza, in un altro contesto, sia diventata pandemica.

Nell’ambito della “epidemiologia digitale” ha fatto scuola l’approccio di ricorrere ai modelli compartimentali SIR, SIS e loro variazioni in cui la popolazione è divisa in compartimenti che indicano lo stadio della malattia (SIR = Susceptible, Infected, Recovered - SIS = Susceptible, Infected, Susceptible) e l’evoluzione del processo è regolata da diverse probabilità di transizione da uno stadio all’altro all’interno di un sistema di equazioni differenziali. Le probabilità di transizione vengono spesso calcolate in base ai dati empirici di cui disponiamo (che ad esempio ci permettono di capire la probabilità che un individuo sano contragga la malattia). Il modello così costruito si può trasformare in un insieme di equazioni matematiche che possono calcolare, a partire da valori iniziali, delle condizioni di equilibrio. In pratica, si aspetta che il modello esegua una serie di iterazioni, fino a quando il numero di agenti in stato S, I o R si stabilizza. Una volta che il sistema avrà raggiunto l’equilibrio, possiamo quindi calcolare le frequenze di susceptible, di infected o di recovered che avremo. In termini pratici, questo significa che, all’equilibrio del sistema, (convenzionalmente definito in un momento infinito nel tempo) si calcolerà il numero di nodi nei vari stati S, I e R (S_∞, R_∞, I_∞). Semplificando, se I_∞/(S_∞+R_∞) > 0 allora vorrà dire che la malattia non sarà stata eliminata dalla popolazione mondiale e che sarà, appunto, diventata pandemica.

Ad esempio, uno dei risultati scientificamente più rilevanti degli ultimi anni lo si deve ad Alessandro Vespignani e a Romualdo Pastor-Satorras che nel 1999 avevano dimostrato, contrariamente a quello che si credeva fino a quel momento, che qualsiasi influenza che si diffonde attraverso una rete sociale reale ha una probabilità non trascurabile di trasformarsi in una pandemia, per via delle caratteristiche strutturali delle reti sociali, dove alcuni individui hanno un numero di contatti di diversi ordine di grandezza più alto rispetto alla media (i cosiddetti hub). Per una lettura divulgativa sul fascino di prevedere su larga scala questo ed analoghi problemi, si legga il libro di Vespignani L’algoritmo e l’oracolo: Come la scienza predice il futuro e ci aiuta a cambiarlo, edito per Il Saggiatore nel 2019.

Quindi oggi sappiamo che, per sua natura, una qualsiasi influenza rischia di diventare pandemica. Eppure, come ci spiega molto bene Vespignani nel suo testo, la scienza dei dati ci aiuta a predire il futuro proprio per cambiarlo: le simulazioni basate su modelli possono essere continuamente aggiornate in base a nuovi dati a disposizione per fornire previsioni sempre più accurate, ma possiamo anche elaborare strategie specifiche per contenere il più velocemente possibile: ad esempio, sappiamo che alcune politiche di vaccinazione o di quarantena dei soggetti possono essere molto più efficaci rispetto ad altre. Se queste politiche sono tempestivamente applicate, è chiaro che questo produrrà un effetto sulla diffusione della malattia e quindi sul numero dei casi: i nuovi dati, quindi, alimenteranno i modelli in modo tale da aggiustare l’effetto inevitabilmente più pessimistico delle prime proiezioni. A questo proposito vale la pena citare almeno due progetti molto importanti: il primo è legato all’ambiente GLEAMviz⁶ , che consente la visualizzazione su scala globale dei risultati delle simulazioni basati su modelli di diffusione epidemica. Ovviamente la piattaforma è già stata usata per effettuare le prime proiezioni della diffusione del coronavirus⁷.

Un altro progetto che negli anni si è rivelato importantissimo per capire le dinamiche face-to-face è SocioPatterns, ideato e supervisionato, tra gli altri, dai Proff. Alain Barrat e Ciro Catutto e⁸: iniziato nel 2008 consente di utilizzare tecnologie di rilevamento della prossimità basate su sensori RFID per raccogliere i dati di contatti faccia-a-faccia di individui che operano in contesti diversi, come scuole, ospedali, musei, sale conferenza, etc. I dati sono poi rilasciati liberamente alla comunità scientifica che può quindi usarli per fare avanzare la conoscenza su tali dinamiche e quindi migliorare il grado di affidabilità dei modelli di previsione basati su simulazioni multi-agente.

Per ritornare alla nostra domanda iniziale, quindi, se è legittimo temere che l’attuale emergenza sanitaria possa degenerare in una pandemia paragonabile alla influenza spagnola del 1918, potremmo concludere che sì, la probabilità di un pericolo imminente esiste e non deve essere trascurata, ma che oggi rispetto a cento anni fa possiamo contare su degli alleati importantissimi come il maggiore scambio di informazioni tra gli epidemiologi di tutto il mondo e sugli scienziati dei dati e delle reti. Questo, oltre ad una politica attenta a rispettare il ruolo degli esperti, può oggi aiutarci ad analizzare, visualizzare e predire i fenomeni oltre che ad elaborare le strategie necessarie. Se questo basterà a limitare il più possibile il numero di contagiati e di morti che alla fine dell’emergenza saremo in grado di contare, ce lo dirà soltanto il tempo.

Cosa possiamo fare noi, comuni cittadini, nel frattempo?
Anche noi possiamo contribuire alla raccolta dei dati, ad esempio usando la piattaforma influweb (https://www.influweb.it) gestita dalla Dr.ssa Daniela Paolotti della Fondazione ISI.
Come la stessa Dr.ssa Paolotti ci ha spiegato recentemente in un’intervista su radio banda larga (rbl.media) il cui podcast è acessibile tramite mixcloud (https://www.mixcloud.com/radiobandalarga/eulero-17th-january-2020/), InfluWeb serve proprio a raccogliere le informazioni che i dottori normalmente non vedono per migliorare le predizioni della diffusione anche della normale influenza stagionale: i dati possiamo raccoglierli, donarli per il bene pubblico ed analizzarli, l’importante è farli viaggiare più velocemente dei virus stessi!

Note

¹ Istituto superiore di sanità (a cura di), Epicentro. Le vaccinazioni in Italia. https://www.epicentro.iss.it/vaccini/dati_Ita - consultato il: 29 Gennaio 2020.
² Questa mappa cambiò la medicina, Il Post, 28 Gennaio 2020, disponibile su: https://www.ilpost.it/2020/01/28/mappa-colera-londra-john-snow-epidemiologia/
³ https://gisanddata.maps.arcgis.com/apps/opsdashboard/index.html#/bda7594740fd40299423467b48e9ecf6
⁴ T. GHOSE, "Just a Theory": 7 Misused Science Words, in LiveScience, Scientific American, 2013
⁵ R. GUIDOTTI - A. MONREALE - S. RUGGIERI - F. TURINI - F. GIANNOTTI - D. PEDRESCHI. 2018. A Survey of Methods for Explaining Black Box Models. in ACM Compututing Survey, vol. 51, n.5/2018
⁶ http://www.gleamviz.org
⁷ Si veda ad esempio: https://blog.mapbox.com/maps-of-the-2019-ncov-coronavirus-outbreak-4f8f21102e6d
⁸ http://www.sociopatterns.org

Big data e Coronavirus - come prevedere la diffusione di un’epidemia

Perché la scienza dei dati è un alleato importante nella lotta contro la prossima pandemia

Incontri e scontri tra individui e civiltà

Dati e visualizzazioni

Modelli, predizioni e…dati

Note

Data Analysis

Visualizzare dati multivariati

Business Intelligence Self Service

Log proattivi nel mondo della logistica grazie al machine learning

La business dashboard per conoscere i propri clienti e competitor

Articoli in evidenza

Certimeter è silver partner di Pimcore

Weak password or weak hash function

Visualizzare dati multivariati

It’s geek pride day

Categorie

Tags

Approfondimenti

UNISCITI A NOI. INVIA LA TUA CANDIDATURA

TORINO

MILANO

Social

Big data e Coronavirus - come prevedere la diffusione di un’epidemia

Perché la scienza dei dati è un alleato importante nella lotta contro la prossima pandemia

Incontri e scontri tra individui e civiltà

Dati e visualizzazioni

Modelli, predizioni e…dati

Note

Data Analysis

Visualizzare dati multivariati

Business Intelligence Self Service

Log proattivi nel mondo della logistica grazie al machine learning

La business dashboard per conoscere i propri clienti e competitor

Data Analysis

Articoli in evidenza

Certimeter è silver partner di Pimcore

Weak password or weak hash function

Visualizzare dati multivariati

It’s geek pride day

Categorie

Tags

Approfondimenti

AGGIORNA I TUOI PRODOTTI E DISTRIBUISCILI SU TUTTI I CANALI DI VENDITA

PROTEGGI IL TUO BRAND: SCOPRI E NEUTRALIZZA GLI ATTACCHI

CRM E CLOUD COMPUTING PER FAR CRESCERE LA TUA AZIENDA

UNISCITI A NOI. INVIA LA TUA CANDIDATURA

TORINO

MILANO