Tecnologia

Big data, si può togliere l’anonimato a grandi moli di…

Analisi

Big data, si può togliere l’anonimato a grandi moli di dati?


Il tema del riutilizzo dei dati personali per finalità di ricerca è improvvisamente assurto agli onori delle cronache e dei commenti con l'introduzione il prossimo 12 dicembre dell'Art. 110-bis nell'attuale Codice in materia di protezione dei dati personali. Il dibattito ruota attorno ai concetti di “minimizzazione e di anonimizzazione” che condizioneranno l'uso dei dati e influenzeranno le decisioni dell'Autorità Garante, alla quale toccherà i compito di dare le autorizzazioni.
Ancora nel 2014, il Gruppo Di Lavoro Articolo 29, l'organismo a livello europeo deputato a fornire indicazioni in materia di protezione dei dati, aveva espresso un parere molto articolato in cui affermava quanto fosse “difficile creare insiemi di dati effettivamente anonimi mantenendo al contempo tutte le informazioni sottostanti necessarie per espletare l'attività richiesta”. L'esame delle principali tecniche, la generalizzazione e la randomizzazione anche con la correzione di meccanismi più sofisticati come il rumore statistico, aveva dimostrato in varie circostanze come fossero insufficienti a garantire l'anonimato. Nello stesso documento si parlava di pseudonimizzazione, tipicamente effettuata attraverso sistemi crittografici, come strumento che “non consente di ottenere un insieme di dati anonimo”, in quanto il processo risulta reversibile. In effetti i casi di insuccesso dell'anonimizzazione si contano numerosi e uno dei più celebri ha coinvolto Netflix che aveva diffuso una banca dati di 100 milioni di valutazioni espresse da 500 mila spettatori su 18 mila film. Per renderli anonimi erano state eliminate le informazioni personali e i giudizi erano stati leggermente alterati (rumore statistico). Un gruppo di ricercatori ha dimostrato che il 99% degli utenti poteva essere identificato univocamente utilizzando 8 giudizi espressi nell'arco di 14 giorni. Un destino non diverso è toccato alla pseudonimizzazione già a partire dal 2006, anno in cui America On Line pubblicò una banca dati contenente 20 milioni di parole chiave utilizzate per le ricerche da 650 mila utenti in tre mesi. I nominativi degli utenti erano stati sostituiti con stringhe numeriche, ma incrociando i dati con gli indirizzi IP e le configurazioni dei sistemi usati, molti degli utenti vennero pubblicamente identificati. Nel 2013, poi, i ricercatori del MIT hanno studiato i dati pseudonimizzati di 15 mesi di coordinate che descrivevano gli spostamenti di 1,5 milioni di persone in un raggio di 100 km. Il risultato è stato che il 95% dei soggetti poteva essere identificato sulla base di quattro destinazioni. Aggiungiamo che anche gli algoritmi sono in continua evoluzione e un caso interessante è rappresentato da quelli “stilometrici” per l'analisi testuale. Una ricerca del 2012 condotta su 100 mila blog ha dimostrato come sia possibile indentificare in modo automatico l'ottanta per cento degli autori dei post.
Se consideriamo la crescita della capacità di calcolo e l'aumento vertiginoso delle basi disponibili, anche pubbliche, quello che tre anni fa appariva “difficile” oggi potrebbe sembrare impossibile. In particolare i sistemi di analytics si sono evoluti in modo da riuscire a gestire sempre più efficacemente i big data per costruire nuove informazioni, e gli interessi economici per queste soluzioni, capaci di essere predittive, sono ormai enormi. Il caso concreto è rappresentato dalle trattative in corso tra la Regione Lombardia e IBM per l'utilizzo in ambito medico del sistema di intelligenza aumentata Watson: in particolare la piattaforma “Health Cloud”, in cui dovrebbero confluire i dati sanitari dei cittadini lombardi. Sulla base delle funzionalità dichiarate, risulta difficile nascondere qualcosa al fiore all'occhiello di “Big Blue”. La continua evoluzione dei meccanismi di comparazione e analisi dei dati non soltanto implicherà delle scelte molto difficili per l'Autorità, ma la costringerà a un monitoraggio costante delle autorizzazioni concesse, perché quello che risulta idoneo oggi, facilmente potrebbe non funzionare domani.
Presidente DI.GI. Academy

© Riproduzione riservata