PAPAYA – PlAtform for PrivAcy preserving data Analytics è un progetto di ricerca finanziato dall’Unione Europea nell’ambito del programma Horizon 2020, volto allo sviluppo di nuove tecniche di Data Mining e Data Analysis che siano in grado di garantire e tutelare il rispetto della privacy degli utenti che condividono i dati e contemporaneamente risultino economicamente sostenibili per i soggetti che interrogano i dati.
A questo scopo, verrà progettata e sviluppata una piattaforma versatile e user-friendly che consenta agli utenti una visualizzazione chiara e una gestione integrata dei dati condivisi in diversi contesti specifici e per diverse finalità. L’obiettivo è mettere l’utente in condizione di sapere sempre cosa condivide, con chi e a quale scopo.
Il progetto si concentra su due settori che grazie alle nuove tecnologie si stanno trasformando a velocità sempre maggiore, e in cui, tipicamente, il rispetto della privacy dell’utente e la rilevanza delle informazioni rilevabili tramite l’analisi dei dati sono fondamentali: quello della sanità e quello della web analytics.
Oltre a MediaClinics Italia, partecipano al progetto prestigiosi centri di ricerca europei (Eurecom, Karlstad University) e grandi realtà aziendali (IBM Israel, Orange, Atos).
Le preziose informazioni che oggi è possibile ottenere attraverso l’analisi dei dati generati e acquisiti da numerosi dispositivi e applicazioni stanno trasformando attività produttive e commerciali e servizi e costituiscono la ragione principale per cui le aziende hanno iniziato ad utilizzare queste tecnologie.
Ciononostante, i dati che vengono analizzati e processati sono particolarmente sensibili, e mettono a rischio il diritto alla privacy dei soggetti che scelgono, più o meno consapevolmente, di condividerli.
Oggigiorno, la norma europea GDPR rappresenta una sfida per le aziende (specialmente quelle di piccole e medie dimensioni), a cui viene richiesto di adottare nei loro sistemi un approccio privacy-by-design e di implementare PETs (Privacy Enhancing Technologies) che, da un lato, proteggano i dati per garantire la privacy degli utenti, e dall’altra consentano di effettuare le analisi sui dati mantenendoli rilevanti, utili e protetti allo stesso tempo.
Il progetto PAPAYA mira ad affrontare le problematiche legate al rispetto della privacy in quei casi in cui le attività di analisi dei dati vengono effettuate da terze parti “non fidate”. Poiché queste operazioni possono essere svolte, ovviamente, anche su dati protetti (vale a dire criptati), l’obiettivo è di progettare e sviluppare dei moduli di data analytics economicamente sostenibili e precisi che tutelino la privacy dell’utente e consentano ai proprietari dei dati di estrarre le informazioni più rilevanti.
Le soluzioni sviluppate nell’ambito del progetto vengono progettate a partire dall’analisi di quattro diversi restricted settings reali:
Questo scenario definisce un ambiente in cui il proprietario del dato intende applicare le primitive di data analytics sui propri dati sensibili. Queste, a causa dei normali limiti di potenza computazionale della maggior parte dei data owner, vengono solitamente delegate a terze parti (ad esempio, piattaforme Cloud).
Questo caso d’uso considera più proprietari di dati e l’implementazione di un unico dataset che raccoglie i dati di tutti gli utenti, da cui vengono estrapolate le informazioni rilevanti. In questo scenario, la privacy dei dati iniziali di ciascun proprietario è protetta dagli altri, e solo i risultati finali delle analisi svolte, vengono resi noti e condivisi con tutti i proprietari. In questo modo, viene dato accesso a dataset più ampi e ad informazioni più precise anche a soggetti con minore possibilità di computazione, nel rispetto delle norme GDPR.
In questo scenario, i dati provengono da un’unica fonte, che ne protegge la lettura da terze parti. In ogni caso, il proprietario permette a terzi di interrogare i dati criptati; questa parte terza potrà unicamente interrogare i dati derivanti dai risultati delle analisi. La fonte del dato può essere un singolo utente, o un aggregatore privacy-preserving di dati provenienti da fonti diverse. L’articolo 89 della normativa GDPR 2018 riguarda quest’ultimo caso, e prevede che il processamento a fini statistici di dati criptati vada effettuato secondo modalità che siano, ove possibile, privacy-preserving. In questo scenario, va data particolare attenzione al rischio di possibili fuoriuscite di dati derivanti dal processo di analisi: ad esempio, non dovrà essere possibile accedere a dati sensibili tramite la combinazione di queries sui risultati delle analisi.
In questo caso d’uso, i dati provengono da più fonti, e una parte terza li interroga. In questo scenario, nè al server nè a chi interroga i dati è concessa la visualizzazione di questi ultimi in chiaro, ma unicamente in forma criptata, costituendo così un livello di privacy end-to-end.
Alla luce dell’analisi di questi casi d’uso, vengono sviluppati moduli software e primitive di crittografia specifiche adeguate a diversi contesti, integrate poi nella piattaforma ad uso dei cittadini.
MediaClinics Italia intende sfruttare i risultati del progetto applicandoli al campo della sanità digitale: le innovative tecniche di Data Mining e Data Analysis implementate consentiranno di effettuare ricerche epidemiologiche più precise e approfondite, e potranno risultare di estrema utilità per lo sviluppo di tecniche di machine learning utilizzabili come supporto diagnostico dalle strutture ospedaliere.
PAPAYA renderà inoltre disponibili a particolari classi di utenti (ad esempio, sviluppatori informatici) le primitive di crittografia impiegate dal sistema, per consentire lo sviluppo di ulteriori nuove tecnologie di tutela della privacy del cittadino.