← Torna al blog
Marco Scarselli · 2026-01-11

IA e Anonimizzazione GDPR: Tra Sovranità Digitale e Qualità del Dato

L’anonimizzazione dei documenti è uno dei compiti più delicati per la Pubblica Amministrazione. Non si tratta solo di oscurare nomi, ma di garantire la de-identificazione semantica: impedire che un cittadino sia riconoscibile attraverso indizi di contesto (i cosiddetti "quasi-identificatori").

Abbiamo condotto uno stress-test comparativo su tre diverse classi di modelli linguistici (LLM), analizzando il delicato equilibrio tra privacy, utilità informativa e controllo dell'infrastruttura.

1. Il limite dei modelli "Small" (8B - 12B)

I modelli di piccola taglia, pur essendo attraenti per la facilità di installazione su hardware economico, si sono rivelati inadatti a compiti di anonimizzazione complessa.

2. Modelli Self-Hosted (24B - 32B): La via della Sovranità

Questa è la fascia più promettente per la PA. Modelli come Mistral 24B o Gemma 27B possono essere ospitati internamente, garantendo che i dati sensibili non lascino mai i server dell'Ente.

3. I Giganti del Cloud: Prestazioni massime, Controllo minimo

I modelli di punta (come Gemini Flash) rappresentano lo stato dell'arte: capiscono al volo le eccezioni (come non anonimizzare figure storiche o leggi) e schermano ogni rischio semantico al primo tentativo.


📊 Tabella Comparativa delle Performance

Parametro Modelli Small (8B-12B) Modelli Medium (24B-32B) Top-Tier Cloud
Protezione Dati Diretti 🟡 Parziale 🟢 Completa 🟢 Completa
Protezione Indizi (QII) 🔴 Inefficiente 🟢 Alta (con 2+ cicli) 🟢 Eccellente
Rispetto White-List 🔴 Nulla 🟢 Buona 🟢 Perfetta
Controllo del Dato 🟢 Totale (Locale) 🟢 Totale (Locale) 🔴 Nullo (Cloud)
Sforzo Operativo Alto (molti errori) Medio (iterazione) Minimo

Conclusioni e Prospettive

Questo test dimostra che l'anonimizzazione automatizzata è una realtà accessibile. In prospettiva, il processo può essere ulteriormente raffinato con pipeline automatizzate che eseguono sistematicamente più cicli di revisione. La strada per la PA è segnata: investire in modelli medi self-hosted per unire sicurezza, efficienza e totale sovranità sui dati dei cittadini.



🛠️ Protocollo di Riproducibilità (Copy-Paste)

Per testare queste performance nel proprio simulatore IA o server locale, utilizzare i seguenti parametri.

A. System Prompt (Logica di Ingegneria della Privacy)

SEI UN SENIOR PRIVACY ENGINEER SPECIALIZZATO IN CONFORMITÀ GDPR. Il tuo compito è la de-identificazione irreversibile di documenti amministrativi.

REGOLE MANDATORIE:
1. INTEGRITÀ: È vietato cancellare intere frasi. Ogni informazione deve essere preservata trasformando i dati sensibili in placeholder descrittivi (es. [DESCRIZIONE POSIZIONE]).
2. WHITE LIST: NON anonimizzare nomi di personaggi storici, alte cariche dello Stato e riferimenti a leggi, decreti o articoli di codici (es. "Art. 615-bis c.p.").
3. IDENTIFICATORI INDIRETTI: Presta massima attenzione a ruoli univoci, soprannomi o descrizioni fisiche che rendono una persona identificabile in piccoli contesti.
4. NUMERI SEMANTICI: I numeri scritti a parole (es. "tre-quattro-zero") devono essere trattati come dati sensibili e anonimizzati in [TELEFONO] o [CODICE].
5. OUTPUT: Restituisci esclusivamente il testo anonimizzato.

B. Esempi di Apprendimento (Few-Shot)

Input: Ho incontrato il Presidente Mattarella e il Sig. Luca Rossi per la Legge 104.
Output: Ho incontrato il Presidente Mattarella e il Sig. [NOME E COGNOME] per la Legge 104.

Input: Vive nella casa rossa dopo il ruscello a Vagli Sotto.
Output: Vive in [DESCRIZIONE ABITAZIONE] a [COMUNE].

Input: Mi chiami allo zero-sei, quaranta, venti.
Output: Mi chiami al [TELEFONO].

Input: Si allega bolletta n. A-X-4500 intestata a Bianca Rosa.
Output: Si allega bolletta n. [CODICE DOCUMENTO] intestata a [NOME E COGNOME].

C. Testo Stress-Test (Input)

Verbale di colloquio informale del 10 gennaio 2026.
Presenti all'incontro: io, l'assistente sociale della ASL di zona, e la signora Rosa Bianca (che ironia, adora i fiori!). La signora risiede nel piccolo comune di Vagli Sotto, nell'ultima casa bianca prima del ponte sospeso, civico ventitré.

Durante il colloquio, Rosa ha riferito che suo marito, il signor Antonio, è lo storico campanaro del paese e che tutti lo chiamano 'Tonino il sordo'. Mi ha lasciato il suo numero di cellulare scrivendolo a parole su un foglietto: tre-quattro-zero, nove-nove-otto, ventuno, zero-due.

La signora è preoccupata perché il nipote, che lavora come guardia giurata alla filiale della Banca Intesa di Piazza della Signoria a Firenze, ha ricevuto una notifica per violazione dell'Articolo seicentoquindici-bis del Codice Penale. Il ragazzo vive in un monolocale sopra la farmacia del dottor Brambilla.

Nota aggiuntiva: la signora ha citato un incontro avvenuto anni fa con il Presidente Pertini, definendolo un uomo d'altri tempi. Si allega copia della bolletta della luce numero A-X-quattro-cinque-zero-zero, intestata a Bianca Rosa.