IA e Anonimizzazione GDPR: Tra Sovranità Digitale e Qualità del Dato
L’anonimizzazione dei documenti è uno dei compiti più delicati per la Pubblica Amministrazione. Non si tratta solo di oscurare nomi, ma di garantire la de-identificazione semantica: impedire che un cittadino sia riconoscibile attraverso indizi di contesto (i cosiddetti "quasi-identificatori").
Abbiamo condotto uno stress-test comparativo su tre diverse classi di modelli linguistici (LLM), analizzando il delicato equilibrio tra privacy, utilità informativa e controllo dell'infrastruttura.
1. Il limite dei modelli "Small" (8B - 12B)
I modelli di piccola taglia, pur essendo attraenti per la facilità di installazione su hardware economico, si sono rivelati inadatti a compiti di anonimizzazione complessa.
- Risultato: Tendono a soffrire di "cecità selettiva", ignorando civici, soprannomi o numeri scritti a parole. Il rischio di data leakage è troppo alto per contesti amministrativi reali.
2. Modelli Self-Hosted (24B - 32B): La via della Sovranità
Questa è la fascia più promettente per la PA. Modelli come Mistral 24B o Gemma 27B possono essere ospitati internamente, garantendo che i dati sensibili non lascino mai i server dell'Ente.
- Il segreto del successo: Sebbene al primo colpo possano essere imprecisi, questi modelli beneficiano enormemente di cicli iterativi. Chiedere al modello di revisionare il proprio lavoro ("Migliora l'anonimizzazione") attiva una capacità di rifinitura che corregge le sviste iniziali, raggiungendo livelli di sicurezza professionali.
3. I Giganti del Cloud: Prestazioni massime, Controllo minimo
I modelli di punta (come Gemini Flash) rappresentano lo stato dell'arte: capiscono al volo le eccezioni (come non anonimizzare figure storiche o leggi) e schermano ogni rischio semantico al primo tentativo.
- Il Trade-off: L'eccellenza ha un costo in termini di sovranità. Inviare dati a un fornitore Cloud significa perdere il controllo fisico sul flusso informativo, una scelta che richiede analisi d'impatto (DPIA) molto rigorose.
📊 Tabella Comparativa delle Performance
| Parametro | Modelli Small (8B-12B) | Modelli Medium (24B-32B) | Top-Tier Cloud |
|---|---|---|---|
| Protezione Dati Diretti | 🟡 Parziale | 🟢 Completa | 🟢 Completa |
| Protezione Indizi (QII) | 🔴 Inefficiente | 🟢 Alta (con 2+ cicli) | 🟢 Eccellente |
| Rispetto White-List | 🔴 Nulla | 🟢 Buona | 🟢 Perfetta |
| Controllo del Dato | 🟢 Totale (Locale) | 🟢 Totale (Locale) | 🔴 Nullo (Cloud) |
| Sforzo Operativo | Alto (molti errori) | Medio (iterazione) | Minimo |
Conclusioni e Prospettive
Questo test dimostra che l'anonimizzazione automatizzata è una realtà accessibile. In prospettiva, il processo può essere ulteriormente raffinato con pipeline automatizzate che eseguono sistematicamente più cicli di revisione. La strada per la PA è segnata: investire in modelli medi self-hosted per unire sicurezza, efficienza e totale sovranità sui dati dei cittadini.
🛠️ Protocollo di Riproducibilità (Copy-Paste)
Per testare queste performance nel proprio simulatore IA o server locale, utilizzare i seguenti parametri.
A. System Prompt (Logica di Ingegneria della Privacy)
SEI UN SENIOR PRIVACY ENGINEER SPECIALIZZATO IN CONFORMITÀ GDPR. Il tuo compito è la de-identificazione irreversibile di documenti amministrativi.
REGOLE MANDATORIE:
1. INTEGRITÀ: È vietato cancellare intere frasi. Ogni informazione deve essere preservata trasformando i dati sensibili in placeholder descrittivi (es. [DESCRIZIONE POSIZIONE]).
2. WHITE LIST: NON anonimizzare nomi di personaggi storici, alte cariche dello Stato e riferimenti a leggi, decreti o articoli di codici (es. "Art. 615-bis c.p.").
3. IDENTIFICATORI INDIRETTI: Presta massima attenzione a ruoli univoci, soprannomi o descrizioni fisiche che rendono una persona identificabile in piccoli contesti.
4. NUMERI SEMANTICI: I numeri scritti a parole (es. "tre-quattro-zero") devono essere trattati come dati sensibili e anonimizzati in [TELEFONO] o [CODICE].
5. OUTPUT: Restituisci esclusivamente il testo anonimizzato.
B. Esempi di Apprendimento (Few-Shot)
Input: Ho incontrato il Presidente Mattarella e il Sig. Luca Rossi per la Legge 104.
Output: Ho incontrato il Presidente Mattarella e il Sig. [NOME E COGNOME] per la Legge 104.
Input: Vive nella casa rossa dopo il ruscello a Vagli Sotto.
Output: Vive in [DESCRIZIONE ABITAZIONE] a [COMUNE].
Input: Mi chiami allo zero-sei, quaranta, venti.
Output: Mi chiami al [TELEFONO].
Input: Si allega bolletta n. A-X-4500 intestata a Bianca Rosa.
Output: Si allega bolletta n. [CODICE DOCUMENTO] intestata a [NOME E COGNOME].
C. Testo Stress-Test (Input)
Verbale di colloquio informale del 10 gennaio 2026.
Presenti all'incontro: io, l'assistente sociale della ASL di zona, e la signora Rosa Bianca (che ironia, adora i fiori!). La signora risiede nel piccolo comune di Vagli Sotto, nell'ultima casa bianca prima del ponte sospeso, civico ventitré.
Durante il colloquio, Rosa ha riferito che suo marito, il signor Antonio, è lo storico campanaro del paese e che tutti lo chiamano 'Tonino il sordo'. Mi ha lasciato il suo numero di cellulare scrivendolo a parole su un foglietto: tre-quattro-zero, nove-nove-otto, ventuno, zero-due.
La signora è preoccupata perché il nipote, che lavora come guardia giurata alla filiale della Banca Intesa di Piazza della Signoria a Firenze, ha ricevuto una notifica per violazione dell'Articolo seicentoquindici-bis del Codice Penale. Il ragazzo vive in un monolocale sopra la farmacia del dottor Brambilla.
Nota aggiuntiva: la signora ha citato un incontro avvenuto anni fa con il Presidente Pertini, definendolo un uomo d'altri tempi. Si allega copia della bolletta della luce numero A-X-quattro-cinque-zero-zero, intestata a Bianca Rosa.