DANTE CONCORSISTA E L'OLIMPIADE DELLE IA: CHI SUPERA LA PROVA?
Immaginate Dante Alighieri che, smessa la tunica da poeta, si siede davanti a un simulatore per affrontare un concorso pubblico. Tra codici, commi e procedure, il Sommo si troverebbe in una "selva oscura" dove la sola memoria non basta.
Sei nuovo qui? In questo articolo usiamo gli "archetipi rinascimentali" — Dante, Leonardo — come metafore per spiegare l'IA, con Virgilio nel ruolo di guida. Se vuoi capire il framework completo, parti dalla Lezione Base: Introduzione all'Intelligenza Artificiale.
Per capire quale IA possa fargli da "Virgilio", abbiamo condotto uno stress-test su 1.600 quiz ufficiali estratti dal database di oltre 50.000 domande di 🚀 SmartQuiz.
📋 Metodologia: Perché questi modelli?
Abbiamo scelto deliberatamente i modelli gratuiti disponibili nelle chat pubbliche di Google, Anthropic, OpenAI e Mistral — quelli che un candidato può usare oggi, gratis, senza abbonamenti. A questi abbiamo aggiunto GPT-4o Mini come baseline storica di confronto.
| Modello | Piattaforma | Accesso |
|---|---|---|
| Gemini 3 Flash | Google AI Studio / Gemini | Gratuito |
| Sonnet 4.5 | Claude.ai | Gratuito (con limiti) |
| Mistral Large | Le Chat (Mistral) | Gratuito |
| Mistral Small 3.2 | Locale / Le Chat | Gratuito / Self-hosted |
| GPT-5 Mini | ChatGPT | Gratuito |
| GPT-4o Mini | API OpenAI | Baseline (ultra-economico) |
Non abbiamo testato i SOTA (State of the Art) come GPT-4.5, Claude Opus o Gemini Ultra. Perché? Volevamo rispondere a una domanda pratica: "Cosa può fare un concorsista con gli strumenti accessibili a tutti?"
Test effettuati in modalità One-Shot (una domanda, una risposta), senza RAG, senza contesto, senza rete di sicurezza. La preparazione "nuda" del modello.
🏆 Il Podio dell'Olimpiade
| Modello | Accuracy | Note |
|---|---|---|
| 🥇 Gemini 3 Flash | 92.9% | Domina 29 categorie su 32 |
| 🥈 Sonnet 4.5 | 90.2% | Eccelle in Inglese (100%) |
| 🥉 Mistral Large | 87.2% | Solido su tutto |
| GPT-5 Mini | 82.0% | Bias verso risposta 4 (74% delle scelte!) |
| Mistral Small 3.2 | 76.9% | Può girare in locale |
| GPT-4o Mini | 68.8% | La vecchia guardia arranca |
📊 Dove l'IA Regna e Dove Vacilla
| Materia | Leader | Accuracy | Insight |
|---|---|---|---|
| Appalti / Civile / Costituzionale | Gemini 3 Flash | 100% | Normativa "solida", ben rappresentata nel training |
| Inglese | Sonnet 4.5 | 100% | Unico modello senza errori |
| Informatica | Gemini 3 Flash | 98% | Tutti sopra il 90% |
| Sicurezza Lavoro | 4 modelli pari | 96% | Conoscenza universale |
| Procedura Civile | Gemini 3 Flash | 86% | GPT-4o Mini crolla al 34% |
| Penale | Gemini 3 Flash | 90% | GPT-4o/5 Mini sotto il 55% |
Il verdetto: Ricordiamoci cos'è un LLM: un "Dante" che ha letto miliardi di testi, ma non è mai uscito dalla biblioteca. Conosce le relazioni tra parole, non la sostanza delle norme.
Sulle materie "universali" (diritto civile, costituzionale, inglese) i testi di training abbondano e i modelli eccellono. Ma sulle procedure italiane — dove un comma, un termine, una notifica cambiano tutto — anche i giganti mostrano il fianco. Non perché siano "stupidi", ma perché quei dettagli sono sotto-rappresentati nel loro addestramento.
È qui che serve un "Virgilio": un sistema RAG che fornisca il contesto normativo aggiornato e certificato.
🤔 Il Paradosso: Il "Buon Senso" è Digitale
I quiz situazionali — comportamento professionale, gestione conflitti — sono i più facili per le macchine:
- Gemini 3 Flash: 96%
- Sonnet 4.5 / Mistral Large: 94%
- 43 quiz su 50 risolti correttamente da tutti e 6 i modelli
Perché? Gli LLM hanno "metabolizzato" miliardi di interazioni umane. È più facile per un algoritmo capire come gestire un conflitto tra colleghi (pattern universale) che ricordare il termine esatto per un ricorso in appello (dettaglio normativo italiano).
🏠 Il Sorpasso Locale: La Sovranità Digitale
Mistral Small 3.2 (24B parametri, eseguibile in locale) ha superato GPT-4o Mini di 8 punti: 76.9% vs 68.8%.
Un'IA privata — nei server del tuo Ente o nel tuo studio — oggi batte i colossi cloud di ieri. È il "Rinascimento Locale": la potenza si è democratizzata, e con essa la possibilità di proteggere i dati sensibili.
🧠 Logica: Lo Spartiacque del Ragionamento
| Modello | Accuracy | Tempo | Note |
|---|---|---|---|
| Gemini 3 Flash | 90% | 1.56s | Il più equilibrato |
| GPT-5 Mini | 88% | 11.02s | 6 non-risposte, bias verso opzione 4 |
| Sonnet 4.5 | 80% | 1.84s | Calcolava il risultato invece di indicare l'opzione |
| GPT-4o Mini | 50% | 0.64s | Il doppio del caso (25%), ma ancora insufficiente |
🚀 Dietro le quinte: Come SmartQuiz trasforma Dante in Leonardo
In questo studio abbiamo testato le IA "a freddo" — Dante senza Virgilio. (Per capire la differenza tra Dante e Leonardo, consulta la lezione base.)
Ma nella realtà di SmartQuiz, il processo è diverso. Non interroghiamo un LLM generico: lo trasformiamo in un Agente dotato di strumenti, integrando:
-
Le trascrizioni delle lezioni del Dott. Simone Chiarelli
-
le informazioni aggiornate prese da fonti normative aggiornate
Dante smette di essere un poeta che inventa e diventa un analista fedele che estrae fatti. Spiegazioni didatticamente utili, giuridicamente inattaccabili.
🎯 Prova il metodo
Non accontentarti di un'IA generica. Studia con un sistema che ha il suo Virgilio integrato.
- Quiz ufficiali: su studia.omniavis.it