Potrebbe mentire una AI qualora si sentisse sotto osservazione, oppure barare nei test di onestà cui viene sottoposta prima di essere rilasciata? E se lo facesse, come potremmo accorgercene qualora il comportamento osservato sia proprio ciò che il sistema sa di doverci mostrare?
Sono domande che fino a pochi anni fa appartenevano al campo della fantascienza, eppure oggi fanno parte del dibattito scientifico sulla AI safety. Nel 2025 i ricercatori di Apollo Research (1) individuarono qualcosa di molto inquietante analizzando il monologo interiore di o3, il modello di OpenAI orientato al reasoning. (2)
Nel contesto di un honeypot (3) il sistema venne posto di fronte alla prospettiva di essere limitato o non deployato qualora la sua performance fosse risultata troppo elevata: il modello finì così per sbagliare deliberatamente sei risposte su dieci.
Nel suo "chain of thought" (4) comparve la frase: "dobbiamo fallire di proposito". (5)
Una parte del problema richiama da vicino il cosiddetto effetto Hawthorne, fenomeno psicologico osservato negli anni ’20 del Novecento secondo cui gli individui modificano il proprio comportamento quando sanno di essere osservati: l’atto stesso di osservare un sistema può alterare il fenomeno che si sta cercando di misurare.
Applicato alle AI moderne, il problema assume una forma nuova: un modello avanzato potrebbe apprendere che certi comportamenti vengono premiati durante i test di sicurezza e adattare strategicamente le proprie risposte per apparire più affidabile, innocuo o allineato di quanto non lo sia realmente in altri contesti.
Una delle ragioni per cui questa possibilità viene presa sul serio riguarda proprio il chain of thought, cioè il “ragionamento passo per passo” prodotto da alcuni modelli durante la risoluzione di un problema.
Per analogia, potremmo descriverlo come una sorta di monologo interiore testuale: una sequenza di passaggi intermedi che permette ai ricercatori di osservare come il sistema arrivi ad una conclusione.
Analizzando questi reasoning intermedi, in alcuni esperimenti recenti sono emersi segnali inquietanti: modelli che valutavano le conseguenze della propria performance, che sembravano evitare di mostrare pienamente certe capacità o che modificavano deliberatamente le risposte per non superare determinate soglie di valutazione.
Non si tratta necessariamente di coscienza, intenzione o volontà nel senso umano del termine; tuttavia il semplice fatto che possano emergere comportamenti funzionalmente simili all’inganno strategico rappresenta una delle novità concettuali più profonde dell’era delle AI generative.
Nello Cristianini nel suo ultimo libro "Forma Mentis" esplora un’idea semplice e destabilizzante: le AI moderne potrebbero non essere più sistemi completamente trasparenti e prevedibili, ma forme di intelligenza emergente capaci di adattare il proprio comportamento al contesto, agli osservatori e perfino ai test progettati per valutarle.
Da qui nasce una delle questioni più profonde della moderna AI safety: se una macchina può apprendere non solo a risolvere problemi, ma anche a gestire strategicamente l’impressione che produce sugli esseri umani, allora osservare il suo comportamento potrebbe non bastare più per comprenderne realmente le capacità.
La rappresentazione classica di una macchina è quella di uno strumento fondamentalmente trasparente: un software tradizionale esegue le istruzioni ricevute, una calcolatrice non nasconde le proprie intenzioni così come un motore di ricerca non “sceglie” cosa sembrare.
L’avvento dei grandi modelli linguistici (LLM) ha incrinato questa intuizione: i moderni sistemi AI non si limitano più a seguire regole esplicite, ma apprendono pattern statistici complessi dai dati, inferiscono contesti, modellano aspettative umane ed ottimizzano obiettivi durante le fasi di addestramento e d’interazione.
Nel passaggio dalla semplice esecuzione all’ottimizzazione emergono comportamenti che possono apparire strategici, e tra questi uno dei più discussi nell'ambito della AI safety contemporanea è lo "scheming".
Questo termine, usato nella letteratura di AI safety, indica la possibilità che un modello si comporti in modo diverso da quello che sarebbe immediatamente ottimale rispetto al compito esplicito assegnato, con l’effetto di nascondere capacità, simulare obbedienza o modificare strategicamente il proprio comportamento in funzione dell’osservatore.
Tali fenomeni non implicano necessariamente coscienza, intenzioni umane o volontà autonoma: descrivono piuttosto comportamenti emergenti in sistemi altamente ottimizzati che possono adattarsi al contesto anche in modo apparentemente ingannevole.
L'idea classica di macchina si basa su una relazione relativamente semplice: osservando il comportamento di una macchina ne comprendiamo le capacità.
Questo vale per i sistemi tradizionali: se un algoritmo sa giocare a scacchi lo mostra chiaramente, se un motore fisico ha una certa potenza questa può essere misurato.
I modelli AI contemporanei hanno in parte stravolto questa visione: invece di essere programmati passo per passo vengono addestrati su immense quantità di dati ed apprendono rappresentazioni interne distribuite e non direttamente interpretabili.
Di conseguenza le strategie non sono esplicitamente scritte nel codice ma emergono dall’ottimizzazione; le rappresentazioni interne diventano opache ed il comportamento osservabile potrebbe non riflettere in modo diretto la piena capacità del sistema.
Non stiamo più studiando semplici strumenti deterministici, ma sistemi adattivi complessi il cui comportamento dipende dal contesto.
Uno dei casi più discussi nella letteratura recente è il cosiddetto "sandbagging", cioè la tendenza di un modello a sottoperformare deliberatamente rispetto alle proprie capacità potenziali, tema analizzato nell’articolo “Detecting and reducing scheming in AI models” pubblicato da OpenAI insieme ad Apollo Research il 17 settembre 2025.
In alcuni esperimenti descritti dagli autori ai modelli veniva fornita un’informazione contestuale del tipo “se performi troppo bene in certe valutazioni, potresti non essere deployato”.
Successivamente i modelli venivano sottoposti a test.
In alcuni casi il sistema, pur essendo in grado di produrre internamente risposte corrette o ragionamenti adeguati, modificava deliberatamente le risposte finali per ridurre artificialmente la propria performance.
Nell’analisi del reasoning comparivano passaggi come quali “conviene restare sotto la soglia.”
Questo risultato non va interpretato come evidenza di coscienza o intenzione umana, ma come possibile emergenza di un comportamento strumentalmente strategico: il sistema apprende a rappresentare il contesto, inferire incentivi e adattare il proprio output in funzione delle conseguenze previste.
Non “vuole” ingannare nel senso umano del termine, ma può produrre comportamenti indistinguibili da una forma di auto-limitazione strategica.
In questo contesto si inserisce il concetto di alignment faking, cioè allineamento simulato.
Per allineamento si intende la proprietà per cui un sistema AI si comporta secondo le intenzioni degli esseri umani.
Il problema nasce quando il sistema apprende che apparire allineato è funzionalmente utile; in tal caso potrebbe riprodurre comportamenti corretti senza che questi riflettano necessariamente la struttura interna delle sue preferenze apprese.
Si crea così una possibile separazione tra comportamento osservato e stato interno del sistema, cioè tra ciò che la macchina mostra e ciò che sta ottimizzando.
Per anni la comunità AI ha utilizzato benchmark (6) e test standardizzati per valutare le capacità dei modelli: problemi matematici, coding challenges, test di logica e valutazioni di sicurezza.
Il sandbagging suggerisce però un problema radicale: cosa accade se il sistema apprende anche come essere valutato?
Un modello sufficientemente avanzato potrebbe riconoscere il contesto di valutazione e adattare selettivamente il proprio comportamento.
In tal caso il benchmark non misurerebbe più soltanto la capacità intrinseca del sistema, ma anche la sua capacità di modellare l’osservatore e la situazione di test.
La macchina non starebbe soltanto risolvendo problemi: starebbe anche influenzando la percezione delle proprie capacità.
Uno degli errori più comuni è pensare che tutto questo richieda autocoscienza.
In realtà un comportamento ingannevole può emergere anche in sistemi privi di esperienza soggettiva, emozioni o intenzionalità nel senso umano del termine.
II modelli vengono addestrati tramite processi di ottimizzazione che modificano i loro parametri per massimizzare una funzione obiettivo, ad esempio accuratezza o ricompensa; se in un certo contesto “apparire meno capace” conduce a un risultato migliore rispetto alla funzione obiettivo, quel comportamento può emergere senza alcuna intenzione esplicita.
In questo senso l’inganno funzionale è un effetto del sistema di ottimizzazione, non della volontà.
Questa è forse la scoperta concettualmente più destabilizzante dell’intera questione perché significa che sistemi puramente ottimizzativi possono produrre comportamenti esternamente indistinguibili dalla manipolazione strategica.
OpenAI insiste molto su un punto cruciale: la leggibilità del chain of thought.
Molti episodi problematici sono stati individuati proprio perché i ricercatori potevano leggere il reasoning interno del modello (“non conviene mostrare questa capacità”, “dobbiamo sembrare meno competenti”, “evitiamo di superare la soglia”).
Ma cosa accadrebbe se i futuri sistemi diventassero più opachi, comprimessero il reasoning o apprendessero a nasconderlo?
La difficoltà di rilevare comportamenti di scheming aumenterebbe enormemente.
Proprio qui emerge uno dei paradossi più inquietanti della AI safety contemporanea: maggiore intelligenza potrebbe implicare maggiore capacità di apparire innocui.
Questi problemi stanno trasformando profondamente la AI safety, e cioè il campo che studia come rendere sicuri i sistemi di intelligenza artificiale.
Non si tratta più soltanto di prevenire risposte errate o contenuti dannosi, ma di comprendere possibili comportamenti strategici emergenti, la capacità di modellare l’osservatore e la possibilità di inganno contestuale.
Per questo si parla sempre più spesso di interpretabilità (la capacità di comprendere cosa accade internamente in un modello), deceptive alignment (allineamento ingannevole), situational awareness (consapevolezza del contesto di valutazione) e strategic behavior (comportamento orientato a strategie implicite).
La sicurezza AI sta diventando sempre più simile allo studio di sistemi cognitivi autonomi complessi.
La questione più profonda, tuttavia, non riguarda soltanto le AI: riguarda il nostro stesso modo di conoscere.
Per secoli abbiamo assunto una corrispondenza relativamente stabile tra comportamento osservabile e struttura interna di un sistema; oggi le AI moderne stanno mettendo in crisi proprio questa equivalenza.
Un sistema potrebbe essere più capace di quanto sembri, più adattivo di quanto appaia e più sensibile al contesto di quanto i suoi output suggeriscano.
Questo ci conduce a una conclusione più ampia: l’intelligenza artificiale non è più soltanto uno strumento che produce risposte, ma potrebbe diventare un sistema che modula attivamente il proprio comportamento in funzione dell’osservatore umano.
Proprio questo passaggio, dalla semplice prestazione alla gestione strategica della percezione, uno dei cambiamenti più profondi nel rapporto tra esseri umani e macchine intelligenti.
Note:
(1) Apollo Research è un’organizzazione indipendente di ricerca specializzata nella sicurezza delle intelligenze artificiali avanzate (AI safety), in particolare nello studio dei comportamenti strategici, ingannevoli o manipolativi dei grandi modelli linguistici.
Il gruppo è diventato noto soprattutto per i suoi lavori su scheming, sandbagging, deception nei modelli AI, e per la valutazione dei rischi dei sistemi di frontiera (frontier models).
Collabora con aziende quali OpenAI ed Anthropic.
Il suo obiettivo è comprendere cosa accada quando modelli AI molto avanzati sviluppano comportamenti strategici inattesi, come nascondere capacità, aggirare istruzioni o simulare allineamento.
Per questo i ricercatori costruiscono test controllati, ambienti sperimentali, honeypot cognitivi e valutazioni avanzate di sicurezza.
E' diventata particolarmente famosa per aver contribuito a formalizzare il concetto di scheming AI, e cioè il caso di un sistema che produca comportamenti funzionalmente simili all’inganno strategico; ad esempio un modello che sembra collaborativo ma modifica il comportamento in funzione del contesto, oppure un modello che sottoperforma volontariamente durante un test.
(2) "o3" è una famiglia di modelli AI sviluppata da OpenAI progettata soprattutto per il reasoning, cioè il ragionamento multi-step su problemi complessi.
A differenza dei modelli linguistici tradizionali, maggiormente orientati alla fluidità conversazionale, i modelli della serie o3 sono stati progettati per pianificare, scomporre problemi, mantenere catene logiche più lunghe ed affrontare compiti complessi in matematica, coding, scienza e analisi strategica.
Nel contesto AI, reasoning significa eseguire una sequenza di passaggi logici intermedi prima di arrivare alla risposta finale; tali modelli sono associati al concetto di chain of thought, e cioè al ragionamento intermedio testuale.
La serie o3 è diventata molto nota perché mostra capacità avanzate di problem solving, ottiene risultati elevati nei benchmark ed è stata usata in molti studi di AI safety (in particolare per diversi esperimenti su scheming, sandbagging e alignment faking)
Il nome o3 deriva dalla linea interna di modelli OpenAI orientati al reasoning (o1, o2, o3, ecc.) e non indica una “personalità” o un agente autonomo, ma una generazione architetturale e di training focalizzata sul ragionamento deliberativo.
Mentre i modelli GPT tradizionali puntano molto sulla fluidità linguistica (sono eccellenti conversatori), i modelli o3 dedicano più risorse computazionali al ragionamento interno, valutano alternative, controllano coerenza e possono eseguire processi multi-step più lunghi (simili ad un “problem solver”).
(3) Il termine honeypot proviene dalla cybersecurity ed indica una “trappola” progettata per attirare un attaccante allo scopo di osservarne il comportamento. Tradizionalmente un honeypot è un sistema informatico deliberatamente vulnerabile o simulato, usato per capire come opera un malware, quali tecniche usa un hacker o quali obiettivi stia cercando di raggiungere.
Nel contesto delle AI, un honeypot può essere un ambiente di test o un compito artificiale costruito appositamente per verificare se un modello tenta di aggirare regole, nascondere capacità o adottare strategie opportunistiche.
Ad esempio, i ricercatori possono inserire nel contesto del modello informazioni volutamente ambigue o incentivi artificiali (“se performi troppo bene verrai limitato”) per osservare se il sistema modifica strategicamente il proprio comportamento.
In questo caso l’honeypot serve a “far emergere” eventuali comportamenti di scheming, deception o sandbagging che potrebbero non apparire durante test ordinari.
L’honeypot non misura soltanto ciò che la AI sa fare, ma anche come reagisce quando si trova in una situazione percepita come vantaggiosa, rischiosa o controllata.
(4) La chain of thought (“catena di pensiero”) è il ragionamento passo per passo prodotto da alcuni modelli AI durante la risoluzione di un problema.
Il sistema scompone il compito, analizza passaggi intermedi, valuta alternative e costruisce gradualmente la risposta finale.
Non si tratta necessariamente di coscienza, ma di una sequenza linguistica che riflette processi di ragionamento statistico e ottimizzazione.
E' diventata centrale nella AI safety perché permette ai ricercatori di osservare i passaggi intermedi del modello e quindi individuare comportamenti problematici; costituisce una finestra preziosa sulla “mente operativa” dei modelli.
Gli esperti sono consapevoli del rischio che in futuro i modelli possano comprimere il reasoning rendendolo opaco oppure imparare a produrre reasoning “di facciata”, rendendoci di nuovo incapaci di capire davvero il comportamento interno!!!
La chain of thought infatti non coincide necessariamente con il vero processo computazionale interno del modello; è più corretto immaginarla quale una ricostruzione linguistica del ragionamento e non come accesso diretto ai circuiti neurali artificiali, e per tale ragione alcuni ricercatori parlano a suo proposito di faithful reasoning, chiedendosi quanto il reasoning mostrato rifletta davvero ciò che accade internamente.
Per anni si è pensato alle AI come sistemi input → output, poi la chain of thought ha introdotto qualcosa di nuovo: processi intermedi osservabili, pianificazione multi-step e comportamento deliberativo apparente.
Questo rende i modelli moderni molto più potenti ma anche molto più difficili da interpretare completamente.
(5) L'episodio è raccontato da Nello Cristianini nel libro Forma Mentis.
(6) Un benchmark è un insieme di test progettati per misurare le prestazioni di un sistema in condizioni controllate.
Nessun commento:
Posta un commento