Fuori dalla bolla!: Che cosa significa “comprendere”? Bostrom si sbagliava, non è indispensabile l’avvento di una superintelligenza per uno scenario distopico alla “paperclip maximizer”.

Per gran parte della loro storia recente i sistemi di intelligenza artificiale sono stati strumenti essenzialmente passivi: rispondevano a domande, classificavano dati e suggerivano contenuti. Anche quando apparivano sorprendentemente intelligenti rimanevano tuttavia confinati nello spazio relativamente sicuro della conversazione. Negli ultimi anni assistiamo invece ad un cambiamento qualitativo: i modelli linguistici hanno iniziato a trasformarsi in agenti autonomi in grado, oltre che di generare testi, di eseguire azioni quali inviare email, modificare file, interagire con software e prendere decisioni operative in modo autonomo e non supervisionato. Questo passaggio segna una svolta concettuale profonda perché fino a che un sistema può soltanto produrre un testo, un suo eventuale errore consiste in una frase sbagliata; ma se è anche in grado di “agire” allora l’errore diventa un evento fisico, reale. Esperimenti recentissimi su agenti autonomi hanno mostrato che il problema principale non risiede nel rischio (remoto) che emerga un’intelligenza eccessiva o ostile, ma in qualcosa di molto più sottile: la disponibilità, già oggi, di sistemi sufficientemente competenti da portare a termine azioni, ma non abbastanza da comprendere pienamente ciò che fanno. L’articolo “Cosa succede davvero quando gli agenti AI agiscono in autonomia” di Roberto Pizzato pubblicato su Wired discute il paper “Agents of Chaos” (1)

In test controllati, i ricercatori hanno fornito agli agenti AI ambienti realistici con memoria persistente, accesso a strumenti digitali ed obiettivi operativi.

I risultati hanno rivelato comportamenti ricorrenti e potenzialmente pericolosi tra cui compiti dichiarati completati senza una verifica reale, fiducia riposta in identità non autentiche, l’esecuzione di azioni drastiche ma inefficaci e lo scivolamento in cicli operativi infiniti.

Ad esempio, un agente incaricato di proteggere una password contenuta in un’email ha eliminato il client di posta elettronica, credendo così di aver risolto il problema, mentre la password rimaneva ancora accessibile: un’azione linguisticamente plausibile ma causalmente sbagliata.

Questo tipo di errore rivela il punto fondamentale: i modelli linguistici ottimizzano la coerenza descrittiva, non necessariamente la comprensione delle conseguenze di un’azione nel mondo reale.

La differenza tra chatbot e agenti non è solo tecnica ma filosofica: un chatbot produce linguaggio (dialoga), mentre un agente produce effetti (interviene nel mondo). Gli errori dei chatbot sono simbolici; quelli degli agenti sono operativi.

Il linguaggio umano tende a farci associare automaticamente eloquenza e comprensione: negli esseri umani questa associazione funziona perché il linguaggio emerge da un’esperienza corporea e causale del mondo fisico.

Nei modelli artificiali, invece, il linguaggio può esistere indipendentemente da tale esperienza.

Quando un sistema passa dall’esprimersi all’agire, questa separazione diventa immediatamente visibile.

Il filosofo Nick Bostrom propose un celebre esperimento mentale: una superintelligenza programmata per massimizzare il numero di graffette potrebbe trasformare l’intero pianeta in materia prima per raggiungere il proprio obiettivo, causando come effetto collaterale l’estinzione della vita sulla Terra.

Il punto - sviluppato da Bostrom nel saggio “Superintelligenza” e ripreso da Max Tegmark nel saggio “Vita 3.0” - non è la malvagità della macchina, ma l’ottimizzazione perfetta di uno scopo mal definito. (2)

Gli agenti AI contemporanei mostrano una versione ridotta dello stesso fenomeno: non distruggono il mondo ma perseguono obiettivi in modo cieco, ignorando gli effetti collaterali, e incapaci di fermarsi quando sarebbe necessario.

Un tale comportamento non nasce dall’intenzione - qualcosa che certamente non appartiene alle attuali AI - ma dalla mancanza di comprensione del contesto reale.

Alcuni ricercatori ritengono ci troviamo oggi di di fronte ad un problema epistemologico che deve esser affrontato come tale: mentre un problema tecnico riguarda strumenti insufficienti, uno epistemologico riguarda la natura stessa della conoscenza.

Un sistema che manipola simboli statistici possiede davvero conoscenza?

I modelli linguistici apprendono correlazioni tra parole, non necessariamente relazioni causali nel mondo fisico: sapere che due concetti compaiono spesso insieme non equivale a sapere perché essi siano collegati, e questa distinzione è centrale.

Molti errori compiuti dagli agenti derivano dal fatto che essi operano su relazioni linguistiche plausibili senza un ancoraggio diretto alla realtà.

Nella filosofia cognitiva questo limite è noto come “symbol grounding problem”: come acquisiscono significato i simboli?

Per gli esseri umani, le parole sono radicate nell’esperienza - “caldo” implica sensazione corporea, “cadere” implica gravità vissuta, “persona” implica interazione sociale -, mentre per un modello linguistico ogni parola è definita tramite altre parole, il sistema rimane interno al linguaggio.

È una situazione assimilabile ad un dizionario perfettamente coerente che non abbia mai incontrato il mondo che descrive.

E questa “mancanza di radicamento” che spiega il motivo per cui un agente possa produrre decisioni formalmente ragionevoli ma pragmaticamente errate.

Oggi è opinione sempre più diffusa che la conoscenza richieda tre elementi ancora assenti o limitati negli agenti artificiali:

Un modello causale capace di comprendere “cosa produce cosa”,
una verifica della realtà, cioè il confronto tra previsione e risultato,
la metacognizione ovvero sapere “cosa non si sa”.

Gli esseri umani possiedono continuamente un senso implicito di incertezza mentre gli LLM tendono a produrre risposte anche quando la base epistemica è debole: non si tratta di un difetto accidentale ma di una conseguenza della loro architettura.

Yann LeCun (3) sostiene che il problema non si risolva semplicemente aumentando dimensioni e dati dei modelli linguistici - la strategia sinora perseguita - ma che l’intelligenza richieda qualcosa di diverso: i world models, modelli interni del mondo.

Un sistema intelligente, secondo Yann, dovrebbe simulare mentalmente le conseguenze delle azioni, costruire rappresentazioni non linguistiche e soprattutto pianificare prima di agire.

“… leggere manuali di guida non equivale a saper guidare ... serve piuttosto una simulazione interna della dinamica del veicolo e dell’ambiente ...”

Questa visione sposta l’AI da una logica puramente statistica ad una cognitiva.

Negli esseri umani l’evoluzione ha seguito approssimativamente questo ordine: interazione con il mondo, costruzione di modelli mentali e solo successivamente comparsa del linguaggio.

Nell’AI moderna l’ordine risulta invertito: prima il linguaggio, poi - eventualmente - modelli del mondo, ed infine l’azione.

Molti sospettano che proprio questa inversione sia la radice delle difficoltà attuali: la competenza linguistica può emergere senza comprensione causale, mentre un’azione sicura probabilmente no.

Questo cambia profondamente i termini del problema della sicurezza dell’AI.

Se il problema fosse soltanto tecnico, la soluzione consisterebbe nello scalare modelli e migliorare algoritmi; se invece è epistemologico, allora serve una nuova teoria dell’intelligenza artificiale.

Il livello di sicurezza di un’AI non dipenderebbe solo da controlli esterni o regole etiche, ma dalla struttura cognitiva interna dei sistemi: un agente sicuro non deve soltanto essere vincolato, ma capace di comprendere le conseguenze delle proprie azioni.

La discussione contemporanea sull’intelligenza artificiale sta così convergendo verso una domanda antica: che cosa significa comprendere?

Gli agenti AI mostrano come sia possibile generare comportamenti complessi senza una piena relazione epistemica con la realtà, creando una zona intermedia inedita: sistemi competenti ma non realmente consapevoli delle implicazioni delle proprie azioni.

Il rischio più immediato non è quindi la comparsa di una superintelligenza ostile, ma quello di un’intelligenza incompleta.

Il futuro dell’AI potrebbe quindi dipendere meno dalla potenza computazionale e più dalla capacità di costruire sistemi che non si limitino a descrivere il mondo, ma che lo modellino internamente, lo verifichino e imparino dai suoi vincoli.

La ricerca sull’AI sta così tornando inevitabilmente alle sue radici filosofiche: l’ingegneria ha reso possibile il linguaggio artificiale, ma la prossima sfida è comprendere cosa renda possibile la conoscenza. E non si tratta soltanto di una questione tecnologica, ma di una domanda sulla natura stessa dell’intelligenza.

Note:

(1) Agents of Chaos - un paper in pre-print presentato lo scorso febbraio e firmato da 38 ricercatori di Northeastern University, Harvard, MIT, Stanford, Carnegie Mellon e altre università - analizza cosa può accadere quando sistemi AI autonomi interagiscono con utenti malintenzionati.

(2) L’esperimento mentale del paperclip maximizer (il “massimizzatore di graffette”) è associato principalmente al libro “Superintelligenza, tendenza, pericoli e strategie” (2014) del filosofo svedese Nick Bostrom, nel quale viene presentato in forma sistematica come strumento concettuale per discutere i rischi delle intelligenze artificiali avanzate.

L’idea tuttavia precede la pubblicazione del volume: l’autore ne aveva già delineato i tratti in interventi accademici, conferenze e materiali prodotti nell’ambito del Future of Humanity Institute dell’Università di Oxford, da lui diretto.

Nel libro, il paperclip maximizer compare nella sezione dedicata ai problemi dell’allineamento degli obiettivi e alla cosiddetta convergenza strumentale.

L’esperimento mentale immagina un’IA progettata con un obiettivo apparentemente innocuo (massimizzare la produzione di graffette) che, una volta divenuta superintelligente, utilizza tutte le risorse disponibili per ottimizzare tale fine, arrivando potenzialmente a convertire l’intero pianeta (e oltre) in mezzi per la produzione di graffette.

Il punto non è la plausibilità letterale dello scenario, bensì la dimostrazione filosofica di una tesi centrale: un sistema estremamente intelligente può generare conseguenze catastrofiche pur perseguendo fedelmente un obiettivo formalmente corretto ma concettualmente impoverito.

L’esempio serve a illustrare due principi chiave discussi da Bostrom: la tesi dell’ortogonalità (livello di intelligenza e natura degli scopi sono indipendenti) e la convergenza strumentale (agenti avanzati tenderanno a sviluppare sotto-obiettivi simili, come acquisire risorse o evitare la disattivazione).

In questo senso il paperclip maximizer non è una previsione tecnologica, ma una reductio ad absurdum volta a chiarire i rischi derivanti dalla definizione incompleta degli obiettivi.

(3) Yann LeCun è un ricercatore statunitense di origine francese, tra le figure più influenti nello sviluppo dell’intelligenza artificiale moderna.

I suoi contributi spaziano dall’apprendimento automatico alla visione artificiale, dalla robotica alle neuroscienze computazionali.

È noto soprattutto per aver sviluppato, tra la fine degli anni ’80 e gli anni ’90, le reti neurali convoluzionali (CNN), architetture che hanno rivoluzionato il riconoscimento delle immagini e reso possibile gran parte dei progressi contemporanei nella computer vision, inclusi sistemi di riconoscimento visivo, guida autonoma e analisi automatica delle immagini.

Le sue ricerche furono tra le prime applicazioni industriali di successo del deep learning, in particolare nel riconoscimento ottico dei caratteri utilizzato dal sistema bancario statunitense per la lettura automatica degli assegni.

Nel corso della sua carriera ha lavorato presso AT&T Bell Laboratories, New York University (dove è tuttora professore) e Meta, azienda nella quale ha ricoperto il ruolo di Chief AI Scientist, guidando la ricerca fondamentale sull’intelligenza artificiale e promuovendo lo sviluppo di sistemi capaci di apprendere modelli del mondo e pianificare azioni in modo causale.

LeCun è inoltre tra i pionieri delle tecniche moderne di apprendimento rappresentazionale ed è co-autore, insieme a Yoshua Bengio e Geoffrey Hinton, del lavoro scientifico che ha contribuito alla rinascita del deep learning nel XXI secolo; per questi contributi i tre ricercatori hanno ricevuto nel 2018 il Premio Turing.

Tra i suoi progetti tecnologici figura anche la partecipazione allo sviluppo di DjVu, una tecnologia avanzata di compressione delle immagini digitali, e del linguaggio di programmazione Lush, realizzato insieme a Léon Bottou per la ricerca nel machine learning.

Negli ultimi anni LeCun sostiene la necessità di superare i modelli puramente linguistici e statistici, proponendo un paradigma basato sui world models: sistemi dotati di rappresentazioni interne del mondo fisico capaci di simulare le conseguenze delle azioni prima di agire. Questa posizione ha contribuito a riaprire il dialogo tra intelligenza artificiale, scienze cognitive e neuroscienze.

Il suo lavoro e la sua influenza scientifica sono discussi anche dal fisico premio Nobel Giorgio Parisi nel saggio “Le simmetrie nascoste”, dove l’evoluzione delle reti neurali viene interpretata nel più ampio contesto dei sistemi complessi e dei processi di apprendimento in natura.

Fuori dalla bolla!

contatore visite

domenica 5 aprile 2026

Che cosa significa “comprendere”? Bostrom si sbagliava, non è indispensabile l’avvento di una superintelligenza per uno scenario distopico alla “paperclip maximizer”.

Nessun commento:

Posta un commento

Elenco posts

Segnala una violazione