Nello Cristianini, esperto di AI presso l'università di Bath, nel suo ultimo saggio "Sovraumano" (1) si chiede quanto manchi al raggiungimento di un obiettivo ambizioso: la creazione di una vera e propria AGI (Artificial General Intelligence).
Con questo termine l'autore indica un sistema di Intelligenza Artificiale "in possesso di un ragionevole grado di autocomprensione ed autocontrollo autonomo, capace di risolvere una varietà di problemi complessi in una varietà di contesti, ed inoltre di imparare a risolvere nuovi problemi di cui non era a conoscenza al momento della sua creazione". (2)
Nel corso degli ultimi decenni sono state sviluppate con successo una moltitudine di AI "specialistiche" (denominate ANI, e cioè Artificial Narrow Intelligence) basate su reti neurali artificiali (3), progettate per portare a termine un solo compito specifico, spesso meglio di quanto potrebbe fare un essere umano.
Sono state create AI di tal sorta in grado di vincere contro campioni mondiali in giochi di strategia quali gli scacchi o il gioco del Go, altre abilissime nel riconoscere gli oggetti presenti in una foto, nel riconoscimento facciale, nel creare immagini partendo da un testo, e molto altro.
Esaminando quantità enormi di dati esse sono in grado di individuare sottili correlazioni che sfuggono ad una mente umana (4), contribuendo così all'avanzamento della scienza in molti settori.
Punto debole delle ANI è la necessità di avviare un nuovo processo di addestramento ogni qual volta si decida di cambiare il compito assegnatole: ad esempio AlphaGo (5) dopo aver vinto contro i campioni mondiali del gioco del Go, per bissare il successo nel mondo degli scacchi ha dovuto esser "riaddestrata".
Chiariamo subito il punto: sino ad oggi nessuna AI ha ancora raggiunto il grado di AGI ("disponiamo di innumerevoli specialisti artificiali migliori di quelli umani ma non di una singola AI in grado di risolvere qualsiasi problema").
Ci sono tuttavia diversi "pretendenti al titolo" in rapido sviluppo (6) ed urge dunque trovare un modo che ci permetta di riconoscere il momento in cui tale traguardo verrà superato. "Stabilire se una AI sia o meno in grado di svolgere tutti i compiti cognitivi degli esseri umani allo stesso livello non è cosa semplice", ci informa Cristianini. Mentre per verificare il livello di abilità raggiunto da una Artificial Narrow Intelligence è sufficiente il confronto con le prestazioni umane relativamente a quel compito specifico per cui essa è stata progettata (7), testare una AI per vedere se sia davvero capace di risolvere problemi interamente nuovi in tutti gli ambiti non può prescindere dalla compilazione di una lista di abilità che si vogliono esaminare e dalla disponibilità di un metodo per farlo.
In assenza dell'una o dell'altro, potrebbero esser sovrastimate le capacità di una AI portandoci a classificarla come AGI senza che lo sia davvero; rischio che potrebbe concretizzarsi ad esempio trascurando l'analisi di alcune "abilità" che contraddistinguono gli individui della nostra specie. La via intrapresa da oltre un decennio è quella di utilizzare come guida la psicometria - una scienza legata alla psicologia umana che vanta oltre un secolo di esperienza - per individuare il modo più opportuno di testare il livello di intelligenza delle AI. (8)
Essa permette, avvalendosi di batterie di test create appositamente per misurare diversi tipi di competenze, di stilare una "pagella" che si ritiene possa restituire un responso sintetico (un "voto") atto a promuovere o meno il candidato ad AGI. Si sono così venute a creare due figure professionali che lavorano a stretto contatto: i valutatori, cui compito è preparare una serie di test atti a misurare le capacità raggiunte dalle AI in molti campi, e gli addestratori, che hanno invece il compito di addestrare i candidati a superarli. Le misure ottenute in questo modo (9) vengono confrontate con le prestazioni degli esseri umani, e dovrebbero fornirci un indicatore della distanza delle prestazioni dell''AI esaminata dal raggiungimento del grado AGI. Le cose tuttavia non sono così semplici: "I test di valutazione plasmano ciò che uno studente impara" ci avverte Cristianini, ed il rischio è quello di ottenere macchine specializzate a superare soltanto quei particolari test ("rispondere correttamenente a tutti i test di un esame di medicina non significa necessariamente che si possa svolgere la professione di medico"). I primi benchmark (10) cui vennero sottoposte le AI ne rilevarono lacune che una successiva fase di addestramento contribuì ad eliminare, rendendo così necessario ai valutatori creare nuove batterie basate su nuovi criteri.
La progressiva saturazione dei benchmark ha reso evidente il verificarsi di un fenomeno che ritroviamo nello studio dell'evoluzione delle forme di vita terrestri: la coevoluzione antagonista.
Si è infatti instaurata una tensione creativa che spinge i valutatori a creare esami sempre più difficili con situazioni in cui l'agente fallisce, e gli addestratori a preparare macchine che li superino (cercando di rimediare ai difetti riscontrati dai valutatori nella fase precedente). Questa spirale ci porta ad esplorare i limiti dell'intelligenza umana come quelli dell'intelligenza artificiale: "l'avventura delle AI è anche l'esplorazione limiti umani", avverte l'autore. Nel 2018 OpenAI presentò GPT - una rete neurale enorme addestrata con immense quantità di testo che si era rivelata in grado di distillarne i contenuti, astrarli e ricombinarli per generare risposte a domande mai viste prima - incrementandone in seguito la dimensione anno dopo anno, e vedendone crescere di conseguenza capacità ed accuratezza.
Con l'avvento dei Large Language Models (11) la velocità con cui i benchmark venivano saturati rese indispensabile individuare una definizione pratica di AGI al fine di poterne riconoscere la presenza una volta che ci si trovi davanti ad essa.
Tale definizione operativa doveva basarsi su due aspetti diversi: la varietà di compiti che un agente intelligente fosse in grado di svolgere e la competenza raggiunta in quei compiti rispetto ai risultati conseguiti dagli esseri umani. In quest'ottica si inserisce un documento interno di OpenAI del 2023 che individuava 5 tappe progressive da conseguire per il raggiungimento della qualifica AGI: - conversatori, macchine in grado di conversare; - ragionatori: macchine in grado di ragionare; - agenti: macchine in grado di intraprendere azioni per conto dell'utente nell'arco di molti giorni; - innovatori: macchine in grado di innovare; - organizzazioni: macchine equivalenti ad un'intera organizzazione di persone. Ciascuna di queste 5 tappe viene poi messa in relazione ad un particolare livello di prestazioni "umane": - emergente: il risultato ottenuto nel benchmark è migliore di quello conseguibile da un essere umano non qualificato; - competente: migliore di quello conseguibile dal 50% degli esseri umani; - esperto: migliore di quello conseguibile dal 90% degli esseri umani; - virtuoso: migliore di quello conseguibile dal 99% degli esseri umani; - sovraumano: migliore di quello conseguibile dal 100% degli esseri umani; Nel corso del 2024 non esisteva ancora una intelligenza artificiale che potesse definirsi AGI (alcuni modelli risultavano aver raggiunto il 2° livello, "ragionatori" e cioè macchine in grado di ragionare), tuttavia l'impressione degli specialisti era che la strada per conseguire tale obiettivo fosse oramai tracciata.
Le direzioni più promettenti erano due: aumentare la scala (la grandezza) dei modelli e studiare archietture in grado di eseguire semplici ragionamenti. L'analisi dei benchmark rivelò che un certo tipo di problemi riscontrati dalle AI si potessero risolvere aumentando la dimensione dei dati e dei modelli, mentre altri tipi di problemi sembravano richiedere un approccio diverso.
Cristianini fa riferimento al saggio del nobel Daniel Kahneman (12) che descrive due modi differenti di pensare per un essere umano, battezzati "sistema 1" e "sistema 2".
Il primo corrisponde all'intuizione - un processo involontario, implicito e veloce -, mentre il secondo al ragionamento - un processo volontario, espicito e lento. a) Per la soluzione di problemi che noi esseri umani conseguiamo utilizzando l'intuizione (il "sistema 1", che H. Simon definì "niente di più che una forma di riconoscimento") sembra sia sufficiente aumentare la scala dei modelli di AI.
L'esperienza condotta in tempi recentissimi con i Large Language Models dimostrava che alcune proprietà cognitive dei modelli di AI emergono solo quando le loro dimensioni superino un certo ordine di grandezza. (13)
Una parte dei ricercatori ritiene che continuare ad accrescerle sia la soluzione migliore per il raggiungimento di una forma di AGI. Si tratta della Scaling Hypothesis ("Ipotesi di Scalabilità") un’idea secondo la quale le prestazioni di un agente intelligente crescono in modo prevedibile e continuo all'aumentare della sua scala, e cioè del numero di parametri del modello, della quantità di dati di addestramento e della potenza computazionale utilizzata.
Tale relazione può esser descritta matematicamente mediante le Scaling laws ("leggi di scala"). (14)
Esistono tuttavia dei limiti ad un aumento costante delle dimensioni:
- L'efficienza computazionale: la crescita esponenziale delle risorse richieste per la computazione potrebbe non essere sostenibile a lungo termine.
- La qualità dei dati: all’aumentare della scala, trovare dati di qualità diventa sempre più difficile, e prima o poi i dati disponibili on line potrebbero non bastare per l'addestramento.
- Generalizzazione e comprensione: i modelli scalano in prestazioni, ma non è chiaro se scalino anche in vera "comprensione" o "ragionamento".
- Bias e allucinazioni: l’aumento della scala non sempre elimina i problemi sistematici.
- Consumo di energia: questi modelli di AI sono energivori e non sono trascurabili né il loro impatto sull'ambiente né il costo economico che richiederanno versioni future.
b) La soluzione di problemi per i quali noi esseri umani utilizziamo il ragionamento (il "sistema 2" di Kahneman) sembra invece richiedere un intervento sull'architettura del modello, in modo tale che un problema complesso venga risolto attraverso la sua decomposizione in più passaggi semplici. La Chain of Thought ("Catena dei pensieri") (15) è una tecnica che migliora il ragionamento dei modelli di linguaggio fornendo passaggi intermedi espliciti nel processo di generazione della risposta: invece di dare una risposta immediata, il modello "pensa ad alta voce" suddividendo il problema in più passi logici.
Invece di generare direttamente una risposta sulla base della probabilità della sequenza di parole, il modello viene istruito a scomporre il ragionamento in passaggi successivi, come farebbe un essere umano quando risolve un problema complesso.
Questa tecnica è efficace soprattutto quando il compito assegnato riguarda calcoli matematici e ragionamenti logici, comprensione di testi, inferenze e pianificazione in robotica ed agenti AI.
Vantaggi sono una migliore accuratezza delle risposte in relazione a problemi complessi, una maggiore trasparenza nel processo decisionale ed una minor probabilità di errori casuali in quanto il modello "verifica" la sua logica passo dopo passo. Saranno davvero queste due le strade che ci porteranno ad una forma di Artificial General Intelligence? Cristianini si dice sicuro che, nel momento in cui le AI raggiungeranno questo obiettivo, "non fermeranno la propria corsa" verso livelli di intelligenza sempre maggiori:
"... Abbiamo già visto le AI specialistiche raggiungere e superare le capacità umane in ambiti specifici, perché non dovrebbe succeder la stessa cosa con quelle generaliste? ..." Lo scenario che si apre in conseguenza di questa ipotesi è molto complesso: dopo aver realizzato macchine che "ci eguagliano nei nostri stessi compiti", ipotetiche ASI (Artificial Super Intelligence) potrebbero "superarci negli stessi compiti che ci definiscono" oppure "svolgere compiti che neppure possiamo comprendere". E' questa seconda ipotesi a scatenare reazioni quali "riluttanza e senso di vertigine", ed a preoccupare gran parte degli addetti ai lavori.
Esser coscienti dell'esistenza di una macchina che gioca a scacchi o a Go meglio di qualsiasi essere umano (o che decodifica informazioni da un data set in un modo che non potremo mai emulare), in fondo non ci crea preoccupazione: percepiamo tale macchina come uno strumento per migliorare le nostre capacità, comunque al nostro servizio.
Non dovrebbe esser troppo diversa una situazione in cui esistano macchine che ci eguaglino nello svolgere i nostri stessi compiti: si tratta solo di superare uno shock iniziale simile a quello che proverebbe una persona vissuta verso la metà metà del secolo scorso "catapultata" negli anni '20 del 2000. L'idea invece di convivere con macchine "sovrumane" di cui mai potremo eguagliare l'intelligenza ci è difficile da accettare in quanto implica l'eventualità possano esistere problemi cognitivi completamente estranei alla natura umana:
"... Non siamo dotati di un'intelligenza universale, anzi: quella umana è molto specializzata" - rincara la dose l'autore - "Perché non immaginare problemi cognitivi completamente estranei alla nostra natura, dato che nessuna legge fisica o matematica lo vieta? ..." (16) Un agente dotato di superintelligenza potrebbe esser in grado di comprendere cose che la nostra mente ne sia incapace, così come potrebbero essercene altre che a noi risultano facili e che tuttavia rimarranno per sempre off-limits alle macchine. E' importante poi distinguere tra l'intelligenza - intesa come capacità di perseguire obiettivi in ambienti non noti - ed altre qualità umane che da sempre l'accompagnano, e che quindi siamo abituati a considerare inscindibili da quest'ultima (quali ad esempio la coscienza e le emozioni), che non necessariamente potrebbero appartenere ad una AGI o ad una ASI: "... Una AGI sarebbe forse in grado di svolgere qualsiasi lavoro che oggi un operatore umano può svolgere in smart working, ma che dire di lavori che richiedono intelligenza emotiva quali quello dell'insegnante? ..." - si chiede ancora l'autore. (17) Una AGI dovrebbe poi esser in grado di produrre autonomamente risultati scientifici di valore.
Qualche anno fa Marcus du Sautoy (vedi "Il codice della creatività") reclamava una supremazia persistente della creatività umana almeno nell'ambito della matematica: "... una AI potrà individuare milioni di nuovi teoremi matematici, ma non saprà indicare quelli che contano davvero distinguendoli da altri le cui conseguenze per l'avanzamanto nella conoscenza della disciplina hanno un basso impatto ..."
Ebbene, già oggi le AI sono addestrate leggendo libri e documenti in una quantità superiore a quella possibile per un essere umano, e ricavarne compendi e riassunti.
Presto potrebbero esser in grado di identificare contraddizioni e connessioni sorprendenti, compilare articoli scientifici senza l'intervento umano e, perché no, portare a termine esperimenti e ricerche in piena autonomia.
Comportarsi cioè da agenti innovatori ("... semplicemente perché in grado di digerire più informazioni di noi ...") e finanche organizzatori, completando così le 5 tappe indicate da OpenAI. Una possibilità da considerare è che le macchine sviluppino forme di intelligenza diverse dalla nostra, comprendendo concetti che per noi sono inaccessibili, già sulla via dell'AGI.
"... un agente intelligente comprende il proprio ambiente quando ne possiede una rappresentazione che gli permetta di anticiparne i comportamenti ..."
Disponendo della possibilità di raccogliere dall'ambiente informazioni di tipo diverso rispetto a quanto può fare un essere umano con i suoi sensi, la rappresentazione che ne ricava sarebbe anch'essa di tipo diverso, e quindi potrebbe portare ad azioni per noi incomprensibili.
"... ogni intelligenza ha dei limiti e quindi esistono sempre territori a lei inaccessibili ma frequentabili da altri tipi di intelligenza ..." (18) La psicologa cognitiva Elisabeth Spelke coniò l'espressione "core knowledge" (conoscenza di base) per descrivere alcune abilità cognitive innate negli esseri umani che formano la base del nostro apprendimento e ragionamento.
Al pari di altri primati abbiamo aspettative innate quali la permanenza dell'oggetto (riteniamo che gli oggetti continuino ad esistere anche quando non li vediamo), i concetti numerici (una comprensione di base di piccoli numeri e quantità), il ragionamento causale (collegare causa ed effetti), la cognizione sociale (intepretare segnali sociali ed emozioni). (19)
Tali assunzioni sono utili ma non sempre sono corrette, e tavolta possono fuoriviarci: ad esempio la Meccanica Quantistica ci risulta difficile da comprendere e controintuitiva perché non fa uso di oggetti discreti con posizioni precise e collegati da relazioni causali.
"... chissà quante cose non abbiamo ancora scoperto perché non sono descrivibili in termini di oggetti permanenti, cause ed effetti locali e concetti numerici ..." si chiede Cristianini. Un altro particolare evidenziato dall'autore è la piccola dimensione della nostra "memoria di lavoro": possiamo tener a mente contemporaneamente circa 7/9 "oggetti", non di più. (20)
La nostra capacità di eseguire ragionamenti dove sia importante tenere a mente risultati parziali prima di raggiungere una conclusione risulta pertanto ridotta, e ciò costituisce un limite fisico alla complessità delle teorie che possiamo comprendere. L'ultimo punto affrontato nel saggio dall'autore è un tema di grande attualità: "Sarebbe possibile per noi controllare una ASI, una superintelligenza in grado di comprendere cose a noi incomprensibili?" Il sopravvenire di una "superintelligenza" incontrollabile e letale per la nostra specie è sempre stato uno spauracchio alimentato sia dai film di Hollywood che da riflessioni più profonde, quali il "paperclip maximizer" di Nick Bostrom.
Max Tegmark nel 2014 ha creato la Future of life Organization (FLI) tra i cui obiettivi c'è quello di impegnarsi affinché i fini delle future AI siano sempre allineati a quelli della nostra specie ("AI benefiche"), nella convinzione implicita che, una volta superata "la singolarità" (il momento in cui le macchine saranno più intelligenti di noi e sapranno addestrarsi da sole in tutti i campi), sarebbe impossibile intervenire. Cristianini lascia invece aperto uno spiraglio sulla possibilità di controllare "ex post" eventuali AI sovrumane richiamando un recente e sorprendente evento. Nell'ambito della International Conference on Machine Learning (ICML) del 2023, è stato presentato l'articolo intitolato "Adversarial Policies Beat Superhuman Go AIs", uno studio che ha analizzato le vulnerabilità di KataGo, un avanzato sistema di intelligenza artificiale per il gioco del Go.
Gli autori avevano sviluppato un software per il gioco del Go di qualità mediocre e l'avevano fatto giocare contro KataGo ed altre versioni con prestazioni superumane; facendo uso di politiche avversarie esso si era dimostrato in grado di ottenere un tasso di vittoria superiore al 97%.
Le strategie avversarie utilizzate non si basavano su una superiore abilità nel gioco, quanto piuttosto su tattiche che inducevano KataGo a compiere gravi errori: ad esempio l'attacco ciclico costringeva KataGo a formare gruppi di pietre disposti in cerchio che quest'ultimo valutava erroneamente come sicuri, permettendo all'avversario di catturarli successivamente.
Tali politiche avversarie hanno mostrato una certa trasferibilità riuscendo a sconfiggere altri sistemi di intelligenza artificiale per il Go, quali Leela Zero ed ELF OpenGo, senza che fossero necessari ulteriori addestramenti specifici.
Addirittura, copiandone le mosse, giocatori umani furono in grado di sconfiggere direttamente KataGo. Questo episodio evidenzia come anche i sistemi di intelligenza artificiale con prestazioni superumane possano presentare modalità di fallimento inaspettate, e sottolinea l'importanza di test approfonditi per garantire la robustezza e l'affidabilità di tali sistemi prima di mettersi nell'ottica di delegare decisioni importanti ad intelligenze non umane.
"... la lezione è che anche agenti sovrumani possono risultare vulnerabili; gli agenti che hanno vinto contro di essi non l'hanno fatto giocando una buona partita, ma sfruttando punti deboli dei primi e dimostrando così che anche agenti altamente capaci possono nascondere gravi vulnerabilità ..." Epilogo. Prima di concludere, mi sembra corretto terminare questo post con un confronto tra le visioni di due esperti italiani a livello internazionale, Nello Cristianini e Francesca Rossi, relativamente al futuro dell'intelligenza artificiale ed ai rischi ad essa connessi.
Entrambi condividono infatti la preoccupazione per lo sviluppo etico di quest'ultima, ma differiscono su alcuni punti chiave:
- Approccio alla sicurezza dell'AI: mentre il primo tende a sottolineare il problema dell'opacità degli algoritmi ed il rischio derivante dall'uso di modelli di apprendimento automatico su larga scala senza una comprensione profonda del loro funzionamento, la seconda è più orientata verso un approccio ispirato alla teoria della decisione ed all'AI allineata ai valori umani (sostiene che l'AI debba essere progettata per apprendere ed incorporare principi etici direttamente nei suoi meccanismi decisionali).
- Rischi esistenziali dell'IA: la Rossi ha una posizione più cauta riguardo agli scenari catastrofici legati all'AGI, ritenendo che sia più produttivo concentrarsi su problemi concreti come bias e responsabilità delle AI attuali, laddove Cristianini enfatizza maggiormente i rischi a lungo termine e la possibilità che la nostra comprensione attuale non sia sufficiente per prevedere tutte le conseguenze dell'automazione dell'intelligenza.
- Regolamentazione e governance: Francesca lavora con istituzioni come IBM e con organismi di governance per sviluppare principi di AI etica e regolamentazioni che bilancino innovazione e sicurezza; Nello invece è critico nei confronti dell'affidarsi eccessivamente alla regolamentazione ex post, sostenendo che bisognerebbe ripensare le fondamenta dei modelli di AI fin dall’inizio per garantire una maggiore trasparenza e controllabilità.
Nello Cristianini lavora principalmente su un approccio che enfatizza l’opacità e la governance degli algoritmi di apprendimento automatico, con una forte attenzione ai rischi sistemici dell’IA ed al suo impatto sociale; suo focus non è tanto sulla creazione di una AI “etica” attraverso modelli interni di valori umani, quanto sulla necessità di comprendere e controllare i meccanismi degli algoritmi attuali, soprattutto quelli basati sull’apprendimento statistico.
Molti sistemi di IA, in particolare quelli basati su deep learning, sono a suo avviso "black box", cioè funzionano in modi che nemmeno i loro stessi sviluppatori comprendono appieno, ponendo così problemi di trasparenza, responsabilità e controllo.
Ritiene dunque che l'AI debba essere regolamentata prima della sua implementazione su larga scala, per evitare problemi sociali difficili da correggere in seguito.
Piuttosto che lavorare su modelli che incorporino valori etici direttamente, preferisce studiare modi per rendere i sistemi più verificabili ed interpretabili fin dall’inizio.
Ha lavorato molto sull’analisi dell’impatto dell’AI sui media, sulla società e sulla democrazia, evidenziando come talvolta gli algoritmi possano amplificare bias esistenti ed avere effetti imprevisti (studia come gli algoritmi influenzano il dibattito pubblico e la diffusione dell’informazione, sottolineando i pericoli della manipolazione algoritmica).
Cristianini adotta spesso una prospettiva storica e comparativa, analizzando le somiglianze tra l’attuale rivoluzione dell’AI ed altre rivoluzioni tecnologiche del passato.
Piuttosto che focalizzarsi sulla costruzione di modelli di AI più “umanizzati” o “etici”, cerca di comprendere le dinamiche collettive e sociali che emergono dall’uso dell’IA su larga scala. Francesca Rossi, che ha ricoperto l'incarico di "AI Ethics Global Leader" presso IBM, ha pubblicato nel 2024 il saggio "Intelligenza artificiale".
Lavora principalmente sull’AI allineata ai valori umani (Value-aligned AI), un approccio che mira a sviluppare sistemi di intelligenza artificiale capaci di prendere decisioni in linea con i valori della nostra specie.
Il suo lavoro si basa su concetti provenienti dalla teoria delle decisioni, dall’etica computazionale e dalla logica formale, con l'obiettivo di rendere l’IA non solo più trasparente, ma anche più sicura dal punto di vista etico.
Aspetto chiave del suo approccio è l'uso della teoria delle preferenze e delle decisioni, per insegnare alle AI a comprendere e rispettare i valori umani, anziché limitarsi a ottimizzare metriche prestabilite, cosa che implica ad esempio la creazione di algoritmi in grado di apprendere preferenze etiche dai dati e dalle interazioni con gli esseri umani, garantendo che le scelte fatte dalle macchine siano coerenti con ciò che la società ritiene giusto.
Inoltre la Rossi è nota per il suo lavoro sulla moralità delle IA e per aver promosso l'uso di sistemi di ragionamento logico che permettano ai modelli di IA di giustificare le proprie decisioni in modo più interpretabile.
Ha applicato queste idee anche in ambito industriale, lavorando con IBM Research, in particolare nel contesto di IBM Watson, per sviluppare modelli di IA più affidabili ed etici. Note:
(1) Si tratta del terzo saggio di una trilogia - "La scorciatoia" (2023), "Machina sapiens" (2024) e "Sovraumano" (2025) - che ricostruisce l'evoluzione delle AI sino ai primi mesi del 2025
(2) Tale definizione compare nella prefazione del libro "Artificial General Intelligence" (2007), una raccolta di saggi compilata da Ben Goertzel e Cassio Pennachin.
Gli autori contrappongono il concetto di Intelligenza Ristretta (ANI, Artificial Narrow Intelligence), - definita come "AI che consente di rispondere ad istanze nuove dello stesso problema" - a quello di Intelligenza Generale (AGI, Artificial General Intelligence) - "AI che consente di risolvere problemi interamente nuovi".
(3) Una rete neurale artificiale è un modello computazionale ispirato alla struttura ed al funzionamento del cervello umano progettato per riconoscere schemi ed apprendere dai dati.
E' composta da neuroni artificiali organizzati in strati:
lo strato di input che riceve i dati iniziali (nella forma di immagini, testo, numeri, ecc.);
gli strati nascosti che eseguono elaborazioni intermedie tramite connessioni pesate e funzioni di attivazione;
lo strato di output che fornisce il risultato finale (una classificazione, una previsione, ecc.).
Ad ogni connessione tra i neuroni viene assegnato inizialmente “un peso”, poi modificato durante l'addestramento per migliorare le prestazioni del modello.
Il Deep Learning è una branca del Machine Learning che utilizza reti neurali profonde - caratterizzate cioè da molti strati nascosti - per apprendere rappresentazioni complesse dai dati.
Le reti profonde sono in grado di estrarre caratteristiche di alto livello in modo gerarchico: ad esempio in un modello di riconoscimento di immagini i primi strati rilevano linee e bordi, quelli successivi identificano forme più complesse mentre gli ultimi sono in grado di riconoscere oggetti specifici.
Le reti profonde sono usate in ambiti quali la visione artificiale (riconoscimento facciale, veicoli autonomi, ...), l'elaborazione del linguaggio naturale (chatbot, traduzione automatica, ...), la medicina (diagnostica automatizzata da immagini), giochi e simulazioni (scacchi, Go, videogiochi).
Il Deep learning ha rivoluzionato l’AI moderna, permettendo alle macchine di ottenere prestazioni vicine (o addirittura superiori) a quelle di un essere umano in molte attività grazie ai miglioramenti hardware (GPU e TPU), alla disponibilità di grandi dataset per l'addestramento e all'utilizzo di algoritmi di ottimizzazione più efficienti. (4) Esempio illuminante, la capacità raggiunta dalle AI specializzate nella diagnostica per immagini; queste AI sono oggi in grado di identificare forme precoci di neoplasie che sfuggirebbero all'analisi del più esperto tra i radiologi. (5) AlphaGo è un software sviluppato nel 2010 dalla DeepMind di Demis Hassabis (Nobel per la Chimica del 2024) insieme a Shane Legg e Mustafa Suleyman per vincere al gioco del Go, un antico gioco da tavolo cinese noto per la sua complessità strategica.
Nel 2016 è stato il primo sistema di AI a sconfiggere un giocatore umano professionista, Lee Sedol, e subito dopo, nel 2017, a trionfare sul campione mondiale Ke Jie con una sua versione migliorata denominata AlphaGo Master.
Il suo funzionamento si basa su reti neurali profonde che analizzano la posizione sulla scacchiera e predicono le mosse migliori, sull'apprendimento per rinforzo (il sistema era stato fatto giocare contro se stesso milioni di volte per migliorarne le prestazioni) e sul Monte Carlo Tree Search MCTS (un metodo per esplorare le possibili mosse in modo efficiente).
Sempre nel 2017 DeepMind presentò AlphaGo Zero, una versione avanzata addestrata senza utilizzare "partite umane" che, giocando per 3 giorni contro sé stessa, ottenne performances ancora migliori.
Prima della fine dell'anno vide la luce anche AlphaZero, una AI che può imparare a giocare non solo a Go ma anche a scacchi e shogi, partendo dalla conoscenza delle sole regole del gioco (richiede comunque un riaddestramento ogni volta che si passi da un gioco all'altro).
Storicamente AlphaGo ha segnato il punto di svolta nell’intelligenza artificiale e nel deep learning dimostrando che reti neurali e apprendimento per rinforzo possono affrontare problemi estremamente complessi senza dover essere programmate con strategie predefinite.
(6) Ricordiamone i 4 più famosi: ChatGPT, Claude, Llama e Gemini. (7) Come abbiamo già scritto, molte ANI superano oggi le capacità umane in compiti specifici ("livello sovrumano"). (8) Non si tratta di applicare semplicemente le tecniche di psicometria utilizzate per misurare il grado di intelligenza di un soggetto "umano" alle macchine; l'intelligenza di una AI può infatti esser molto diversa dalla nostra, così come lo sono differenti tipi di intelligenza che troviamo negli animali e nel mondo naturale. (9) Ogni singolo test restituisce un numero che sintetizza l'abilità della AI in uno specifico compito; in seguito, l’elaborazione dei dati raccolti da ciascun test della batteria permette di riassumere in un solo valore il grado di abilità raggiunto dall’AI nei confronti dell'insieme dei compiti assegnati. (10) Nel mondo delle AI il termine benchmark si riferisce ad un insieme di test o di metriche standardizzati atte a valutare le prestazioni dei diversi modelli di intelligenza artificiale, consentendo così di stabilirne il livello di avanzamento.
I benchmark misurano le prestazioni di un modello su compiti specifici quali ad esempio la comprensione del linguaggio naturale, la generazione di immagini o il riconoscimento vocale.
Il confronto tra i risultati ottenuti per ciascuna AI permette agli sviluppatori di capire quale sia la più efficace in un dato contesto, e dunque fornisce indicazioni su dove si debba intervenire per migliorare i modelli.
I benchmark devono possedere due requisiti:
- validità: esser cioè rilevanti rispetto al tratto che si cerca di misurare;
- affidabilità: il punteggio non deve cambiare di troppo quando si ripeta il test varie volte.
Al fine di misurare la distanza dal raggiungimento (da parte di una AI) del grado di AGI è importante specificare se i test utilizzati siano risolvibili da persone comuni o soltanto dagli esperti umani più qualificati.
Esempi di benchmark in diversi ambiti:
- NLP (Natural Language Processing): GLUE (General Language Understanding Evolution) e SuperGLUE misurano la comprensione del linguaggio naturale, MMLU (Massive Multitask Language Understanding) testa invece la conoscenza su molteplici discipline.
- Visione artificiale: ImageNet testa la classificazione delle immagini, COCO (Common Objects in Context) il riconoscimento di oggetti.
- AI generale: BIG-bench valuta la capacità di ragionamento su compiti complessi.
- Gaming: Atari-57 valuta il deep reinforcement learning nei giochi Atar
- Robotica: MuJoCo (Multi-Joint dynamics with Contact) è un simulatore di fisica avanzato, progettato per simulare il movimento e le interazioni fisiche di sistemi complessi con vincoli articolari e contatti tra oggetti.
(11) I Large Language Models (LLM) sono modelli di intelligenza artificiale basati su reti neurali profonde progettati per comprendere e generare testo in linguaggio naturale.
Appartengono alla categoria dei modelli di apprendimento automatico e sono addestrati su enormi quantità di dati testuali per acquisire conoscenze su grammatica, semantica, contesto e persino ragionamento.
Caratteristiche principali di una intelligenza artificiale LLM:
- Dimensione e scala ("scala" di un LLM è un indicatore della sua potenza, complessità e capacità di elaborazione del linguaggio): vengono addestrate con miliardi di parametri ed enormi dataset testuali.
- Autoapprendimento: usano tecniche come il self-supervised learning, imparando dai dati senza bisogno di etichette esplicite.
- Capacità di generalizzazione: possono rispondere a domande, generare testi, tradurre da una lingua ad un'altra, scrivere codice, riassumere documenti e molto altro.
- Architettura Transformer: sono basati su modelli quali il Transformer (introdotto da Vaswani nel 2017) dotati di meccanismi di self-attention per elaborare contesti complessi.
Esempi di Large Language Models sono:
GPT (Generative Pre-trained Transformer) di cui GPT-4 è i modello utilizzato da OpenAI, PaLM (Pathways Language Model) sviluppato da Google DeepMind, LLaMA (Large Language Model Meta AI) il modello open-source sviluppato da Meta, Claude sviluppato da Anthropic.
Esistono poi molti altri LLM open-source sviluppati da vari istituti quali ad esempio Mistral, Falcon, BLOOM.
Gli LLM sono utilizzati per la creazione di Chatbot ed assistenti virtuali (ChatGPT, Google Gemini, Claude), per l'automazione della scrittura (la redazione di articoli, di email e di saggi), la traduzione automatica (conversione di testi tra lingue diverse), la programmazione (generazione ed assistenza nella scrittura di codice), l'analisi dei dati e la ricerca (produzione di sintesi di documenti ed elaborazioni di informazioni).
Pur dotati di enormi potenzialità sono ancora soggetti a molti limiti che richiedono sforzi per migliorarne affidabilità ed efficienza:
- Bias nei dati: possono riflettere pregiudizi presenti nei dataset di addestramento.
- Allucinazioni: talvolta generano risposte inesatte o inventate.
- Alto costo computazionale: richiedono enormi risorse per l’addestramento e l’uso.
- Sicurezza ed etica: possono essere utilizzati per diffondere disinformazione o per automatizzare le truffe.
(12) Autore del best seller "Pensieri lenti e pensieri veloci"
(13) Ad esempio l’AI GPT ad un certo punto è risultata capace di scrivere codice in Python senza esser mai stata addestrata per questo compito. (14) Tale ipotesi è stata formulata da diversi ricercatori - tra cui Jared Kaplan di OpenAI - che in uno studio del 2020 "Scaling Laws for Neural Language Models" hanno dimostrato come l’errore nei modelli linguistici diminuisca in modo prevedibile con la crescita della scala.
Il risultato suggeriva che, piuttosto di cercare miglioramenti qualitativi nell’architettura dei modelli, si potesse ottenere un progresso significativo semplicemente rendendo i modelli più grandi ed addestrandoli con più dati e risorse computazionali.
GPT-3, GPT-4 ed altri grandi modelli linguistici sono esempi pratici della Scaling Hypothesis in azione: i loro successi derivano in gran parte dall’aumento della scala piuttosto che da innovazioni radicali nell’architettura.
Esperimenti con reti neurali per la visione artificiale ed i giochi hanno mostrato risultati simili. (15) Questa tecnica è particolarmente utilizzata in modelli avanzati quali GPT-4, PaLM e Claude.
Nasce da un'osservazione fatta nel 2022 da Jason Wei relativa al fatto che se si chiede a GPT di descrivere uno alla volta i passaggi eseguiti nei compiti di ragionamento, si assiste ad una diminuzione degli errori compiuti.
Il 12 settembre 2024 OpenAI pubblica "Introducing OpenAI o1" ("imparare a ragionare con modelli linguistici"): la nuova versione rilasciata, denominata GPT-4o1, grazie all'integrazione della tecnica "Chain of Thought" fu in grado di saturare velocemente due benchmark - basati su matematica e scienza avanzata - che avevano resistito sino a quel momento. (16) Esattamente come è successo per le altre forme di vita conosciute, l'evoluzione ha modellato il nostro cervello per risolvere problemi (procurarci cibo, riprodursi, sfuggire ai predatori, ecc.) legati all'ambiente in cui la nostra specie ha vissuto per un lunghissimo periodo.
Alcuni primati sono dotati di un grado di intelligenza avanzata - sanno contare e svolgere operazioni matematiche elementari -, tuttavia la struttura del loro cervello non consente loro di comprendere concetti complessi quali ad esempio i numeri primi.
È perciò possibile che la struttura del nostro sia insufficiente a comprendere cose che - forse - un giorno risulteranno alla portata di una macchina. (17) La capacità di provare emozioni non appartiene alle macchine; tuttavia, almeno in linea di principio, non sarebbe impossibile per una AI comprendere lo stato emotivo di un utente (alcuni modelli ci hanno già provato con relativo successo). (18) Lo vediamo nel mondo naturale: forme di vita diverse sono dotate di tipi di intelligenza diversi, modellati dall'ambiente in cui vivono. Ci sono specie animali che possiedono organi di senso in grado di vedere nell’infrarosso o nell’ultravioletto, di percepire odori in modo molto più netto rispetto a noi, dotate di un udito finissimo. (19) Studi sul core knowledge di altre specie sono stati condotti da Giogio Vallortigara. (20) George A. Miller nel 1956 pubblica un articolo "The magical number seven, plus or minus two: some limits on our capacity for processing information" che espone quella che diventerà nota come "legge di Miller": la memoria a breve termine degli umani può tenere contemporaneamente circa 7 +/- 2 oggetti (dove con oggetti si possono intendere parole, numeri o immagini).
Nessun commento:
Posta un commento