contatore visite

mercoledì 13 luglio 2022

"Excuse me while I kiss this guy": il fenomeno MONDEGREEN può colpire anche le AI?

La scrittrice Sylvia Wright ricorda che, ai tempi in cui era bambina, la propria madre era solita leggerle la sera alcune poesie di Thomas Percy tratte dalla raccolta "Reliques Of Ancient English Poetry".

Conserva ancora vivissimo il ricordo del verso di una di queste poesie che recita "... and laid him on the green ..."; per lunghi anni lei continuò a travisarlo in "... and lady Mondegreen ...", pur avendo avuto in seguito molte occasioni di rileggerlo senza tuttavia notare la differenza tra la sua memoria e lo scritto: ... sino a che qualcuno glielo fece notare.

Tale "miraggio" svanì allora per sempre.

Stupita da questo fraintendimento persistente la Wright pubblicò nel 1954 un saggio intitolato "La morte di Lady Mondegreen", dal quale è stato ricavato il termine con cui oggi viene indicato il fenomeno relativo all'errata sostituzione di uno o più termini in una canzone e/o poesia ascoltata con parole omofone, una illusione di tipo permanente - non smentita da successivi riascolti - i quali addirittura contribuiscono a confermarla come veridica.

Oliver Sacks, famoso neurologo ed autore di parecchi saggi sulle diverse forme di pareidolia (vedi "L'uomo che scambio sua moglie per un cappello"), trattò del fenomeno MONDEGREEN alla fine del secolo scorso (1).

Più di recente tale fenomeno è diventato argomento di studio nell'ambito delle neuroscienze relativamente al tema del "timing", la percezione del tempo da parte del nostro cervello.

Dean Buonomano, docente di Neurobiologia e Psicologia all’UCLA (Università della California e Los Angeles) è uno dei principali teorici della "neurobiologia del tempo".

Autore del saggio "Il tuo cervello è una macchina del tempo", pubblicato in Italia nel 2019 da Bollati e Boringhieri, ne dedica un'intera parte all'argomento del mondegreen.

"... Il senso del tempo, cioè il modo in cui percepiamo lo scorrere del tempo, non è un senso come gli altri, tipo la vista o l'udito: non disponiamo di un organo specifico del tempo in quanto non ne esistono recettori.

Il tempo non è una proprietà fisica come la luce o la pressione delle molecole d'aria, ciò nonostante percepiamo un flusso del tempo, lo sentiamo scorrere..."

Nelle forme di comunicazione la misura precisa del tempo è molto importante, e senza esser dotati della capacità di percepire il tempo ci troveremmo nell'impossibilità di relazionarci.

Nelle conversazioni il nostro cervello misura la durata di ogni sillaba e di ogni pausa insieme al ritmo complessivo del flusso di suoni.

I fonemi costituiscono il repertorio di suoni utilizzato in ciascuna lingua, non sempre identificabili con le lettere dell'alfabeto in uso: ad esempio il suono "c" di cibo è diverso dal suono "c" di carta.

Il significato di una frase è spesso desunto dall'ordine dei fonemi all'interno di una successione di parole.

Talvolta tuttavia sorgono ambiguità quali ad esempio:

- "Gray eyes" - "Gray ties"

- "Marco ha detto: il capo è un incapace" - "Marco, ha detto il capo, è un incapace".

Le ambiguità possono a loro volta esser chiarite da altre dimensioni del linguaggio quali la durata delle sillabe, l'intonazione, l'accento o le pause (vedi il secondo esempio relativo a Marco ed al suo capo).

Anche la velocità può creare ambiguità.

La frase "the hostess greeted the girl with a smile" se velocizzata può venir interpretata in modo completamente diverso, cosicché non sarà la ragazza ad esser salutata con un sorriso dalla hostess, ma "girl with a smile" viene tenuto insieme e si pensa sia la ragazza a sorridere alla hostess.

Il fenomeno MONDEGREEN per Buonomano è un effetto della velocità. 

Le canzoni talora devono forzare le parole per adattarle al ritmo, cambiarne la normale velocità di recitazione.

Capita allora che si canticchi usando le parole sbagliate, inserendone inconsciamente al posto di quelle corrette altre la cui velocità di recitazione sia maggiormente simile a quella richiesta dal ritmo della canzone.

La maggior parte di coloro che negli anni hanno ascoltato "Purple Haze" di Jimi Hendrix ne hanno travisato il testo:

"excuse me while i kiss the sky " - il testo originale - è stato interpretato come "excuse me while I kiss this guy".

I tempi, ci informa ancora Buonomano, sono importanti anche in relazione a singoli fonemi.

"P" e "b" si distinguono in base al tempo di inizio della sonorità ("voice onset time").

Il ritardo tra il rilascio esplosivo dell'aria dalla bocca e la vibrazione corde vocali: "b" anticipa "p" di circa 10 millisecondi.

Ne consegue come Il nostro sistema uditivo sia in grado di misurare tempi di quest'ordine di grandezza.

Un altro fenomeno che può provocare il MONDEGREEN è la "prosodia" (laddove in termini temporali ci spostiamo dai decimi di secondo al secondo): l'intonazione e la distribuzione dei tempi, insieme alla velocità, comunicano diverse emozioni.

"E' stata una bella idea" può esser intesa in modi diversi a seconda dell'intonazione, e, cosa stupefacente, trascende la comprensione della lingua nella quale la frase è espressa: anche se non capiamo le parole interpretiamo lo stato d'animo di chi le pronuncia!

Un altro argomento collegato è quello della "comicità", che si basa quasi completamente su "ciò che è inatteso", qualcosa che non ci aspettiamo. ma deve assolutamente arrivare nel momento giusto.

Il nostro cervello compila in modo continuativo previsioni su quello che deve accadere e soprattutto quando: l'inaspettata battuta finale deve cadere in una finestra temporale, altrimenti non viene percepita come comica.

Questi "arnesi di comunicazione" non sono innati nel nostro cervello, ed infatti i fraintendimenti originali che danno origine al MONDEGREEN si verificano più spesso nel periodo dell'infanzia.

Pensiamo al "mammese", il "baby talking": parlando con i bambini gli adulti istintivamente rallentano il ritmo delle parole.

Come succede a chi ha imparato una lingua da adulto, i bambini capiscono meglio una prosodia rallentata.

Insomma, sia il cervello di chi si esprime sia quello di chi ascolta devono risolvere un sofisticato insieme di problemi temporali.

Il tempo sta al riconoscimento del linguaggio e della musica come lo spazio al riconoscimento visivo degli oggetti.

Il riconoscimento di un volto è essenzialmente un problema spaziale: le informazioni pertinenti sono contenute nelle relazioni spaziali tra gli elementi del disegno.

Rivestono un'importanza enorme le gerarchie: le informazioni di basso livello - quali le curve - devono essere integrate in un'immagine unificata.

Un cerchio è un cerchio, ma due coppie di cerchi concentrici relativamente vicini possono esser interpretati come occhi.

Se iscritti un un cerchio più grande questo può esser interpretato come un volto, e così via (2) 

Succede la stessa cosa per la musica: ma mentre gli elementi di un disegno sono "contemporaneamente" sul pezzo di carta, il linguaggio e la musica richiedono una memoria del passato.
Cioè comprendiamo il significato di una parola soltanto quando abbiamo finito di "sentirla".

Il codice morse è un esempio di come il cervello processi gli schemi temporali.

E' un tipo di linguaggio dove non ci sono toni diversi: una stessa nota viene ripetuta con durata diversa (120/1000 di secondo per i punti e 360/1000 per le linee) e con intervalli tra l'una e l'altra di diversa durata (360/1000 di secondo tra le lettere e 840/1000 tra le diverse parole).

Per imparare ad usare il morse è indispensabile rallentare i tempi, come succede nel "mammese": impossibile iniziare ad usarlo senza addestramento, il "neofita" non sarebbe in grado di riconoscere correttamente gli intervalli.

Un test sul grado di allenamento a distinguere tra intervalli di durata pari a 100/1000 secondi ha rivelato un fatto inatteso: p
ur non avendo ancora identificato il meccanismo con il quale il cervello misuri il tempo, sappiamo per certo che, per intervalli inferiori al secondo, non esiste un "cronometro generale".

Tale sicurezza ci viene dal fatto che, con l'allenamento, è possibile migliorare l'abilità ad identificare la durata di intervalli più brevi del secondo, ma solamente in relazione a specifici intervalli di tempo su cui ci si allena: se ci alleniamo a riconoscere intervalli nella misura di 1/100 di secondo non saremo altrettanto abili a riconoscere quelli di 1/10 ad esempio.

I musicisti professionisti presentano una performance migliore pari a circa un 20% in più rispetto a chi non lo sia.


Altrettanto importante è la capacità di "tenere il tempo".

La musica è presente in ogni cultura umana (vedi ancora Oliver Sacks ed il suo saggio "Musicofilia"), e chiave della musica è l'accento, cioè il "battere".

Il cervello umano è una macchina predittiva: infatti tendiamo a battere il tempo (tenere il tempo).
E assolutamente da notare come non si batta il tempo "in risposta", ma si sia costretti ad anticipare l'esecuzione di alcune centinaia di millisecondi al fine di sincronizzare i movimenti del corpo: altrimenti risulteremmo in ritardo!

Pochissimi animali possiedono questa capacità, e spesso diventano - loro malgrado! - stars di Youtube.

I video di youtube sull'argomento sono forse legati all'effetto "clever-Hans", così chiamato in ricordo del famoso cavallo Hans che si esibiva alla fine dell'800 "contando" (risolvendo semplici operazioni).

Il proprietario chiedeva al cavallo "8 x 5" ed il cavallo batteva lo zoccolo il numero corretto di volte: talvolta ciò capitava anche quando a pronunciare la domanda non era direttamente il suo proprietario.

Il fenomeno fu studiato a lungo sino a quando uno psicologo decise di nascondere chi gli faceva le domande dietro una tenda.

Si scoprì così che il cavallo reagiva alle emozioni di chi lo interrogava: quando il numero dei colpi raggiungeva il risultato dell'operazione, il nervosismo dell'interrogatore veniva percepito dal cavallo, e questi smetteva di sbattere lo zoccolo a terra.

Come per Hans, è probabile che tutte le piccole creature protagoniste dei video di youtube abbiano imparato a cogliere segnali involontari provenienti dai loro padroni.

Snowball, il famoso cacatua bianco star di youtube, sottoposto ad esperimenti ha dimostrato di saper prevedere gli accenti.

Le scimmie possono imparare a riprodurre un singolo intervallo delimitato da due segnali sonori, ma non riescono a svolgere compiti semplici di sincronizzazione.

Perché, ci si è chiesto, cani, scimmie ed altri animali non  sono in grado di "sincronizzare" mentre alcune specie di uccelli lo sono?

Da questa domanda è nata l'ipotesi dell' "apprendimento vocale".

La maggioranza dei mammiferi comunica per gridi, ululati e versi che sono comportamenti innati, un insieme limitatissimo di "parole".

Alcuni animali invece imparano vocalizzi con l'esperienza: tra loro alcuni uccelli, le balene e gli elefanti (insieme ai pappagalli naturalmente).

Apprendimento vocale: il cervello ascolta ed escogita un modo per riprodurre i suoni tramite corde vocali o muscoli orali, una cooperazione tra i centri uditivo e motorio localizzati nel cervello.

La stessa cosa succede con la capacità di muoversi in sincronia con uno stimolo uditivo periodico.

Gli stessi circuiti cerebrali usati per imparare la comunicazione vocale sono alla base dell'azione di seguire il ritmo di una canzone.

Il linguaggio e la musica costringono il cervello a creare incessantemente aspettative su ciò che sta per avvenire: lo costringono a comportarsi come una macchina del tempo.

Nel caso degli uccelli canori, questi imparano i canti soltanto in una certa fase dello sviluppo: l'apprendimento deve avvenire all'interno di una precisa fase evolutiva.

Cantando si attiva una catena di neuroni (o gruppi di neuroni) A->B->C->D, e questi loop richiedono un tempo preciso che può esser utilizzato dal cervello al fine di "contare il tempo".

E' ciò che succede anche agli individui della nostra specie: è possibile imparare a parlare solo in una certa fase della nostra infanzia, trascorsa la quale l'occasione è persa.

Più tardi, sostiene Sacks, aree assegnate a questa funzione dall'evoluzione, se non utilizzate, vengono deputate ad altri compiti (vedi il saggio "vedere voci", Oliver Sacks).

Lasciamo ora Sacks e Buonomano per chiederci se possano verificarsi "inganni" con procedure simili, ma che interessino sensi diversi dall'udito e dove il timing non sia elemento determinante.

Situazioni in cui, a seguito di una errata percezione, venga a crearsi uno stato di illusione permanente non smentito dal suo ripetersi; le successive percezioni risultano perciò inconsapevolmente "distorte" e pertanto contribuiscono a confermare quella originale come veridica.

Pensando alla mia storia personale mi vengono in mente i seguenti 4 esempi:

- Il viso di mia zia le cui imperfezioni mi si rivelarono all'improvviso un pomeriggio, quando di sicuro erano presenti da molti anni.

- un belvedere situato sulle colline del Monferrato che ho frequentato sin dall'adolescenza: ho sempre creduto di contemplare la piana verso sud dell'alessandrino, quando invece quello che avevo di fronte era la pianura verso nord est.
Anche in questo caso la "smentita" è arrivata all'improvviso (qualche giorno fa): gli indizi rivelatori del mio errore erano tutti lì ma per anni li ho ignorati inconsapevolmente (ed ho comunque fatto fatica a convincermi di essermi sbagliato per un così lungo tempo).

- L'orientamento di una via rispetto alla topografia di un centro abitato: non parliamo certo di una città a pianta romana, ma la raffigurazione del percorso con le sue svolte, da me seguito innumerevoli volte, si era cristallizzata nella mia memoria insieme all'errore iniziale.

- Infine il tragitto tra due località che da sempre ho ritenuto "il più breve" rispetto alle alternative, rivelatosi invece impressione fasulla.


Nel primo caso - il viso di mia zia - non si tratta di pareidolia o di un deficit quale ad esempio la prosopagnosia (disturbo che affliggeva Sacks).

Credo il motivo debba esser cercato in una "scorciatoia" quale strategia utilizzata dal cervello per "risparmiare energia".

La necessità di identificare quotidianamente un "oggetto del mondo esterno" cui ho dato il nome di "zia", operazione che richiede la comparazione di immagini presenti nella memoria con le informazioni raccolte dai sensi, porta all'adozione di una procedura semplificata di riconoscimento.

Invece di ricostruire una mappa completa di dati da confrontare, forse il nostro cervello si accontenta di indizi e ricostruisce l'immagine "zia" attingendo non alle percezioni contestuali ma a quelle del passato cristallizzate in memoria.

Qualcosa del genere potrebbe forse spiegare gli altri 3 casi descritti: la mappa spaziale costruita inizialmente nel nostro cervello non viene successivamente "verificata" fino a che l'errore contenuto non costituisca un problema per i fini perseguiti.


Un analogo del fenomeno MONDEGREEN potrebbe interessare le Intelligenze artificiali (AI)?

Le AI ereditano i bias presenti nei loro set di addestramento: in un post pubblicato in passato - relativo ai "robot giudici" - avevo trattato dell'impossibilità di eliminarli completamente.

Tuttavia ciò a cui qui mi riferisco non riguarda l'interazione tra esseri umani ed AI, quanto piuttosto alla possibile presenza di mondegreen durante il processo interno di apprendimento della AI, quando l'algoritmo di deep learning assegna i pesi ai nodi delle reti neurali.

L'errata identificazione di una immagine - quale ad esempio quella di un oggetto qualificato erroneamente come un  frisbee - potrebbe ripetersi anche a seguito dell'aumento di esperienza della rete, ottenibile con l'implementazione di nuove immagini dove sia presente un frisbee e copie dell'oggetto "frainteso"?

In prima battuta risponderei di no, ogni volta la rete neurale esegue un'analisi a più strati ed il codice che ne governa l'azione ha una sola origine; tuttavia non ne sono del tutto convinto.

Le AI, come gli esseri viventi, imparano dall'esperienza: l'affidabilità nell'identificazione dei contenuti di un'immagine migliora con il tempo, durante il quale l'AI svolge il suo ruolo calibrando i pesi assegnati ai nodi della propria rete neurale.

Potrebbe essere che il suo algoritmo la porti ad utilizzare "shortcuts" relativamente ad oggetti che le si presentino di frequente?

Sinceramente non ne ho idea: se qualcuno è in grado di soddisfare la mia curiosità gliene sarò grato.

Certo la scelta - etica - di trasformare gli algoritmi di intelligenza artificiale da black boxes in white boxes potrebbe esser d'aiuto nello svelare la possibilità di tali evenienze.



NOTE:

(1) Esiste un termine corrispondente a mondegreen nella nostra lingua?

Nei primi giorni di Settembre 2020 ho partecipato ad una serata alla quale era ospite Luca Sofri, il direttore del Post.
Tra i molti argomenti trattati, collegati alla musica italiana, ha fatto accenno ai "balussi", fenomeno da lui descritto in modo molto simile al mondegreen.

Nei giorni seguenti ci siamo scambiati alcune emails ed ho così avuto modo di sapere che anche lui in passato si era occupato più volte del fenomeno mondegreen, scrivendone sul suo blog "wittgenstein".
Pare che - almeno per un certo periodo - il termine "balussi" (tratto dalla canzone anni '60 "siamo i watussi") sia stato utilizzato quale sinonimo di mondegreen

(2) 
nel già citato libro di Sacks "L'uomo che scambiò sua moglie per un cappello" l'autore tratta di un paziente al quale un deficit impediva di interpretare correttamente le gerarchie delle immagini che si trovava a dover elaborare, quale ad esempio il viso della moglie che ... "scambiò per un cappello".










Nessun commento:

Posta un commento

Elenco posts

 Elenco dei miei posts scritti nel periodo dal 28/3/18 all'11/04/24:                                                    ( su FB ) - vide...