contatore visite

sabato 5 gennaio 2019

The dark side of the AI: il lato oscuro delle intelligenze artificiali

Oggi il termine “intelligenza artificiale” è di uso comune e compare in quasi ogni pubblicazione.
Smartphones, tablets e PC integrano assistenti “dotati di IA” (come Siri, Alexa, Cortana) con i quali possiamo interloquire usando un linguaggio naturale.
La nostra casella di posta elettronica non viene saturata ogni giorno dallo spamming perché i providers hanno adottato algoritmi IA che - abbastanza efficacemente - bloccano la maggior parte dei messaggi pubblicitari indesiderati.
Con strumenti simili i gestori delle carte di credito limitano abusi e clonazioni, alcune tipologie di titoli vengono scambiati sui mercati senza intervento umano in tempi brevissimi, ed in un prossimo futuro sarà normale vedere automezzi a guida autonoma circolare sulle nostre strade.
Ogni giorno cresce il numero degli ambiti in cui le IA sono utilizzate ed ottengono performances migliori rispetto agli esseri umani.
Tuttavia pochi sanno spiegare cosa sia realmente una IA (cosi come pochi d’altronde conoscono il principio di funzionamento di un PC o di uno strumento elettronico).
La definizione classica di IA potrebbe essere:
“Un algoritmo che opportunamente istruito esegue un compito complesso in maniera spesso più efficace rispetto ad una persona umana”
Tutti sappiamo che i PC sono più veloci della nostra mente nell’eseguire calcoli, ricercare informazioni in un database, memorizzare grandi quantità di dati: tuttavia nulla di tutto questo è ciò che si definisce IA.
Andrea Signorelli, su un cui articolo ho già scritto in polemica qualche tempo fa, torna ad occuparsi di Intelligenza Artificiale affrontandone un aspetto assai poco conosciuto e “molto poco smart”.
Il titolo stesso rende già l’idea del paradosso di cui tratta:
“Dietro ogni IA ci sono migliaia di lavoratori manuali”
La capacità delle attuali IA specialistiche di interloquire in un linguaggio naturale, riconoscere il tema di un’immagine o guidare in autonomia un automezzo, è acquisita tramite un processo di addestramento delle reti neurali, il cosiddetto deep learning.
All’algoritmo della IA vengono sottoposti decine di migliaia di dati (record vocali, foto, situazioni in cui si potrebbe trovare l’auto, e cosi via) precedentemente “etichettati” attraverso un processo chiamato “data labelling”: sono i cosiddetti “set di addestramento”.
Una IA che si occupi ad esempio di riconoscimento delle immagini sarà addestrata con un set di migliaia di fotografie: ognuno degli oggetti presenti in ciascuna foto dovrà esser stato prima etichettato cosicché la IA possa imparare a riconoscerlo.
Nella stessa immagine possono comparire contemporaneamente più oggetti e persone che dovranno esser correttamente identificati con una etichetta (“people”, “dog”, “grass”, “sky”, e cosi via).
Allenandosi su questo gruppo di foto la IA svilupperà una competenza a riconoscere in ogni immagine che le sottoporremo ... l’oggetto delle etichette.
Ma chi sceglie cosa scrivere su queste etichette e le assegna ai soggetti rappresentati in ogni foto?
Ci scontriamo subito con il limite principale delle IA specialistiche (le uniche finora realizzate): la loro incapacità di “apprendere in modo autonomo”.
Fino al momento in cui si manifesterà quella che oggi viene chiamata “la singolarità” - e cioè il momento in cui le IA saranno in grado di imparare da sole e ci lasceranno indietro come specie, incapaci di capire le logiche che ne determinino i comportamenti - sarà sempre necessario l’intervento di un essere umano che insegni loro cosa fare.
(Per inciso un altro limite delle IA è dovuto al fatto che in questo processo di trasferimento di competenza tra uomo e macchina anche i bias - i pregiudizi - dell’insegnante umano vengono trasferiti alla IA, che quindi ne vedrà viziata la propria capacità di giudizio)
Facciamo un esempio pratico: se in nessuna delle etichette assegnate alle immagini del set di addestramento compare il termine “mango”, anche in presenza di una foto con quel frutto la IA sarà incapace di riconoscerlo come un mango (non diversamente da quanto capiti quando si educa un bambino)
Le IA mancano di autonomia nel processo di apprendimento, cioè NON imparano da sole.
L’aspetto meno noto di cui si accenna nel titolo dell’articolo è quello relativo a come e da chi vengano “confezionati” questi set di addestramento, cioè il materiale dal quale la IA impara: la loro accuratezza è essenziale per ottenere performances soddisfacenti.
Dietro il processo di addestramento delle IA c’è sempre un gran lavoro svolto da esseri umani: un lavoro noioso e ripetitivo indicato con il nome di “data labelling”, per svolgere il quale è indispensabile arruolare parecchia gente.
“...Dietro gli algoritmi di Google, Facebook o Baidu centinaia di esseri umani passano la giornata a guardare foto per etichettare qualunque oggetto, animale o persona compaia al loro interno. Benvenuti nella catena di montaggio dell’intelligenza artificiale...” ci ammonisce Signorelli.
Ma chi sono questi “insegnanti”, come vengono reclutati e pagati?
La risposta sorprendente è: dipende dai fini che si pone chi sta sviluppando la IA.
I primi sets sono stati realizzati a costo zero per programmi no profit (per una descrizione più approfondita vedi il saggio “Nuova età dell’oro” di Ian Goldin e Chris Kurtana).
Tuttavia la maggioranza dei fini per cui vengono addestrate le IA sono puramente commerciali, per i quali non si trovano certo volontari a costo zero!
Negli anni passati sono state sviluppate piattaforme online come "Amazon Mechanical Turk" (www.mturk.com e per una descrizione vedi https://it.wikipedia.org/wiki/Amazon_Mechanical_Turk): iscrivendosi al portale, in cambio di una piccola retribuzione - spesso una frazione di dollaro -, viene assegnato un compito che i computer ad oggi non riescono ancora a svolgere.
Amazon Mechanical Turk si presenta dunque come il luogo di incontro tra le aziende che necessitano il labelling e collaboratori occasionali.
Data l’esiguità dei compensi, erano soprattutto cittadini dei paesi meno sviluppati e dove il csto della vita era esiguo (specialmente India e Messico) ad offrirsi per tali compiti .
Tuttavia queste piattaforme – come pure i database open source tipo ImageNet – non possono garantire il livello di accuratezza pari al 99% richiesto dai colossi digitali che commissionano questi servizi.
Sono allora sorte società professionali di servizi di data labelling, quasi tutte localizzate in una nazione digitalmente sviluppata, ma dove il costo del lavoro specializzato è ancora limitato e le leggi sulla privacy sono molto permissive: la Cina.
Basic Finder, Mada Code: sono colossi che impiegano 10mila freelance e collaborano con Microsoft, università americane ed europee.
Il lavoratore specializzato nel labelling riceve circa 1,5 dollari all’ora e non riesce ad etichettare più di 40 immagini al giorno.
Ecco cosa spiega Synced China:
“Gli impiegati sono divisi in gruppi differenti. Alcuni si occupano di etichettare le diverse parti del corpo umano; altri di segnalare le auto, biciclette, moto e pedoni utilizzate per addestrare le telecamere che sorvegliano le strade; (...) altri sono responsabili dei video, dai quali estraggono vari fotogrammi per segnalare come cambia un oggetto in movimento nel corso della clip. Altri operano sui dati vocali ed etichettano, per esempio, i vari modi in cui potete dire “imposta la temperatura a 21°”; insegnando così ai condizionatori-smart a capire i comandi degli esseri umani...
...Fabbriche infernali dalle condizioni lavorative disumane. Di certo, sono luoghi che poco hanno da spartire con l’immagine luccicante dei campus di Apple o di Facebook...”
Un esempio dei ritmi aberranti imposti a questi lavoratori dai committenti della Silicon Valley:
“Ordine ricevuto di etichettatura di 60.000 immagini a settimana”
Lo staff necessario a soddisfare questa richiesta è pari - lavorando 7 giorni su 7 - a 200 persone.
L’azienda assegnataria, che conta solo 100 collaboratori, ha dovuto accettare comunque l’offerta per sopravvivere.
Personalmente questa descrizione mi ha ricordato un passaggio del libro di esordio di Saviano, Gomorra, a proposito delle modalità con cui venivano assegnate le commesse da parte dei grandi gruppi della moda alle piccole manifatture del napoletano (un’asta al ribasso che coinvolgeva poi tutto il settore determinandone i ritmi di lavoro)
Secondo Synced China “la quantità di lavoro incredibilmente monotono è sufficiente a far impazzire alcuni etichettatori”.
Ma qual’è il futuro, si chiede allora Signorelli?
La qualità delle banche dati open source migliora di continuo cosi come i nuovi algoritmi imparano usando quantità di dati sempre inferiori.
Signorelli ritiene “...fondato il timore che le data factories, sorte non più di 5 anni fa’, possano avere vita breve...” proprio a causa di questa evoluzione.
In questo modo i lavoratori cinesi specializzati, seppur sfruttati secondo i nostri standard, si ritroveranno presto disoccupati.
Invito a leggere F. Rampini “Dove comincia la nostra storia” pg 333 ed oltre: si occupa di cosa sia successo ai lavoratori - anche loro sottopagati - delle aziende cinesi produttrici di giocattoli quando nel “dopo crack Lehman Brothers” è crollata la domanda occidentale di tali beni.

vai all'articolo originale su Esquire


Nessun commento:

Posta un commento

Elenco posts

 Elenco dei miei posts scritti nel periodo dal 28/3/18 al 09/12/24:                                                    ( su FB ) - pdf e vid...