contatore visite

mercoledì 12 gennaio 2022

Perché, da un punto di vista scientifico, non è opportuno affidarci alle AI "robot-giudici": una riflessione sull'impossibilità di dare una definizione matematica al concetto di imparzialità.

"Un team di ricercatori cinesi ha sviluppato una sorta di pubblico ministero cibernetico: analizzando la descrizione verbale di un caso, è in grado di formulare un'accusa grazie ad una intelligenza artificiale sviluppata a tal fine. 

La tecnologia, testata dalla procura di Shanghai Pudong, promette un'accuratezza superiore al 97%, ed è utilizzabile con un normale PC"

Questa la notizia pubblicata oggi da AGI in un articolo poi rilanciato dalle altre agenzie di informazione.

L'autore del pezzo ci informa del fatto che il set di addestramento utilizzato per la AI era costituito da 17.000 casi giudiziari dibattuti dal 2015 al 2020; ad oggi essa è ritenuta in grado di identificare autonomamente un capo di accusa relativo agli 8 reati più comuni riscontrabili nella metropoli di Shanghai.

Secondo il capo-progetto Shi Yong, direttore del laboratorio dei big data dell'Accademia cinese delle scienze, grazie alla pratica in futuro l'AI dovrebbe esser in grado di aumentare la propria competenza ed intervenire in relazione ad altre fattispecie di reato.

A prima vista sembra questa la soluzione ottimale al problema dei ritardi della giustizia, un motivo per cui il nostro paese è già stato sanzionato dall'UE e che ci pone in una posizione vergognosa relativamente al rispetto dei diritti dell'individuo.

Ci sarà un robot-giudice anche nel nostro futuro?

Non credo proprio, e vediamo il motivo che mi spinge ad esser così determinato nel mio giudizio negativo.

Riprendo - per giustificare la mia affermazione categorica - quanto scritto dal fisico Alessandro Vespignani nel saggio "L'algoritmo e l'oracolo"

Negli USA l'utilizzo delle AI per aiutare avvocati e magistrati ad orientarsi nella giungla delle sentenze (il diritto anglosassone affida infatti a queste ultime il compito di "fare giurisprudenza") non è cosa nuova, anzi!  
Rappresenta oggi un aiuto quasi indispensabile.

Da una decina d'anni alcuni stati - tra i quali la Florida - affidano ad un software (una Ai denominata "COMPAS") la decisione di concedere la libertà sulla parola; in pratica viene calcolato un valore che rappresenta "la probabilità di recidiva" di un condannato, ed a seconda dello score ottenuto si procede alla concessione o meno della libertà provvisoria.

La domanda che ci dobbiamo porre è, qualora i dati relativi al set di addestramento della AI siano rappresentativi, se un algoritmo possa o meno essere imparziale.

Iniziamo con l'osservare come la definizione matematica del concetto di imparzialità non sia univoca, cosa che mette in crisi l'uso dei sistemi predittivi.

Tribunali, banche ed altre istituzioni utilizzano da tempo algoritmi predittivi - "sistemi di decisione automatizzata" - nel prendere decisioni importanti per la nostra vita: in base ai dati disponibili essi consentono di calcolare la probabilità di eventi quali il rischio che in futuro un cliente possa andare in bancarotta, oppure commettere reati.

Nel 2016 il sito web ProPublica provocò un piccolo terremoto rendendo noto il fatto che i giudizi espressi dall'algoritmo - in merito al rilascio su cauzione - si rivelassero più severi nel caso il colore della pelle dell'imputato fosse scuro.

COMPAS, per aiutare i giudici nelle loro decisioni, genera uno score basato sulla predizione del rischio di recidiva entro due anni; analizzando gli atti pubblici, i giornalisti della testata dimostrarono come il numero di "falsi positivi" tra i neri fosse spropositato rispetto allo stesso dato rilevato tra gli imputati bianchi.

A prima vista sembrava un bias trasferito dal set di addestramento all'AI: poiché le sentenza negli USA, specie negli anni meno recenti, sono più indulgenti con gli imputati di pelle bianca, tale "esempio" viene trasferito alla competenza dell'algoritmo utilizzato come giudice.

Tuttavia non era di tal opinione la società sviluppatrice del software; essa sosteneva, presentando le prove, che la AI fosse priva di bias, e che bianchi e neri venissero classificati con la stessa ACCURATEZZA.

COMPAS infatti risultò rispettare la parità predittiva: e cioè presentava lo stesso tasso di successo nel prevedere se un bianco od un nero sarebbe stato recidivo.

Da questa constatazione ne conseguì la presa di coscienza del fatto che "parità predittiva" ed "eguaglianza falsi positivi", - sembrano esser due definizioni matematiche del concetto di imparzialità - siano mutualmente esclusive.

E cioè che si possa perseguire la soddisfazione di una sola delle due condizioni.


Vediamo con un esempio di spiegarci meglio.

Supponiamo di esser una banca e di dover decidere la concessione di un mutuo: abbiamo 10 richieste avanzate da cittadini "bianchi" e 10 avanzate da altrettanti cittadini di colore.

Ipotizziamo che il numero bancarotte che si verificano tra i bianchi sia il doppio di quelle che si osservano tra la popolazione di colore.

Qualora l'algoritmo identifichi 4 bianchi su 10 "ad alto rischio di insolvenza", ne consegue che solo 2 cittadini di colore su 10 otterranno la stessa classificazione (2 è la metà di 4, ed abbiamo ipotizzato che il numero di bancarotte che si verificano tra i bianchi siano il doppio di quelle che si verificano tra i neri).

Se l'algoritmo è "corretto" e "imparziale" deve perciò identificare nel gruppo dei cittadini di colore un numero di "individui ad alto rischio" pari alla metà di quelli identificati nel gruppo bianchi.

Per rispettare la "parità predittiva", la probabilità che un individuo ad alto rischio vada in bancarotta deve esser eguale indipendentemente dal colore della sua pelle.

Qualora i tassi di bancarotta seguano le statistiche basate su serie storiche, troveremo in tale condizione 2 cittadini di colore su 10 neri e 4 cittadini bianchi su 10.

Tuttavia, se l'algoritmo ha una capacità predittiva del 50% (sbaglia una volta su due), soltanto la metà degli individui ad alto rischio andranno in bancarotta, e precisamente:

tra i bianchi andranno in bancarotta 4 individui, ma soltanto 2 di questi precedentemente classificati "ad alto rischio"; le altre due bancarotte saranno relative a cittadini considerati non a rischio (questo perché abbiamo detto che l'errore dell'algoritmo è pari al 50%).

Ben 2 individui del gruppo ad alto rischio non han fatto bancarotta: possiamo definirli come "falsi positivi".

- E tra i cittadini di colore?

Abbiamo detto che "i neri" appartenenti al gruppo a rischio sono solo 2 su 10: dunque l'errore al 50% dell'algoritmo farà sì che di due fallimenti soltanto uno sia relativo al gruppo a rischio.

Ne consegue ci sarà un solo "falso positivo" tra i neri.

In conclusione, abbiamo appena verificato come l'algoritmo sia caratterizzato da parità predittiva ed esegua previsioni statisticamente eque e corrette.

Tuttavia, se confrontiamo il numero dei falsi positivi con il numero degli individui "che non sono andati in bancarotta" otteniamo un risultato interessante:

2 bianchi su 6

1 nero su 8

L'algoritmo cioè assegna erroneamente ai bianchi una probabilità molto maggiore di bancarotta, discriminandoli di fatto.

In pratica ciò significa che solo in pochissimi casi ci potremo trovare  ad ottenere ad un tempo sia la "parità predittiva" che l' "equità nel tasso di falsi positivi".

In tutti gli altri si dovrà scegliere se perseguire un criterio o l'altro, e come è successo con l'esperienza di COMPASS qualcuno potrà lamentarsi di non esser stato trattato "con equità".

La presenza di un giudice "umano" potrà allora fare la differenza, tenendo conto di aspetti che trascendono il numero limitato di fattori che una AI si trova a prender in considerazione per ottenere il suo scopo.











Nessun commento:

Posta un commento

Elenco posts

 Elenco dei miei posts scritti nel periodo dal 28/3/18 all'11/04/24:                                                    ( su FB ) - vide...