Dati: Garbage In, Garbage Out

Dec 01 2022
Andrò avanti e sosterrò che il problema del mondo reale più importante e urgente che dobbiamo risolvere come comunità tecnologica globale è come migliorare la qualità dei dati che entrano nei sistemi di intelligenza artificiale: un passo fondamentale prima di poterci concentrare su ridimensionare l'intelligenza artificiale per tutto il potenziale positivo che ha. Abbiamo già così tanta dipendenza dall'intelligenza artificiale nella nostra vita quotidiana, è importante per il "noi" collettivo capire con cosa abbiamo a che fare.

Andrò avanti e sosterrò che il problema del mondo reale più importante e urgente che dobbiamo risolvere come comunità tecnologica globale è come migliorare la qualità dei dati che entrano nei sistemi di intelligenza artificiale: un passo fondamentale prima di poterci concentrare su ridimensionare l'intelligenza artificiale per tutto il potenziale positivo che ha.

Abbiamo già così tanta dipendenza dall'intelligenza artificiale nella nostra vita quotidiana, è importante per il "noi" collettivo capire con cosa abbiamo a che fare. L'intelligenza artificiale dipende dai dati per esistere. In effetti, i dati alla base dell'algoritmo sono molto più importanti dell'algoritmo stesso.

Spazzatura dentro ➡️ Spazzatura fuori.

Tre aspetti dei dati da esaminare più da vicino:

  1. Qualità dei dati per l'addestramento dell'IA
  2. Infrastrutture per raccogliere, archiviare ed elaborare i dati
  3. Etica nei dati e nell'intelligenza artificiale

Durante la fase di progettazione di un algoritmo AI, i team determinano da dove proverranno i dati per addestrare l'algoritmo. I dati distorti creeranno algoritmi distorti e, in definitiva, risultati e decisioni distorti. Le implicazioni nel mondo reale sono di vasta portata e piuttosto pericolose. Se sei come me, impari meglio anche con gli esempi:

  • Sanità | Modelli di intelligenza artificiale a raggi X : se vengono utilizzati solo i raggi X di uomini per addestrare un algoritmo di intelligenza artificiale per il rilevamento delle immagini, l'IA potrebbe non riconoscere le malattie quando viene incaricato di diagnosticare una donna.
  • Sicurezza e sorveglianza | Telecamere intelligenti AI: se le immagini fornite alle telecamere di sicurezza intelligenti AI raccolgono solo articoli di notizie statunitensi sui musulmani degli ultimi 10 anni, imparerà a considerare chiunque abbia caratteristiche fisiche di quella regione o chiunque pratichi l'Islam come una minaccia. Una simile sfortunata applicazione è la sorveglianza di sicurezza per le comunità afroamericane, che conosciamo fin troppo bene.
  • Riconoscimento facciale | Tagging sui social media : se il set di dati utilizzato per addestrare l'algoritmo AI è costituito principalmente da volti e lineamenti caucasici, l'algoritmo escluderà quelli di altre etnie. Questo approfondisce il tema della rappresentazione per tutti e l'impatto che può avere sulle profezie negative che si autoavverano e sulle barriere che crea per il progresso. Il rovescio della medaglia della stessa domanda è la preoccupazione della sorveglianza e delle forze di sicurezza, che alla fine perpetuano discriminazioni ingiuste contro determinate comunità.
  • Raccomandazione sui contenuti : se i dati di addestramento dell'algoritmo di intelligenza artificiale sono creati da persone con esperienze, prospettive e background limitati, questi motori di registrazione dei contenuti possono tracciare linee tra i contenuti consigliati a determinati gruppi, perpetuare narrazioni, limitare il pensiero critico e limitare l'accesso a nuovi informazione. Ciò risolve anche il problema del bias di disponibilità, in cui le persone crederanno ai contenuti che leggono, perché questo è l'unico contenuto a loro disposizione.

“I dati non mentono. Le persone fanno. Se i tuoi dati sono distorti, è perché sono stati campionati in modo errato o hai posto la domanda sbagliata (intenzionalmente o meno)."
- Lee Baker, Verità, bugie e statistiche: come mentire con le statistiche

Se i dati di addestramento di base sono distorti e incompleti, lo stesso algoritmo (o anche una versione migliorata di esso) continuerà a imparare da quei dati di base errati con un maggiore utilizzo, aggravando ulteriormente il problema.

La mia prima vera scossa alla realtà su questo tema è stata quando Donald Trump ha vinto le elezioni presidenziali nel 2016. Mi sono reso conto di essere stato in una camera di eco basata su quale contenuto era stato progettato per me, e ho continuato a essere nutrito di più di quel tema di contenuto come Ho continuato a consumarlo.

Svantaggio? Mi sono sentito totalmente accecato dai risultati delle elezioni.

Al rialzo? Ora sono iper-curiosa e ho affinato le mie capacità di pensiero critico.

Infrastrutture per raccogliere ed elaborare i dati

La realtà è che non abbiamo seguito gran parte di un metodo o sistema standardizzato su come raccogliamo, archiviamo ed elaboriamo i dati. Ciò ha portato a enormi quantità di dati raccolti in più piattaforme diverse che non funzionano bene l'una con l'altra , ovvero sistemi molto isolati senza integrazioni senza soluzione di continuità tra loro per condividere e combinare i dati. Questo non vuol dire che tutti i sistemi siano tali (ce ne sono molti che sono in procinto di risolvere questo problema), ma rimane un vero problema da affrontare per la comunità tecnologica per massimizzare il valore dei dati provenienti da varie fonti diverse.

E peggio? La qualità dei dati raccolti da ciascun sistema varia portando a imprecisioni e incoerenze se combinata con altri set di dati. Un cocktail piuttosto orribile di problemi per la " strategia basata sui dati " di cui tutti parlano.

Etica nei dati e nell'intelligenza artificiale: è complicato.

Per compiere progressi significativi nello sviluppo di uno standard etico per la tecnologia e l'intelligenza artificiale, dobbiamo prima riconoscere quanto sia incredibilmente complessa la questione dell'etica. Ciò che un gruppo considera "morale" e "giusto", potrebbe essere completamente osceno e offensivo per un altro gruppo - con esattamente la stessa quantità di convinzione.

Nel 2017, ho partecipato a un discorso fenomenale di Michael Schidlowsky alla Flatiron School di New York che continua a ispirarmi ancora oggi. Ha guidato il pubblico attraverso una serie di esperimenti mentali per illustrare la complessità dietro ciò che "consideriamo" etica e morale, quanto velocemente saltiamo alle conclusioni inizialmente e come le linee diventano sfocate quando è il momento di metterle in pratica.

Il mio esperimento mentale preferito: il dilemma del carrello . Questo esperimento è un vero dilemma della vita reale per coloro che progettano e addestrano auto a guida autonoma oggi!

Facciamo un ulteriore passo avanti. Come sceglieresti di addestrare un algoritmo per auto a guida autonoma se dovessi scegliere tra uccidere/salvare una persona anziana o un bambino? Un uomo contro una donna? Una persona di colore contro una persona bianca? Una donna incinta contro una donna con un bambino piccolo in braccio? Un uomo con una gamba amputata contro un uomo sano e perfettamente sano?

Ancora scomodo? Sì, è complicato.

Mentre il nostro obiettivo come comunità tecnologica e come membri della razza umana dovrebbe essere quello di ridurre il più possibile i pregiudizi, la realtà è che ci sarà sempre qualche pregiudizio che esiste nei set di dati selezionati per addestrare gli algoritmi di intelligenza artificiale e il pregiudizio all'interno di questi set di dati cambierà a seconda dell'ambiente che ci circonda e di ciò che viene "normalizzato" durante quel periodo.

Un esempio scomodo con alcune brutte verità: se le auto a guida autonoma venivano addestrate nel sud (USA) durante i primi anni del 1900 al culmine dei movimenti del KKK, non è difficile immaginare che coloro che prendono decisioni sui set di dati di addestramento sceglierebbero il percorso di valorizzare la vita di una persona bianca rispetto a una persona di colore. Innumerevoli altri esempi dal mondo in cui viviamo oggi.

Spazzatura dentro, spazzatura fuori.

Buoni dati ➡️ Buona intelligenza artificiale— Ma come ci arriviamo?

Un certo livello di pregiudizio, conscio o inconscio, esisterà sempre. L'obiettivo collettivo è ridurre l' oscillazione del pendolo diagonale , per quanto umanamente possibile.

Ecco alcune idee su come possiamo arrivarci:

  1. Diversità intenzionale tra i team di dati e intelligenza artificiale :
    è fondamentale rappresentare il maggior numero possibile di gruppi di persone nella creazione e nell'addestramento degli algoritmi di intelligenza artificiale. Questo passaggio di inclusione deve essere significativo e orientato all'azione, e non solo una mano di vernice PR. La diversità di pensiero, prospettiva, esperienza e background rafforzerà i nostri set di dati e contribuirà a ridurre l'oscillazione del pendolo del pregiudizio nei dati, soprattutto mentre ridimensioniamo le applicazioni AI a livello globale.
  2. Sii iper-curioso : scopri
    di più sull'intelligenza artificiale e disimballa quelle parole d'ordine. Fare domande. Non aver paura di indagare e approfondire con i partner commerciali e i fornitori di tecnologia su quali set di dati vengono utilizzati e rappresentati, come i dati vengono raccolti ed elaborati, quali metodologie di intelligenza artificiale vengono utilizzate, ecc. le informazioni di cui hai bisogno per prendere le decisioni migliori per la tua azienda (e te stesso) come puoi.
  3. Sfrutta la tecnologia AI per dati migliori ⚡︎:
    utilizza la tecnologia AI per automatizzare attività monotone relative alla raccolta dei dati. Ad esempio, molti sistemi di note spese consentono ai dipendenti di caricare semplicemente o inviare tramite e-mail una foto delle ricevute e scansionano automaticamente tutte le informazioni necessarie richieste.
  4. Gamification : ripulire
    i dati e garantire la qualità dei dati può essere uno dei lavori meno entusiasmanti a cui ci si iscriverebbe, ma richiede un contributo umano ponderato. Esistono modi per gamificare in modo creativo il processo di raccolta di dati di qualità superiore, ripulire i dati esistenti e lavorare in modo aggressivo per ridurre i pregiudizi e aumentare la diversità nei set di dati. Se fatto in modo efficace, possiamo guidare il cambiamento di cui abbiamo bisogno con meno attriti.
  5. Soprattutto, accettare la complessità dell'etica ⚖️:
    invece di lottare per una verità assoluta in un mondo sempre più globale e diversificato, sarebbe meglio per noi accettare la complessità nella progettazione di standard etici e continuare a fare del nostro meglio per aumentare la diversità e la rappresentanza, riducendo i pregiudizi. Questo sarà un costante lavoro in corso (come dovrebbe essere!), e sbaglieremo molto, ma come ha detto così magnificamente Maya Angelou: “ Fai del tuo meglio finché non ne saprai di più. Poi quando sai meglio, fai meglio”.

Spazzatura fuori.