Données : Garbage In, Garbage Out

Dec 01 2022
Je vais continuer et affirmer que le problème le plus important et le plus urgent du monde réel que nous devons résoudre en tant que communauté technologique mondiale est de savoir comment améliorer la qualité des données qui entrent dans les systèmes d'intelligence artificielle - une étape cruciale avant que nous puissions nous concentrer sur faire évoluer l'IA pour tout le potentiel positif dont elle dispose. Nous dépendons déjà tellement de l'IA dans notre vie quotidienne qu'il est important pour le « nous » collectif de comprendre à quoi nous avons affaire.

Je vais continuer et affirmer que le problème le plus important et le plus urgent du monde réel que nous devons résoudre en tant que communauté technologique mondiale est de savoir comment améliorer la qualité des données qui entrent dans les systèmes d'intelligence artificielle - une étape cruciale avant que nous puissions nous concentrer sur faire évoluer l'IA pour tout le potentiel positif dont elle dispose.

Nous dépendons déjà tellement de l'IA dans notre vie quotidienne qu'il est important pour le « nous » collectif de comprendre à quoi nous avons affaire. L'IA dépend des données pour exister. En fait, les données derrière l'algorithme sont beaucoup plus importantes que l'algorithme lui-même.

Garbage in ➡️ Garbage out.

Trois aspects des données à examiner de plus près :

  1. Qualité des données pour l'IA de formation
  2. Des infrastructures pour collecter, stocker et traiter les données
  3. Éthique dans les données et l'IA

Lors de la phase de conception d'un algorithme d'IA, les équipes déterminent d'où proviendront les données pour entraîner l'algorithme. Des données biaisées créeront des algorithmes biaisés et, en fin de compte, des résultats et des décisions biaisés. Les implications dans le monde réel sont considérables et assez dangereuses. Si vous êtes comme moi, vous apprenez mieux avec des exemples aussi :

  • Santé | Modèles d'IA à rayons X : si seules les rayons X d'hommes sont utilisés pour former un algorithme d'IA pour la détection d'images, l'IA peut ne pas reconnaître les maladies lorsqu'elle est chargée de diagnostiquer une femme.
  • Sécurité & Surveillance | Caméras intelligentes AI : Si les images transmises aux caméras de sécurité intelligentes AI ne captent que les articles de presse américains sur les musulmans des 10 dernières années, elles apprendront à considérer toute personne ayant des caractéristiques physiques de cette région ou toute personne qui pratique l'islam comme une menace. Une application malheureuse similaire est la surveillance de la sécurité des communautés afro-américaines, que nous ne connaissons que trop bien.
  • Reconnaissance faciale | Balisage des médias sociaux : si l'ensemble de données utilisé pour former l'algorithme d'IA est principalement constitué de visages et de traits caucasiens, l'algorithme exclura ceux d'autres ethnies. Cela va beaucoup plus loin dans le sujet de la représentation pour tous, et l'impact qu'elle peut avoir sur les prophéties auto-réalisatrices négatives et les obstacles qu'elle crée pour le progrès. A l'envers de la même application se trouve l'inquiétude des forces de surveillance et de sécurité, perpétuant in fine des discriminations injustes à l'encontre de certaines communautés.
  • Recommandation de contenu : si les données de formation à l'algorithme d'IA sont construites par des personnes ayant des expériences, des perspectives et des antécédents limités, ces moteurs de rec de contenu peuvent tracer des lignes entre le contenu recommandé à certains groupes, perpétuer les récits, limiter la pensée critique et restreindre l'accès à de nouveaux informations. Cela résout également le problème du biais de disponibilité - où les gens croiront le contenu qu'ils lisent, car c'est le seul contenu à leur disposition.

« Les données ne mentent pas. Les gens font. Si vos données sont biaisées, c'est parce qu'elles ont été mal échantillonnées ou que vous avez posé la mauvaise question (délibérément ou non).
- Lee Baker, Vérité, mensonges et statistiques : Comment mentir avec les statistiques

Si les données de formation fondamentales sont biaisées et incomplètes, ce même algorithme (ou même une version améliorée de celui-ci) continuera à apprendre de ces données fondamentales incorrectes avec plus d'utilisation, ce qui ne fera qu'aggraver encore le problème.

Ma première vraie secousse à la réalité sur cette question a été lorsque Donald Trump a remporté l'élection présidentielle en 2016. J'ai réalisé que j'avais été dans une chambre d'écho en fonction du contenu qui était conçu pour moi, et j'ai continué à être alimenté davantage de ce thème de contenu comme J'ai continué à en consommer.

Inconvénient? Je me suis senti totalement aveuglé par les résultats de l'élection.

À l'envers ? Je suis maintenant hyper-curieuse et j'ai aiguisé mon esprit critique.

Des infrastructures pour collecter et traiter les données

La réalité est que nous n'avons pas beaucoup suivi une méthode ou un système standardisé de collecte, de stockage et de traitement des données. Cela a entraîné d'énormes quantités de données collectées sur plusieurs plates-formes différentes qui ne fonctionnent pas bien les unes avec les autres - c'est-à-dire des systèmes très cloisonnés sans intégration transparente entre eux pour partager et combiner des données. Cela ne veut pas dire que tous les systèmes le sont (il y en a beaucoup qui sont en train de résoudre ce problème), mais cela reste un vrai problème à résoudre pour la communauté technologique afin de maximiser la valeur des données provenant de différentes sources.

Et pire ? La qualité des données collectées par chaque système varie, ce qui entraîne des inexactitudes et des incohérences lorsqu'elles sont combinées avec d'autres ensembles de données. Un cocktail assez affreux de problèmes pour la « stratégie axée sur les données » dont tout le monde parle.

L'éthique dans les données et l'IA : c'est compliqué.

Pour faire des progrès significatifs dans l'élaboration d'une norme d'éthique pour la technologie et l'IA, nous devons d'abord reconnaître à quel point la question de l'éthique est incroyablement complexe. Ce qu'un groupe considère comme "moral" et "juste", pourrait être complètement obscène et offensant pour un autre groupe - avec exactement le même degré de conviction.

En 2017, j'ai assisté à une conférence phénoménale de Michael Schidlowsky à la Flatiron School de New York qui continue de m'inspirer à ce jour. Il a guidé le public à travers un certain nombre d'expériences de pensée pour illustrer la complexité derrière ce que nous « considérons » l'éthique et la morale, la rapidité avec laquelle nous sautons aux conclusions au départ et la façon dont les lignes deviennent floues lorsqu'il est temps de les exécuter.

Mon expérience de pensée préférée : Le dilemme du chariot . Cette expérience est un véritable dilemme réel pour ceux qui conçoivent et forment aujourd'hui des voitures autonomes !

Allons plus loin. Comment choisiriez- VOUS de former un algorithme de voiture autonome si vous faisiez le choix entre tuer/sauver une personne âgée ou un enfant ? Un homme contre une femme ? Un noir contre un blanc ? Une femme enceinte contre une femme avec un petit enfant dans les bras ? Un homme avec une jambe amputée vs un homme valide en parfaite santé ?

Pas encore à l'aise ? Oui, c'est compliqué.

Alors que notre objectif en tant que communauté technologique et en tant que membres de la race humaine devrait être de réduire autant que possible les biais, la réalité est qu'il y aura toujours un biais qui existe dans les ensembles de données sélectionnés pour former des algorithmes d'IA, et le biais au sein de ces ensembles de données changera en fonction de l'environnement qui nous entoure et de ce qui est « normalisé » pendant cette période.

Un exemple inconfortable avec quelques vilaines vérités : si des voitures autonomes étaient entraînées dans le Sud (États-Unis) au début des années 1900, au plus fort des mouvements du KKK, il n'est pas difficile d'imaginer que ceux qui prennent des décisions sur des ensembles de données d'entraînement choisiraient la voie de valoriser la vie d'une personne blanche par rapport à une personne noire. D'innombrables autres exemples du monde dans lequel nous vivons aujourd'hui.

Garbage in, Garbage out.

Good Data ➡️ Good AI— Mais comment y arriver ?

Un certain niveau de préjugé, conscient ou inconscient, existera toujours. L'objectif collectif est de réduire le balancement du pendule de biais , autant qu'il est humainement possible.

Voici quelques idées sur la façon dont nous pouvons y arriver :

  1. Diversité intentionnelle dans les équipes de données et d'IA :
    Il est essentiel de représenter autant de groupes de personnes que possible dans la création et la formation d'algorithmes d'IA. Cette étape d'inclusion doit être significative et orientée vers l'action, et pas seulement une couche de peinture de relations publiques. La diversité de pensée, de perspective, d'expérience et d'expérience renforcera nos ensembles de données et aidera à réduire l'oscillation du pendule des biais dans les données, en particulier à mesure que nous étendons les applications d'IA à l'échelle mondiale.
  2. Soyez hyper-curieux :
    Apprenez-en plus sur l'intelligence artificielle et décompressez ces mots à la mode. Poser des questions. N'ayez pas peur d'enquêter et d'approfondir vos recherches avec vos partenaires commerciaux et fournisseurs de technologies sur les ensembles de données utilisés et représentés, la manière dont les données sont collectées et traitées, les méthodologies d'IA utilisées, etc. Soyez hyper-curieux afin d'être armé de les informations dont vous avez besoin pour prendre les meilleures décisions pour votre entreprise (et pour vous-même) dans la mesure du possible.
  3. Tirez parti de la technologie AI pour de meilleures données ⚡︎ :
    utilisez la technologie AI pour automatiser les tâches monotones autour de la collecte de données. Par exemple, de nombreux systèmes de notes de frais permettent aux employés de simplement télécharger ou envoyer par e-mail une photo des reçus et de numériser automatiquement toutes les informations nécessaires requises.
  4. Gamification :
    Nettoyer les données et assurer la qualité des données peut être l'une des tâches les moins passionnantes pour lesquelles on s'inscrirait, mais nécessite une intervention humaine réfléchie. Il existe des moyens de gamifier de manière créative le processus de collecte de données de meilleure qualité, de nettoyer les données existantes et de travailler de manière agressive pour réduire les biais et accroître la diversité des ensembles de données. Si cela est fait efficacement, nous pouvons conduire le changement dont nous avons besoin avec moins de friction.
  5. Plus important encore — Accepter la complexité de l'éthique ⚖️ :
    Au lieu de lutter pour une vérité absolue dans un monde de plus en plus global et diversifié, il serait préférable pour nous d'accepter la complexité de la conception de normes éthiques et de continuer à faire de notre mieux pour accroître la diversité et la représentation, tout en réduisant les biais. Ce sera un travail constant en cours (comme il se doit !), et nous allons nous tromper souvent — mais comme Maya Angelou l'a si bien dit : « Faites de votre mieux jusqu'à ce que vous sachiez mieux. Alors quand vous savez mieux, faites mieux ».

Sortir les ordures.