Daten: Müll rein, Müll raus

Dec 01 2022
Ich werde fortfahren und argumentieren, dass das wichtigste und dringendste reale Problem, das wir als globale Tech-Community lösen müssen, darin besteht, wie wir die Qualität der Daten verbessern, die in Systeme der künstlichen Intelligenz einfließen – ein entscheidender Schritt, bevor wir uns darauf konzentrieren können Skalierung der KI für all das positive Potenzial, das sie hat. Wir sind in unserem täglichen Leben bereits so sehr auf KI angewiesen, dass es wichtig ist, dass das kollektive „wir“ versteht, womit wir es zu tun haben.

Ich werde fortfahren und argumentieren, dass das wichtigste und dringendste reale Problem , das wir als globale Tech-Community lösen müssen, darin besteht, wie wir die Qualität der Daten verbessern, die in Systeme der künstlichen Intelligenz einfließen – ein entscheidender Schritt, bevor wir uns darauf konzentrieren können Skalierung der KI für all das positive Potenzial, das sie hat.

Wir sind in unserem täglichen Leben bereits so sehr auf KI angewiesen, dass es wichtig ist, dass das kollektive „wir“ versteht, womit wir es zu tun haben. KI ist auf Daten angewiesen, um zu existieren. Tatsächlich sind die Daten hinter dem Algorithmus viel wichtiger als der eigentliche Algorithmus selbst.

Müll rein ➡️ Müll raus.

Drei Aspekte von Daten, die näher untersucht werden sollten:

  1. Datenqualität für das Training von KI
  2. Infrastrukturen zum Sammeln, Speichern und Verarbeiten von Daten
  3. Ethik in Daten & KI

Während der Designphase eines KI-Algorithmus bestimmen die Teams, woher die Daten zum Trainieren des Algorithmus kommen. Voreingenommene Daten führen zu voreingenommenen Algorithmen und letztendlich zu voreingenommenen Ergebnissen und Entscheidungen. Die realen Auswirkungen sind weitreichend und ziemlich gefährlich. Wenn Sie wie ich sind, lernen Sie auch am besten mit Beispielen:

  • Gesundheitswesen | Röntgen-KI-Modelle : Wenn nur Röntgenbilder von Männern verwendet werden, um einen KI-Algorithmus für die Bilderkennung zu trainieren, erkennt die KI Krankheiten möglicherweise nicht, wenn sie mit der Diagnose einer Frau beauftragt wird.
  • Sicherheit & Überwachung | Intelligente KI-Kameras: Wenn die Bilder, die in intelligente KI-Überwachungskameras eingespeist werden, nur US-Nachrichtenartikel über Muslime aus den letzten 10 Jahren aufnehmen, wird es lernen, jeden mit körperlichen Merkmalen aus dieser Region oder jeden, der den Islam praktiziert, als Bedrohung zu betrachten. Eine ähnlich unglückliche Anwendung ist die Sicherheitsüberwachung für afroamerikanische Gemeinschaften, mit der wir nur allzu vertraut sind.
  • Gesichtserkennung | Social Media Tagging : Wenn der Datensatz, der zum Trainieren des KI-Algorithmus verwendet wird, hauptsächlich aus kaukasischen Gesichtern und Gesichtszügen besteht, schließt der Algorithmus diejenigen anderer Ethnien aus. Dies geht viel tiefer in das Thema der Repräsentation für alle und die Auswirkungen, die es auf negative sich selbst erfüllende Prophezeiungen haben kann, und die Hindernisse, die es für den Fortschritt schafft. Auf der anderen Seite derselben Anwendung steht die Sorge der Überwachungs- und Sicherheitskräfte, die letztendlich die unfaire Diskriminierung bestimmter Gemeinschaften aufrechterhalten.
  • Inhaltsempfehlung : Wenn KI-Algorithmus-Trainingsdaten von Personen mit begrenzten Erfahrungen, Perspektiven und Hintergründen erstellt werden, können diese Inhaltserkennungs-Engines Grenzen zwischen den Inhalten ziehen, die bestimmten Gruppen empfohlen werden, Narrative aufrechterhalten, kritisches Denken einschränken und den Zugang zu Neuem einschränken Information. Dies befasst sich auch mit dem Problem der Verfügbarkeitsverzerrung – wo die Leute den Inhalten glauben, die sie lesen, weil dies die einzigen Inhalte sind, die ihnen zur Verfügung stehen.

„Daten lügen nicht. Menschen tun. Wenn Ihre Daten voreingenommen sind, liegt dies daran, dass sie falsch erhoben wurden oder Sie die falsche Frage gestellt haben (ob absichtlich oder nicht).“
- Lee Baker, Wahrheit, Lügen und Statistiken: Wie man mit Statistiken lügt

Wenn die Grundlagentrainingsdaten voreingenommen und unvollständig sind, wird derselbe Algorithmus (oder sogar eine verbesserte Version davon) weiterhin aus diesen falschen Grundlagendaten mit mehr Verwendung lernen, was das Problem nur noch verschärft.

Mein erster wirklicher Realitätsschock zu diesem Thema war, als Donald Trump 2016 die Präsidentschaftswahlen gewann. Mir wurde klar, dass ich mich in einer Echokammer befunden hatte, basierend darauf, welche Inhalte für mich entworfen wurden, und ich wurde weiterhin mit mehr von diesem Inhaltsthema gefüttert Ich habe es weiter konsumiert.

Nachteil? Ich fühlte mich von den Wahlergebnissen völlig überrumpelt.

Auf der Oberseite? Ich bin jetzt hyperneugierig und habe mein kritisches Denkvermögen geschärft.

Infrastrukturen zum Sammeln und Verarbeiten von Daten

Die Realität ist, dass wir bisher kaum einer standardisierten Methode oder einem standardisierten System gefolgt sind, wie wir Daten sammeln, speichern und verarbeiten. Dies hat zu enormen Datenmengen geführt, die auf mehreren verschiedenen Plattformen gesammelt wurden, die nicht gut miteinander spielen – auch bekannt als sehr isolierte Systeme ohne nahtlose Integrationen zwischen ihnen, um Daten auszutauschen und zu kombinieren. Das soll nicht heißen, dass alle Systeme so sind (es gibt viele, die dabei sind, dieses Problem zu lösen), aber es bleibt ein echtes Problem für die Tech-Community, das angegangen werden muss, um den Wert von Daten aus verschiedenen Quellen zu maximieren.

Und schlimmer? Die Qualität der von jedem System gesammelten Daten ist unterschiedlich, was zu Ungenauigkeiten und Inkonsistenzen führt, wenn sie mit anderen Datensätzen kombiniert werden. Ein ziemlich schrecklicher Problemcocktail für die „ datengetriebene Strategie “, von der alle reden.

Ethik in Daten und KI: Es ist kompliziert.

Um sinnvolle Fortschritte bei der Entwicklung eines Ethikstandards für Technologie und KI zu erzielen, müssen wir zunächst anerkennen, wie unglaublich komplex das Thema Ethik ist. Was eine Gruppe für „moralisch“ und „richtig“ hält, könnte für eine andere Gruppe völlig obszön und beleidigend sein – mit genau der gleichen Überzeugung.

2017 besuchte ich einen phänomenalen Vortrag von Michael Schidlowsky an der Flatiron School in NYC, der mich bis heute inspiriert. Er führte das Publikum durch eine Reihe von Gedankenexperimenten, um die Komplexität dessen zu veranschaulichen, was wir unter Ethik und Moral „betrachten“, wie schnell wir anfänglich voreilige Schlüsse ziehen und wie die Linien verschwimmen, wenn es an der Zeit ist, sie umzusetzen.

Mein liebstes Gedankenexperiment: Das Trolley-Dilemma . Dieses Experiment ist ein reales Dilemma für diejenigen, die heute selbstfahrende Autos entwerfen und trainieren!

Gehen wir noch einen Schritt weiter. Wie würden SIE sich entscheiden, einen selbstfahrenden Autoalgorithmus zu trainieren, wenn Sie die Wahl zwischen dem Töten / Retten einer alten Person oder einem Kind treffen würden? Ein Mann gegen eine Frau? Ein Schwarzer gegen einen Weißen? Eine schwangere Frau gegen eine Frau mit einem kleinen Kind im Arm? Ein Mann mit einem amputierten Bein gegen einen vollkommen gesunden, nicht behinderten Mann?

Noch unbequem? Ja, es ist kompliziert.

Während unser Ziel als Tech-Community und als Mitglieder der Menschheit darin bestehen sollte, so viel Voreingenommenheit wie möglich zu reduzieren, wird es in Wirklichkeit immer eine gewisse Voreingenommenheit in den Datensätzen geben, die zum Trainieren von KI-Algorithmen ausgewählt wurden, und die Voreingenommenheit in diesen Datensätzen wird sich abhängig von der Umgebung um uns herum und dem, was während dieser Zeit „normalisiert“ wird, verschieben.

Ein unangenehmes Beispiel mit einigen hässlichen Wahrheiten: Wenn in den frühen 1900er Jahren, auf dem Höhepunkt der KKK-Bewegung, im Süden (USA) selbstfahrende Autos trainiert wurden, ist es nicht schwer vorstellbar, dass diejenigen, die Entscheidungen über Trainingsdatensätze treffen, den Weg wählen würden Wertschätzung des Lebens einer weißen Person gegenüber einer schwarzen Person. Unzählige weitere Beispiele aus der Welt, in der wir heute leben.

Müll rein, Müll raus.

Gute Daten ➡️ Gute KI – aber wie kommen wir dorthin?

Ein gewisses Maß an Voreingenommenheit, bewusst oder unbewusst, wird es immer geben. Das gemeinsame Ziel ist es, den Ausschlag des Bias-Pendels so weit wie möglich zu reduzieren .

Hier sind einige Ideen, wie wir dorthin gelangen können:

  1. Beabsichtigte Vielfalt zwischen Daten- und KI-Teams :
    Es ist entscheidend, so viele Personengruppen wie möglich beim Erstellen und Trainieren von KI-Algorithmen zu vertreten. Dieser Inklusionsschritt muss sinnvoll und handlungsorientiert sein und darf nicht nur ein PR-Anstrich sein. Die Vielfalt der Gedanken, Perspektiven, Erfahrungen und Hintergründe wird unsere Datensätze stärken und dazu beitragen, den Pendelschlag der Datenverzerrung einzudämmen – insbesondere, wenn wir KI-Anwendungen weltweit skalieren.
  2. Seien Sie hyperneugierig :
    Erfahren Sie mehr über Künstliche Intelligenz und entpacken Sie diese Buzzwords. Fragen stellen. Scheuen Sie sich nicht, mit Geschäftspartnern und Technologieanbietern zu recherchieren und weiterzugraben, um herauszufinden, welche Datensätze verwendet und dargestellt werden, wie Daten gesammelt und verarbeitet werden, welche KI-Methoden verwendet werden usw. Seien Sie hyperneugierig, damit Sie gewappnet sind die Informationen, die Sie benötigen, um die bestmöglichen Entscheidungen für Ihr Unternehmen (und sich selbst) zu treffen.
  3. Nutzen Sie KI-Technologie für bessere Daten ⚡︎:
    Verwenden Sie die KI-Technologie, um monotone Aufgaben rund um die Datenerfassung zu automatisieren. Beispielsweise ermöglichen viele Spesenabrechnungssysteme den Mitarbeitern, einfach ein Foto von Quittungen hochzuladen oder per E-Mail zu versenden, und scannen automatisch alle erforderlichen Informationen.
  4. Gamification : Das Bereinigen
    von Daten und Sicherstellen der Datenqualität kann einer der weniger aufregenden Jobs sein, für die man sich anmelden würde, erfordert aber durchdachten menschlichen Input. Es gibt Möglichkeiten, den Prozess der Erhebung qualitativ hochwertigerer Daten, der Bereinigung vorhandener Daten und der aggressiven Arbeit an der Reduzierung von Verzerrungen und der Erhöhung der Vielfalt in Datensätzen kreativ zu gestalten. Wenn es effektiv gemacht wird, können wir die Veränderung, die wir brauchen, mit weniger Reibung vorantreiben.
  5. Am wichtigsten – akzeptieren Sie die Komplexität der Ethik ⚖️ :
    Anstatt für eine absolute Wahrheit in einer zunehmend globalen und vielfältigen Welt zu kämpfen, wäre es für uns am besten, die Komplexität bei der Gestaltung ethischer Standards zu akzeptieren und weiterhin unser Bestes zu tun, um Vielfalt und Repräsentation zu erhöhen, beim Abbau von Vorurteilen. Dies wird eine ständige Arbeit sein (wie es sein sollte!), und wir werden viel falsch machen – aber wie Maya Angelou so schön sagte: „ Tu dein Bestes, bis du es besser weißt. Wenn du es dann besser weißt, mach es besser“.

Müll raus.