Datos: Entrada de basura, Salida de basura

Dec 01 2022
Seguiré adelante y argumentaré que el problema del mundo real más importante y urgente que debemos resolver como comunidad tecnológica global es cómo mejoramos la calidad de los datos que ingresan a los sistemas de inteligencia artificial, un paso fundamental antes de que podamos centrarnos en escalar la IA por todo el potencial positivo que tiene. Ya dependemos tanto de la IA en nuestra vida cotidiana, que es importante que el “nosotros” colectivo comprenda a qué nos enfrentamos.

Seguiré adelante y argumentaré que el problema del mundo real más importante y urgente que debemos resolver como comunidad tecnológica global es cómo mejoramos la calidad de los datos que ingresan a los sistemas de inteligencia artificial, un paso fundamental antes de que podamos centrarnos en escalar la IA por todo el potencial positivo que tiene.

Ya dependemos tanto de la IA en nuestra vida cotidiana, que es importante que el “nosotros” colectivo comprenda a qué nos enfrentamos. La IA depende de los datos para existir. De hecho, los datos detrás del algoritmo son mucho más importantes que el propio algoritmo.

Basura entra ➡️ Basura sale.

Tres aspectos de los datos para examinar más de cerca:

  1. Calidad de datos para entrenar IA
  2. Infraestructuras para recopilar, almacenar y procesar datos
  3. Ética en Datos e IA

Durante la fase de diseño de un algoritmo de IA, los equipos determinan de dónde provendrán los datos para entrenar el algoritmo. Los datos sesgados crearán algoritmos sesgados y, en última instancia, resultados y decisiones sesgados. Las implicaciones del mundo real son de largo alcance y bastante peligrosas. Si eres como yo, también aprendes mejor con ejemplos:

  • Salud | Modelos de IA de rayos X : si solo se usan rayos X de hombres para entrenar un algoritmo de IA para la detección de imágenes, es posible que la IA no reconozca enfermedades cuando se le encargue diagnosticar a una mujer.
  • Seguridad y Vigilancia | Cámaras inteligentes de inteligencia artificial: si las imágenes alimentadas a las cámaras de seguridad inteligentes de inteligencia artificial solo recogen artículos de noticias estadounidenses sobre musulmanes de los últimos 10 años, aprenderá a considerar como una amenaza a cualquier persona con características físicas de esa región o cualquiera que practique el Islam. Una desafortunada aplicación similar es la vigilancia de seguridad para las comunidades afroamericanas, con la que todos estamos muy familiarizados.
  • Reconocimiento facial | Etiquetado de redes sociales : si el conjunto de datos utilizado para entrenar el algoritmo de IA son principalmente caras y características caucásicas, el algoritmo excluirá las de otras etnias. Esto profundiza mucho más en el tema de la representación para todos y el impacto que puede tener en las profecías negativas autocumplidas y las barreras que crea para el progreso. Por otro lado de la misma aplicación está la preocupación de las fuerzas de vigilancia y seguridad, que en última instancia perpetúan la discriminación injusta contra ciertas comunidades.
  • Recomendación de contenido : si los datos de entrenamiento del algoritmo de IA son creados por personas con experiencias, perspectivas y antecedentes limitados, estos motores de recreación de contenido pueden trazar líneas entre qué contenido se recomienda a ciertos grupos, perpetuar las narrativas, limitar el pensamiento crítico y restringir el acceso a nuevos información. Esto también aborda el problema del sesgo de disponibilidad, donde las personas creerán el contenido que leen, porque ese es el único contenido disponible para ellos.

“Los datos no mienten. La gente hace. Si sus datos están sesgados, es porque se tomaron muestras incorrectamente o porque hizo la pregunta incorrecta (ya sea deliberadamente o no)”.
- Lee Baker, Verdad, mentiras y estadísticas: cómo mentir con estadísticas

Si los datos básicos de entrenamiento están sesgados e incompletos, ese mismo algoritmo (o incluso una versión mejorada del mismo) seguirá aprendiendo de esos datos básicos incorrectos con más uso, lo que agravará aún más el problema.

Mi primera sacudida real a la realidad sobre este tema fue cuando Donald Trump ganó las elecciones presidenciales en 2016. Me di cuenta de que había estado en una cámara de eco en función del contenido diseñado para mí, y seguí recibiendo más información sobre ese tema de contenido a medida que Continué consumiéndolo.

¿Abajo? Me sentí totalmente sorprendido por los resultados de las elecciones.

¿Al revés? Ahora tengo mucha curiosidad y he perfeccionado mis habilidades de pensamiento crítico.

Infraestructuras para recopilar y procesar datos

La realidad es que no hemos estado siguiendo mucho de un método o sistema estandarizado de cómo recopilamos, almacenamos y procesamos datos. Esto ha resultado en enormes cantidades de datos recopilados en múltiples plataformas diferentes que no funcionan bien entre sí , es decir, sistemas muy aislados sin integraciones perfectas entre ellos para compartir y combinar datos. Esto no quiere decir que todos los sistemas sean tales (hay muchos que están en proceso de resolver esta inquietud), pero sigue siendo un problema real que la comunidad tecnológica debe abordar para maximizar el valor de los datos de varias fuentes diferentes.

¿Y peor? La calidad de los datos recopilados por cada sistema varía, lo que genera imprecisiones e inconsistencias cuando se combinan con otros conjuntos de datos. Un cóctel bastante horrible de problemas para la " estrategia basada en datos " de la que escuchas a todos hablar.

Ética en datos e inteligencia artificial: es complicado.

Para lograr un progreso significativo en el desarrollo de un estándar de ética para la tecnología y la IA, primero debemos reconocer cuán increíblemente complejo es el tema de la ética. Lo que un grupo considera "moral" y "correcto", podría ser completamente obsceno y ofensivo para otro grupo, exactamente con la misma cantidad de convicción.

En 2017, asistí a una charla fenomenal de Michael Schidlowsky en Flatiron School en Nueva York que continúa inspirándome hasta el día de hoy. Guió a la audiencia a través de una serie de experimentos mentales para ilustrar la complejidad detrás de lo que "consideramos" ética y moral, qué tan rápido sacamos conclusiones inicialmente y cómo las líneas se vuelven borrosas cuando llega el momento de ejecutarlas.

Mi experimento mental favorito: El dilema del tranvía . ¡Este experimento es un dilema de la vida real para aquellos que diseñan y entrenan automóviles autónomos hoy en día!

Llevemos esto un paso más allá. ¿Cómo elegirías entrenar un algoritmo de automóvil autónomo si tuvieras que elegir entre matar/salvar a una persona mayor o a un niño? ¿Un hombre contra una mujer? ¿Una persona negra vs una persona blanca? ¿Una mujer embarazada vs una mujer con un niño pequeño en brazos? ¿Un hombre con una pierna amputada frente a un hombre perfectamente sano y sin discapacidad?

¿Incómodo todavía? Sí, es complicado.

Si bien nuestro objetivo como comunidad tecnológica y como miembros de la raza humana debe ser reducir tantos sesgos como sea posible, la realidad es que siempre existirá algún sesgo en los conjuntos de datos seleccionados para entrenar algoritmos de IA, y el sesgo dentro de estos conjuntos de datos. cambiará según el entorno que nos rodea y lo que se "normaliza" durante ese tiempo.

Un ejemplo incómodo con algunas verdades feas: si los autos sin conductor estuvieran siendo entrenados en el sur (EE. Valorando la vida de una persona blanca sobre la de una persona negra. Innumerables otros ejemplos del mundo en el que vivimos hoy.

Basura dentro basura fuera.

Buenos datos ➡️ Buena IA: pero, ¿cómo llegamos allí?

Siempre existirá algún nivel de sesgo, consciente o inconsciente. El objetivo colectivo es reducir la oscilación del péndulo sesgado , tanto como sea humanamente posible.

Aquí hay algunas ideas sobre cómo podemos llegar allí:

  1. Diversidad intencional en equipos de datos e IA :
    es fundamental representar a tantos grupos de personas como sea posible en la creación y entrenamiento de algoritmos de IA. Este paso de inclusión debe ser significativo y estar orientado a la acción, y no solo una capa de pintura de relaciones públicas. La diversidad de pensamiento, perspectiva, experiencia y antecedentes fortalecerá nuestros conjuntos de datos y ayudará a reducir el péndulo del sesgo en los datos, especialmente a medida que escalamos las aplicaciones de IA a nivel mundial.
  2. Sé hipercurioso :
    aprende más sobre la inteligencia artificial y descubre esas palabras de moda. Hacer preguntas. No tenga miedo de investigar y profundizar con socios comerciales y proveedores de tecnología sobre qué conjuntos de datos se están utilizando y representando, cómo se recopilan y procesan los datos, qué metodologías de IA se utilizan, etc. Tenga mucha curiosidad para estar armado con la información que necesita para tomar las mejores decisiones para su negocio (y usted mismo) como le sea posible.
  3. Aproveche la tecnología de inteligencia artificial para obtener mejores datos ⚡︎:
    utilice la tecnología de inteligencia artificial para automatizar las tareas monótonas relacionadas con la recopilación de datos. Por ejemplo, muchos sistemas de informes de gastos permiten que los empleados simplemente carguen o envíen por correo electrónico una foto de los recibos y escanean automáticamente toda la información necesaria.
  4. Gamificación :
    limpiar los datos y garantizar su calidad puede ser uno de los trabajos menos emocionantes en los que uno se inscribiría, pero requiere un aporte humano reflexivo. Hay formas de gamificar creativamente el proceso de recopilar datos de mayor calidad, limpiar los datos existentes y trabajar agresivamente para reducir el sesgo y aumentar la diversidad en los conjuntos de datos. Si se hace de manera efectiva, podemos impulsar el cambio que necesitamos con menos fricción.
  5. Lo más importante: aceptar la complejidad de la ética ⚖️:
    en lugar de luchar por una verdad absoluta en un mundo cada vez más global y diverso, sería mejor para nosotros aceptar la complejidad en el diseño de estándares éticos y continuar haciendo todo lo posible para aumentar la diversidad y la representación. mientras se reduce el sesgo. Este será un trabajo en progreso constante (¡como debería ser!), y nos equivocaremos mucho, pero como Maya Angelou dijo tan bellamente: “ Haz lo mejor que puedas hasta que sepas mejor. Entonces, cuando sepas mejor, hazlo mejor”.

La basura fuera.