Dados: entrada de lixo, saída de lixo
Vou seguir em frente e argumentar que o problema mais importante e urgente do mundo real para resolvermos como uma comunidade tecnológica global é como podemos melhorar a qualidade dos dados que vão para os sistemas de Inteligência Artificial - um passo fundamental antes de podermos nos concentrar em dimensionando a IA para todo o potencial positivo que ela tem.
Já confiamos tanto na IA em nosso dia a dia que é importante que o “nós” coletivo entenda com o que estamos lidando. A IA depende dos dados para existir. Na verdade, os dados por trás do algoritmo são muito mais importantes do que o próprio algoritmo real.
Lixo para dentro ➡️ Lixo para fora.

Três aspectos dos dados para examinar mais de perto:
- Qualidade de dados para IA de treinamento
- Infraestruturas para coletar, armazenar e processar dados
- Ética em dados e IA
Durante a fase de design de um algoritmo de IA, as equipes determinam de onde virão os dados para treinar o algoritmo. Dados tendenciosos criarão algoritmos tendenciosos e, por fim, resultados e decisões tendenciosos. As implicações do mundo real são abrangentes e bastante perigosas. Se você é como eu, aprende melhor com exemplos também:
- Saúde | Modelos de IA de raios-X : se apenas raios-x de homens forem usados para treinar um algoritmo de IA para detecção de imagens, a IA pode não reconhecer doenças quando incumbida de diagnosticar uma mulher.
- Segurança e Vigilância | Câmeras inteligentes de IA: se as imagens alimentadas por câmeras de segurança inteligentes de IA apenas pegarem artigos de notícias dos EUA sobre muçulmanos dos últimos 10 anos, ele aprenderá a considerar qualquer pessoa com características físicas dessa região ou qualquer pessoa que pratique o Islã como uma ameaça. Uma aplicação infeliz semelhante é a vigilância de segurança para comunidades afro-americanas, com a qual estamos muito familiarizados.
- Reconhecimento facial | Marcação de mídia social : se o conjunto de dados usado para treinar o algoritmo de IA for principalmente rostos e recursos caucasianos, o algoritmo excluirá os de outras etnias. Isso vai muito mais fundo no tópico da representação para todos, e o impacto que pode ter nas profecias auto-realizáveis negativas e nas barreiras que cria para o progresso. Do outro lado da mesma aplicação está a preocupação das forças de vigilância e segurança, acabando por perpetuar a discriminação injusta contra certas comunidades.
- Recomendação de conteúdo : se os dados de treinamento do algoritmo de IA forem criados por pessoas com experiências, perspectivas e origens limitadas, esses mecanismos de gravação de conteúdo podem traçar linhas entre o conteúdo recomendado para determinados grupos, perpetuar narrativas, limitar o pensamento crítico e restringir o acesso a novos em formação. Isso também aborda a questão do viés de disponibilidade – onde as pessoas acreditarão no conteúdo que leem, porque esse é o único conteúdo disponível para elas.
“Os dados não mentem. Pessoas fazem. Se seus dados são tendenciosos, é porque foram amostrados incorretamente ou você fez a pergunta errada (seja deliberadamente ou não).”
- Lee Baker, Truth, Lies & Statistics: How to Lie with Statistics
Se os dados de treinamento fundamental forem tendenciosos e incompletos, o mesmo algoritmo (ou até mesmo uma versão aprimorada dele) continuará a aprender com esses dados básicos incorretos com mais uso, apenas exacerbando ainda mais o problema.
Meu primeiro choque real sobre esse assunto foi quando Donald Trump venceu a eleição presidencial em 2016. Percebi que estava em uma câmara de eco com base no conteúdo projetado para mim e continuei a receber mais desse tema de conteúdo como Continuei consumindo.
Desvantagem? Eu me senti totalmente pego de surpresa pelos resultados da eleição.
Parte de cima? Agora estou hipercurioso e aprimorei minhas habilidades de pensamento crítico.
Infraestruturas para coletar e processar dados
A realidade é que não seguimos um método ou sistema padronizado de como coletamos, armazenamos e processamos dados. Isso resultou em enormes quantidades de dados coletados em várias plataformas diferentes que não funcionam bem umas com as outras — também conhecidos como sistemas muito isolados sem integrações perfeitas entre eles para compartilhar e combinar dados. Isso não quer dizer que todos os sistemas são assim (há muitos que estão no processo de resolver essa preocupação), mas continua sendo um problema real para a comunidade de tecnologia abordar a fim de maximizar o valor dos dados de várias fontes diferentes.
E pior? A qualidade dos dados coletados por cada sistema varia levando a imprecisões e inconsistências quando combinados com outros conjuntos de dados. Um coquetel terrível de problemas para a “ estratégia baseada em dados ” da qual você ouve todo mundo falando.
Ética em dados e IA: é complicado.
Para fazer qualquer progresso significativo no desenvolvimento de um padrão de ética para tecnologia e IA, devemos primeiro reconhecer o quão incrivelmente complexa é a questão da ética. O que um grupo considera “moral” e “certo” pode ser completamente obsceno e ofensivo para outro grupo – com exatamente a mesma convicção.
Em 2017, assisti a uma palestra fenomenal de Michael Schidlowsky na Flatiron School em Nova York que continua a me inspirar até hoje. Ele guiou o público por uma série de experimentos mentais para ilustrar a complexidade por trás do que “consideramos” ética e moral, a rapidez com que tiramos conclusões inicialmente e como as linhas ficam confusas quando é hora de executá-las.
Meu experimento mental favorito: O dilema do bonde . Este experimento é um dilema real da vida real para aqueles que projetam e treinam carros autônomos hoje!

Vamos dar um passo adiante. Como VOCÊ escolheria treinar um algoritmo de carro autônomo se fizesse a escolha entre matar / salvar uma pessoa idosa ou uma criança? Um homem contra uma mulher? Uma pessoa negra versus uma pessoa branca? Uma mulher grávida vs uma mulher com uma criança pequena nos braços? Um homem com uma perna amputada versus um homem perfeitamente saudável?
Desconfortável ainda? Sim, é complicado.
Embora nosso objetivo como comunidade tecnológica e como membros da raça humana deva ser reduzir o máximo de viés possível, a realidade é que sempre haverá algum viés nos conjuntos de dados selecionados para treinar algoritmos de IA, e o viés dentro desses conjuntos de dados mudará dependendo do ambiente ao nosso redor e do que é “normalizado” durante esse tempo.
Um exemplo desconfortável com algumas verdades feias: se carros autônomos estivessem sendo treinados no sul (EUA) durante o início de 1900, no auge dos movimentos KKK, não é difícil imaginar que aqueles que tomam decisões sobre conjuntos de dados de treinamento escolheriam o caminho de valorizando a vida de uma pessoa branca sobre uma pessoa negra. Inúmeros outros exemplos do mundo em que vivemos hoje.
Lixo para dentro, lixo para fora.
Bons Dados ➡️ Boa IA— Mas como chegamos lá?
Algum nível de viés, consciente ou inconsciente, sempre existirá. O objetivo coletivo é reduzir o balanço do pêndulo de viés , tanto quanto for humanamente possível.
Aqui estão algumas ideias sobre como podemos chegar lá:
- Diversidade intencional em equipes de dados e IA :
é fundamental representar o maior número possível de grupos de pessoas na criação e treinamento de algoritmos de IA. Esta etapa de inclusão deve ser significativa e orientada para a ação, e não apenas uma camada de tinta de relações públicas. A diversidade de pensamento, perspectiva, experiência e histórico fortalecerá nossos conjuntos de dados e ajudará a diminuir a oscilação do pêndulo do viés nos dados - especialmente à medida que dimensionamos os aplicativos de IA globalmente. - Seja hipercurioso :
Aprenda mais sobre Inteligência Artificial e desvende essas palavras-chave. Pergunte. Não tenha medo de investigar e aprofundar com parceiros de negócios e fornecedores de tecnologia sobre quais conjuntos de dados estão sendo usados e representados, como os dados são coletados e processados, quais metodologias de IA são usadas etc. as informações de que você precisa para tomar as melhores decisões possíveis para o seu negócio (e para você). - Aproveite a tecnologia AI para melhores dados ⚡︎:
Use a tecnologia AI para automatizar tarefas monótonas relacionadas à coleta de dados. Por exemplo, muitos sistemas de relatório de despesas permitem que os funcionários simplesmente carreguem ou enviem por e-mail uma foto dos recibos e digitalizem automaticamente todas as informações necessárias. - Gamificação :
Limpar dados e garantir a qualidade dos dados pode ser um dos trabalhos menos empolgantes para os quais alguém se inscreveria, mas requer uma contribuição humana cuidadosa. Existem maneiras de gamificar criativamente o processo de coletar dados de alta qualidade, limpar os dados existentes e trabalhar agressivamente para reduzir o viés e aumentar a diversidade nos conjuntos de dados. Se feito de forma eficaz, podemos conduzir a mudança de que precisamos com menos atrito. - Mais importante - Aceite a Complexidade da Ética ⚖️ :
Em vez de lutar por uma verdade absoluta em um mundo cada vez mais global e diversificado, seria melhor aceitarmos a complexidade na elaboração de padrões éticos e continuar fazendo o possível para aumentar a diversidade e a representação, ao mesmo tempo em que reduz o viés. Este será um trabalho constante em andamento (como deveria ser!), e vamos errar muito - mas como Maya Angelou disse tão lindamente: “ Faça o melhor que puder até saber melhor. Então, quando você souber melhor, faça melhor”.
Lixo para fora.