Dados Tabulares Sintéticos Criados por IA

Feb 06 2023
Robert E. Hoyt David Patrishkoff Introdução Os dados sintéticos são dados artificiais gerados com IA e outras modalidades quando não há dados suficientes do mundo real disponíveis para treinar suficientemente um modelo preditivo ou quando a privacidade é um problema.

Robert E. Hoyt

David Patrishkoff

Introdução

Dados sintéticos são dados artificiais gerados com IA e outras modalidades quando não há dados suficientes do mundo real disponíveis para treinar suficientemente um modelo preditivo ou quando a privacidade é um problema. Os dados sintéticos destinam-se apenas a expandir o conjunto de dados de treinamento e não a substituir os dados de teste, que sempre devem ser dados do mundo real. É um esforço totalmente legítimo experimentar várias estratégias de modelo de treinamento, desde que os dados de teste não sejam usados ​​de forma alguma durante o treinamento do modelo. [1] Os dados sintéticos gerados pela inteligência artificial (IA) são uma inovação relativamente nova, principalmente porque outros métodos concorrentes tiveram menos sucesso na geração de dados realistas. Gartner, a organização de pesquisa e previsão de mercado, declarou: “Até 2030, para dados usados ​​para treinar modelos de inteligência artificial (IA), os dados tabulares sintéticos crescerão pelo menos três vezes mais rápido que os dados estruturados reais.” [2] Este artigo abordará especificamente dados tabulares sintéticos ou dados que cabem em uma tabela ou planilha e não imagens sintéticas.

Vantagens dos Dados Sintéticos

Na área da saúde e em outros setores, existem vários motivos pelos quais os dados sintéticos são atraentes:

  • Falta qualidade e quantidade de dados na maioria dos campos
  • A inteligência artificial e, em menor grau, o aprendizado de máquina requerem grandes conjuntos de dados
  • Na área da saúde, os regulamentos da HIPAA limitam severamente a capacidade de usar e compartilhar dados médicos
  • Os dados sintéticos tornariam os dados de pesquisa e desenvolvimento muito mais fáceis de criar e acessar
  • Isso facilitaria o compartilhamento de dados de ensaios clínicos com periódicos, empresas farmacêuticas e reguladores, evitando preocupações com a privacidade do paciente
  • Há economia potencial de custos se os dados sintéticos puderem aumentar os ensaios clínicos, ensaios de medicamentos, etc. Também poderia diminuir o custo de rotulagem de dados de imagem.
  • Os dados sintéticos não requerem divulgações especiais ou aprovação do IRB para pesquisa
  • Dados sintéticos podem ser usados ​​para criar novos conjuntos de dados educacionais de qualidade e quantidade satisfatórias
  • Dados sintéticos podem aumentar conjuntos de dados desequilibrados onde a classe de destino é desequilibrada
  • Dados sintéticos podem aumentar características preditivas desequilibradas (por exemplo, sexo, raça, etc.). Isso pode levar a menos viés do modelo e melhor previsão.
  • Dados sintéticos podem ser usados ​​para “caixas de proteção inovadoras” [3]
  • Os dados reais usados ​​para gerar dados sintéticos devem atender a certos requisitos. Um fornecedor de dados sintéticos não gerará dados sintéticos a menos que haja pelo menos 500 linhas de dados reais.
  • Quanto maior for o conjunto de dados real, mais precisos serão os dados sintéticos.
  • É concebível que os dados sintéticos possam potencialmente piorar o viés no pré-processamento de dados e o balanceamento não for conduzido com cuidado
  • Os dados sintéticos são novos e ainda não foram amplamente aceitos. IRBs locais podem não ter experiência com dados sintéticos.

Abordagens anteriores para gerar dados sintéticos focados em anonimização, pseudo-anonimização e métodos estatísticos. Além disso, existem três pacotes Python para gerar dados sintéticos: “faker”, “synthetic data vault (SDV)” e “gretel”. [4]. O “conjurador” do pacote R também pode gerar dados sintéticos. [5]

Synthea é talvez o gerador de dados sintéticos mais conhecido não baseado em IA. Em 2017, a Mitre Corporation desenvolveu o projeto SyntheticMass que emulava os dados de saúde dos residentes de Massachusetts. Os dados sintetizados são fictícios, mas realistas porque se baseiam nas características médicas e demográficas dos residentes de Massachusetts e também refletem as diretrizes da prática clínica e as opiniões de especialistas. Existem vários conjuntos de dados longitudinais sintéticos prontos para download em seu site em vários formatos (CSV, FHIR e C-CDA). Synthea ™ é um gerador de paciente sintético para download que gera dezesseis arquivos CSV sintéticos por consulta. [6–7] Para obter mais informações sobre Synthea, recomendamos um artigo do Medium.com do autor (RH). [8]

As abordagens anteriores foram amplamente substituídas pela IA. Há uma variedade de tipos de redes neurais artificiais capazes de gerar dados sintéticos. A metodologia de IA mais comum são as redes adversárias generativas (GANs) com mais de 30 variações. Outros métodos incluem codificadores automáticos, redes de memória de longo prazo (LSTM) e conjuntos. A Figura 1 apresenta um esquema organizacional de geração de dados tabulares sintéticos (STDG) proposto por Hernandez et al. [9]

Figura 1. Esquema STDG proposto por Hernandez et al [9]

Dados sintéticos e HIPAA

Os dados sintéticos são considerados isentos de acordo com a regra de privacidade da HIPAA? A HIPAA tem dois caminhos para que as informações de saúde protegidas (PHI) sejam consideradas não identificadas. O Safe Harbor Path envolve a remoção de 18 identificadores. O Expert Determination Path envolve a aplicação de princípios estatísticos para que os dados não sejam mais identificáveis. Por esse motivo, os dados sintéticos são considerados isentos do HIPAA. (figura 2) [10–11]

Figura 2. Métodos de desidentificação das regras de privacidade da HIPAA

Como avaliar dados sintéticos

A questão mais premente é quão próximo os dados sintéticos simulam os dados originais (reais)? Vários autores recomendam julgar os dados sintéticos por três critérios: semelhança, utilidade e privacidade:

Semelhança: Há uma variedade de testes estatísticos de semelhança para avaliar o quanto os dados sintéticos imitam os dados reais. O seguinte é apenas uma lista parcial de métricas para comparar dados reais com dados sintéticos:

  • A precisão é amplamente determinada por testes de hipóteses estatísticas. Por exemplo, o colesterol médio para dados originais e sintéticos deve ser semelhante o suficiente para que o valor de p seja > 0,05
  • Devem ser usados ​​testes t ou testes de soma sinalizada de classificação de Wilcoxon para dados contínuos e testes qui-quadrado para dados categóricos e não devem mostrar nenhuma diferença estatística (valor p é > 0,05)
  • As correlações de Pearson e Spearman devem ser muito semelhantes
  • As relações do gráfico de dispersão entre variáveis ​​contínuas devem ser muito semelhantes
  • Intervalos de confiança médios ou quantis devem se sobrepor
  • A informação mútua entre variáveis ​​independentes e dependentes deve ser semelhante
  • As distribuições devem ser semelhantes. Os testes de Kolmogorov-Smirnov devem ser usados ​​para comparar as distribuições [12-14].
  • A plataforma oferece mais de um algoritmo para gerar dados sintéticos (LSTM e GAN)
  • A interface do usuário é intuitiva
  • A plataforma inclui uma interface de linha de comando, um pacote Python gretel e uma API REST
  • Gretel é capaz de sintetizar dados de séries temporais, dados não estruturados, dados relacionais e imagens. As configurações de privacidade são personalizáveis
  • A versão gratuita permite 15 créditos por mês

Gretel produziu um relatório de dados sintéticos que forneceu uma pontuação geral de qualidade e nível de proteção de privacidade. Das 14 variáveis ​​sintetizadas, o escore de qualidade em 13 foi classificado como excelente e uma variável foi classificada como boa.

Foi gerado um mapa de calor que comparou dados reais com dados sintéticos, como pode ser visto na figura 3.

Figura 3. Heatmaps de dados reais e sintéticos

Há também um gráfico comparando os componentes principais reais e sintéticos (não mostrado) e uma exibição individual de quão bem as variáveis ​​combinam, conforme visto na figura 4.

Figura 4. Dados reais (roxos) comparados aos sintéticos (verdes)

A Tabela 1 mostra uma comparação dos dados originais com os dados sintéticos de Gretel usando a plataforma de ciência de dados Orange. [19] Os dados foram transferidos do Orange para o Excel para criar uma tabela de comparação. A diferença entre os conjuntos de dados originais e sintéticos não foi estatisticamente significativa (p > 0,05) para essas variáveis ​​numéricas, conforme determinado pelo Wilcoxon Rank Signed Sum Test. [20]

Tabela 1 Comparação de valores numéricos nos conjuntos de dados reais e sintéticos

Além do exercício acima, geramos 5.000 pacientes sintéticos de previsão de doenças cardíacas a partir do conjunto de dados real original de 303 pacientes e obtivemos excelentes pontuações de semelhança, utilidade e privacidade.

Utilidade: Utilidade significa que o modelo criado com dados sintéticos mostra resultados semelhantes a um criado com dados reais. A Figura 5 exibe o desempenho do modelo de classificação usando regressão logística em dados reais de previsão de doenças cardíacas versus dados sintéticos usando Orange. Os resultados do Orange foram transferidos para o Excel para que um gráfico de barras pudesse ser criado comparando os resultados de dados reais com os sintéticos. Os resultados são semelhantes, portanto, há boa utilidade. Além disso, os dados sintéticos e os dados reais foram avaliados nos dados do teste de validação de 90 pacientes derivados da divisão inicial 70/30 dos 303 pacientes originais. Os resultados nos dados de teste reais e nos dados sintéticos foram altamente semelhantes. Isso é conhecido como TSTR (treinar em sintético, testar em dados reais). [9]

Figura 5 Desempenho do modelo de classificação em conjuntos de dados de previsão de doenças cardíacas reais versus sintéticos

Figura 5. Desempenho do modelo de classificação comparando dados reais com dados sinéticos

Privacidade : a privacidade refere-se principalmente aos dados sintéticos, não incluindo cópias exatas de dados reais. Todos os identificadores HIPAA devem ser removidos dos dados reais antes de gerar dados sintéticos. Um pequeno conjunto de dados está em maior risco de privacidade do que um conjunto de dados maior. Um relatório de privacidade é gerado por todas as plataformas de geração de dados sintéticos. No Gretel, um nível de proteção de privacidade é informado e várias opções estão disponíveis para manter a privacidade:

  • Filtro de outlier para garantir que nenhum registro sintético seja um outlier, tornando-o mais identificável
  • Filtro de similaridade para garantir que nenhum registro sintético seja muito semelhante a um registro de treinamento
  • Opção de overfitting para garantir que o treinamento do modelo pare antes que ocorra o overfitting

A seguir está uma lista de empresas que geram dados tabulares sintéticos usando IA. Embora a maioria desses programas gere um relatório de qualidade refletindo a qualidade dos dados sintéticos, outros aspectos variam muito. Vários oferecem uma avaliação gratuita e vários têm limites mensais gratuitos. A lista a seguir não é exaustiva e não deve ser interpretada como uma lista recomendada:

  • MDClone
  • YData
  • Gretel
  • Nebuloso
  • Principalmente.ai
  • Statice
  • GenRocket
  • ClearBox.ai
  • Synthesized.io
  • NVIDIA LaunchPad
  • Nbsynthetic.data (GAN de código aberto)

O potencial para aplicativos de dados sintéticos é enorme em vários domínios, principalmente na área da saúde. Deve impactar a educação médica, a ciência de dados biomédicos, a pesquisa e os ensaios clínicos. Como a maioria das áreas relacionadas à IA, ela só pode melhorar no futuro. Ao contrário de muitas novas tecnologias, é provável que esta realmente economize dinheiro diminuindo os custos de rotulagem e expandindo os dados de ensaios clínicos que são caros.

Dados sintéticos parecem ter muito boa semelhança, utilidade e privacidade com dados reais, mas são necessários mais estudos para definir melhor as melhores práticas e melhores métodos. Da mesma forma, existem aproximadamente trinta redes adversárias generativas disponíveis sem vencedores claros, portanto, essa também é uma área de pesquisa futura.

Referências

  1. Conjuntos de treinamento e teste: Dividindo dados [Internet]. Desenvolvedores do Google. [citado em 5 de fevereiro de 2023]. Disponível a partir de:https://developers.google.com/machine-learning/crash-course/training-and-test-sets/splitting-data
  2. Gartner. Tecnologia emergente: principais casos de uso para dados sintéticos tabulares. Set 2022, [Internet]. Disponível a partir de:https://k2view.com
  3. Azizi Z, Zheng C, Mosquera L, Pilote L, El Emam K. Os dados sintéticos podem ser um proxy para dados reais de ensaios clínicos? Um estudo de validação [Internet]. Vol. 11, BMJ aberto. 2021. pág. e043497. Disponível a partir de:http://dx.doi.org/10.1136/bmjopen-2020-043497
  4. Wijaya CY. Os 3 principais pacotes python para gerar dados sintéticos [Internet]. Rumo à Ciência de Dados. 2022 [citado em 4 de fevereiro de 2023]. Disponível a partir de:https://towardsdatascience.com/top-3-python-packages-to-generate-synthetic-data-33a351a5de0c
  5. Macherla S. Gerar dados sintéticos usando R [Internet]. R-blogueiros. 2020 [citado em 4 de fevereiro de 2023]. Disponível a partir de:https://www.r-bloggers.com/2020/01/generate-synthetic-data-using-r/
  6. Synthea [Internet]. disponível a partir dehttps://synthea.mitre.org/
  7. GitHub. Synthea.[Internet]. Disponível a partir de:https://github.com/synthetichealth/synthea/wiki/Basic-Setup-and-Running
  8. Hoyt R. Synthea: Dados do tipo faça você mesmo [Internet]. Médio. 2020 [citado em 15 de janeiro de 2023]. Disponível a partir de:https:///@rehoyt/synthea-do-it-yourself-data-6ebe4d850db6
  9. Hernandez M, Epelde G, Alberdi A, Cilla R, Rankin D. Métricas e métodos padronizados para avaliação de dados tabulares sintéticos [Internet]. Disponível a partir de:http://dx.doi.org/10.36227/techrxiv.16610896.v1
  10. Dados privadoshttps://datavant.com/resources/blog/synthetic-data-healthcare
  11. Escritório de Direitos Civis (OCR). Orientação sobre métodos para identificação DE de informações de saúde protegidas de acordo com a Regra de Privacidade da Lei de Portabilidade e Responsabilidade de Seguro Saúde (HIPAA) [Internet]. HHS.gov. Departamento de Saúde e Serviços Humanos dos EUA; 2012 [citado em 4 de fevereiro de 2023]. Disponível a partir de:https://www.hhs.gov/hipaa/for-professionals/privacy/special-topics/de-identification/index.html
  12. Foraker RE, Yu SC, Gupta A, Michelson AP, Pineda Soto JA, Colvin R, et al. Descubra a diferença: comparando resultados de análises de dados reais de pacientes e derivados sintéticos [Internet]. Vol. 3, JAMIA Aberto. 2021. pág. 557–66. Disponível a partir de:http://dx.doi.org/10.1093/jamiaopen/ooaa060
  13. Benaim AR, Almog R, Gorelik Y, Hochberg I, Nassar L, Mashiach T, et al. Analisando resultados de pesquisas médicas com base em dados sintéticos e sua relação com resultados de dados reais: comparação sistemática de cinco estudos observacionais [Internet]. Vol. 8, JMIR Informática Médica. 2020. pág. e16492. Disponível a partir de:http://dx.doi.org/10.2196/16492
  14. Haddad F. Blog de aprendizado de máquina da AWS. Dezembro de 2022. Como avaliar a qualidade dos dados sintéticos — medindo sob a perspectiva de fidelidade, utilidade e privacidade. Disponível a partir de:https://aws.amazon.com/blogs/machine-learning/how-to-evaluate-the-quality-of-the-synthetic-data-measuring-from-the-perspective-of-fidelity-utility-and-privacy/
  15. Gretel. [Internet]. Disponível a partir de:https://gretel.ai
  16. Repositório de aprendizado de máquina UCI: Conjunto de dados de doenças cardíacas [Internet]. [citado em 4 de fevereiro de 2023]. Disponível a partir de:https://archive.ics.uci.edu/ml/datasets/heart+disease
  17. Brownlee J. Uma introdução suave às redes de memória de longo prazo pelos especialistas [Internet]. MachineLearningMastery. com. Maestria em Aprendizado de Máquina; 2017 [citado em 4 de fevereiro de 2023]. Disponível a partir de:https://machinelearningmastery.com/gentle-introduction-long-short-term-memory-networks-experts/
  18. Brownlee J. Uma introdução suave às redes adversárias generativas (GANs). Maestria em Machine Learning [Internet]. 2019;17. Disponível a partir de:https://machinelearningmastery.com/what-are-generative-adversarial-networks-gans/
  19. Laboratório de Bioinformática, Universidade de Ljubljana. Mineração de Dados [Internet]. [citado em 4 de fevereiro de 2023]. Disponível a partir de:https://orangedatamining.com/
  20. Wilcoxon Signed Rank Test. Reino das Estatísticas. Disponível a partir de:https://www.statskingdom.com/175wilcoxon_signed_ranks.html