AI가 생성한 합성 표 데이터

Feb 06 2023

Robert E. Hoyt David Patrishkoff 소개 합성 데이터는 예측 모델을 충분히 교육할 수 있는 실제 데이터가 충분하지 않거나 개인 정보 보호가 문제가 될 때 AI 및 기타 방식으로 생성되는 인공 데이터입니다.

로버트 E. 호이트

데이비드 패트리시코프

소개

합성 데이터는 예측 모델을 충분히 교육할 수 있는 실제 데이터가 충분하지 않거나 개인 정보 보호가 문제가 될 때 AI 및 기타 방식으로 생성되는 인공 데이터입니다. 합성 데이터는 교육 데이터 세트를 확장하기 위한 것일 뿐이며 항상 실제 데이터여야 하는 테스트 데이터를 대체하기 위한 것이 아닙니다. 모델 교육 중에 테스트 데이터가 어떤 식으로든 사용되지 않는 한 다양한 교육 모델 전략을 실험하는 것은 완전히 합법적인 노력입니다. [1] 인공 지능(AI)에 의해 생성된 합성 데이터는 주로 다른 경쟁 방법이 현실적인 데이터를 생성하는 데 덜 성공적이기 때문에 상대적으로 새로운 혁신입니다. 연구 및 시장 예측 기관인 Gartner는 “2030년까지 인공 지능(AI) 모델을 교육하는 데 사용되는 데이터는 합성 표 데이터는 실제 구조 데이터보다 최소 3배 빠르게 증가할 것입니다.” [2] 이 문서에서는 합성 표 데이터 또는 합성 이미지가 아닌 표나 스프레드시트에 맞는 데이터를 구체적으로 다룹니다.

합성 데이터의 장점

의료 및 기타 산업에서 합성 데이터가 매력적인 이유는 여러 가지가 있습니다.

대부분의 분야에서 데이터의 질과 양이 부족함
인공 지능과 정도는 덜하지만 머신 러닝에는 대규모 데이터 세트가 필요합니다.
의료 분야에서 HIPAA 규정은 의료 데이터를 사용하고 공유하는 능력을 심각하게 제한합니다.
합성 데이터는 연구 및 개발 데이터를 훨씬 쉽게 만들고 액세스할 수 있도록 합니다.
환자 개인 정보 보호 문제를 피하면서 저널, 제약 회사 및 규제 기관과 임상 시험 데이터 공유를 용이하게 합니다.
합성 데이터가 임상 시험, 약물 시험 등을 강화할 수 있는 경우 잠재적인 비용 절감이 있습니다. 또한 이미지 데이터에 레이블을 지정하는 비용을 줄일 수 있습니다.
합성 데이터는 연구를 위한 특별 공개 또는 IRB 승인이 필요하지 않습니다.
합성 데이터는 만족스러운 품질과 양의 새로운 교육 데이터 세트를 만드는 데 사용될 수 있습니다.
합성 데이터는 대상 클래스가 불균형한 불균형 데이터 세트를 증가시킬 수 있습니다.
합성 데이터는 불균형한 예측 기능(예: 성별, 인종 등)을 증가시킬 수 있습니다. 이렇게 하면 모델 편향이 줄어들고 예측이 향상될 수 있습니다.
합성 데이터는 "혁신적인 샌드박스"에 사용될 수 있습니다[3]

합성 데이터를 생성하는 데 사용되는 실제 데이터는 특정 요구 사항을 충족해야 합니다. 한 합성 데이터 공급업체는 최소 500행의 실제 데이터가 없으면 합성 데이터를 생성하지 않습니다.
실제 데이터 세트가 클수록 합성 데이터가 더 정확할 가능성이 높습니다.
합성 데이터가 데이터 전처리에서 편향을 악화시킬 수 있고 균형을 신중하게 수행하지 않을 수 있다고 생각할 수 있습니다.
합성 데이터는 새롭고 아직 널리 받아들여지지 않았습니다. 지역 IRB는 합성 데이터에 대한 경험이 없을 수 있습니다.

익명화, 의사 익명화 및 통계적 방법에 초점을 맞춘 합성 데이터를 생성하는 초기 접근 방식. 또한 합성 데이터를 생성하는 세 가지 Python 패키지인 "faker", "synthetic data vault(SDV)" 및 "gretel"이 있습니다. [4]. R 패키지 "conjurer"도 합성 데이터를 생성할 수 있습니다. [5]

Synthea는 아마도 AI를 기반으로 하지 않는 가장 잘 알려진 합성 데이터 생성기일 것입니다. 2017년에 Mitre Corporation은 매사추세츠 주민의 의료 데이터를 에뮬레이션하는 SyntheticMass 프로젝트를 개발했습니다. 합성된 데이터는 가상이지만 매사추세츠 거주자의 의료 및 인구통계학적 특성을 기반으로 하고 임상 진료 지침 및 전문가 의견을 반영하기 때문에 현실적입니다. 다양한 형식(CSV, FHIR 및 C-CDA)으로 웹 사이트에서 다운로드할 준비가 된 여러 합성 세로 데이터 세트가 있습니다. Synthea ™는 쿼리당 16개의 합성 CSV 파일을 출력하는 다운로드 가능한 합성 환자 생성기입니다. [6–7] Synthea에 대한 자세한 내용은 저자(RH)의 Medium.com 기사를 참조하십시오. [8]

초기 접근 방식은 대부분 AI로 대체되었습니다. 합성 데이터를 생성할 수 있는 다양한 인공 신경망 유형이 있습니다. 가장 일반적인 AI 방법론은 30개 이상의 변형이 있는 GAN(Generative Adversarial Networks)입니다. 다른 방법에는 자동 인코더, LSTM(장단기 기억) 네트워크 및 앙상블이 포함됩니다. 그림 1은 Hernandez 등이 제안한 합성 테이블 형식 데이터 생성(STDG)의 조직 스키마를 보여줍니다. [9]

그림 1. Hernandez 등이 제안한 STDG 스키마 [9]

합성 데이터 및 HIPAA

합성 데이터는 HIPAA 개인 정보 보호 규칙에 따라 면제되는 것으로 간주됩니까? HIPAA에는 PHI(보호된 건강 정보)를 비식별화된 것으로 간주하기 위한 두 가지 경로가 있습니다. 세이프 하버 경로에는 18개의 식별자 제거가 포함됩니다. 전문가 결정 경로에는 데이터를 더 이상 식별할 수 없도록 통계 원칙을 적용하는 것이 포함됩니다. 이러한 이유로 합성 데이터는 HIPAA 면제 대상으로 간주됩니다. (그림 2) [10–11]

그림 2. HIPAA 개인 정보 보호 규칙 비식별화 방법

합성 데이터를 평가하는 방법

가장 시급한 질문은 합성 데이터가 원본(실제) 데이터를 얼마나 가깝게 시뮬레이션합니까? 여러 저자는 유사성, 유용성, 프라이버시라는 세 가지 기준으로 합성 데이터를 판단할 것을 권장합니다.

유사성: 합성 데이터가 실제 데이터를 얼마나 가깝게 모방하는지 평가하기 위한 유사성에 대한 다양한 통계 테스트가 있습니다. 다음은 실제 데이터와 합성 데이터를 비교하기 위한 메트릭의 일부 목록입니다.

정확도는 주로 통계적 가설 테스트에 의해 결정됩니다. 예를 들어 원본 데이터와 합성 데이터의 평균 콜레스테롤은 p 값이 > .05가 될 정도로 유사해야 합니다.
연속 데이터에 대한 T-테스트 또는 Wilcoxon Rank Signed Sum 테스트와 범주 데이터에 대한 카이제곱 테스트를 사용해야 하며 통계적 차이가 없어야 합니다(p 값 > .05).
Pearson과 Spearman 상관관계는 매우 유사해야 합니다.
연속 변수 간의 산점도 관계는 매우 유사해야 합니다.
평균 신뢰 구간 또는 분위수는 중첩되어야 합니다.
독립 변수와 종속 변수 간의 상호 정보가 유사해야 함
분포는 비슷해야 합니다. Kolmogorov-Smirnov 테스트는 분포를 비교하는 데 사용되어야 합니다[12-14].

플랫폼은 합성 데이터(LSTM 및 GAN)를 생성하는 하나 이상의 알고리즘을 제공합니다.
사용자 인터페이스는 직관적입니다
플랫폼에는 명령줄 인터페이스, Python 그레텔 패키지 및 REST API가 포함됩니다.
Gretel은 시계열 데이터, 비정형 데이터, 관계형 데이터 및 이미지를 합성할 수 있습니다. 개인 정보 설정은 사용자 지정할 수 있습니다.
무료 버전은 한 달에 15크레딧을 허용합니다.

Gretel은 전반적인 품질 점수와 개인 정보 보호 수준을 제공하는 합성 데이터 보고서를 생성했습니다. 합성된 14개의 변수 중 13개의 품질 점수가 우수로 평가되었으며 1개의 변수가 양호로 평가되었습니다.

그림 3과 같이 실제 데이터와 합성 데이터를 비교하는 히트맵이 생성되었습니다.

그림 3. 실제 및 합성 데이터의 히트맵

실제 및 합성 주성분(표시되지 않음)을 비교하는 플롯과 그림 4에서 볼 수 있는 것처럼 변수가 얼마나 잘 일치하는지에 대한 개별 표시도 있습니다.

그림 4. 실제(보라색) 데이터와 합성(녹색) 데이터 비교

표 1은 데이터 과학 플랫폼 Orange를 사용하여 원래 데이터와 Gretel 합성 데이터를 비교한 것입니다. [19] 데이터를 오렌지에서 엑셀로 옮겨 비교표를 만들었다. 원래 데이터 세트와 합성 데이터 세트 간의 차이는 Wilcoxon Rank Signed Sum Test에 의해 결정된 이러한 수치 변수에 대해 통계적으로 유의하지 않았습니다(p >0.05). [20]

표 1 실제 및 합성 데이터 세트의 수치 비교

위의 연습 외에도 303명의 환자의 원래 실제 데이터 세트에서 5000명의 합성 심장 질환 예측 환자를 생성하고 뛰어난 유사성, 유용성 및 개인 정보 보호 점수를 달성했습니다.

효용성: 효용성은 합성 데이터로 만든 모델이 실제 데이터로 만든 것과 비슷한 결과를 보인다는 것을 의미합니다. 그림 5는 실제 심장 질환 예측 데이터와 Orange를 사용한 합성 데이터에 대한 로지스틱 회귀를 사용한 분류 모델 성능을 보여줍니다. Orange 결과는 Excel로 전송되어 실제 데이터 결과와 합성 데이터 결과를 비교하는 막대 차트를 만들 수 있습니다. 결과는 비슷하므로 유용성이 좋습니다. 또한 합성 데이터와 실제 데이터는 모두 원래 303명의 환자를 70/30으로 분할하여 파생된 90명의 환자의 홀드아웃 테스트 데이터에서 평가되었습니다. 실제 테스트 데이터와 합성 데이터에 대한 결과는 매우 유사했습니다. 이를 TSTR(합성 훈련, 실제 데이터 테스트)이라고 합니다. [9]

그림 5 실제 및 합성 심장 질환 예측 데이터 세트에 대한 분류 모델 성능

그림 5. 실제 데이터와 합성 데이터를 비교하는 분류 모델 성능

프라이버시 : 프라이버시는 주로 실제 데이터의 정확한 사본을 포함하지 않는 합성 데이터를 의미합니다. 모든 HIPAA 식별자는 합성 데이터를 생성하기 전에 실제 데이터에서 제거해야 합니다. 작은 데이터 세트는 큰 데이터 세트보다 개인 정보 위험이 더 큽니다. 개인 정보 보고서는 모든 합성 데이터 생성 플랫폼에서 생성됩니다. Gretel에서는 개인 정보 보호 수준이 보고되며 개인 정보를 유지하기 위해 몇 가지 옵션을 사용할 수 있습니다.

합성 레코드가 이상치인지 확인하기 위한 이상치 필터로 더 식별 가능
합성 레코드가 교육 레코드와 너무 유사하지 않도록 하는 유사성 필터
과적합이 발생하기 전에 모델 훈련이 중지되도록 하는 과적합 옵션

다음은 AI를 사용하여 합성 표 데이터를 생성하는 회사 목록입니다. 이러한 프로그램의 대부분은 합성 데이터 품질을 반영하는 품질 보고서를 생성하지만 다른 측면은 크게 다릅니다. 일부는 무료 평가판을 제공하고 일부는 무료 월간 제한이 있습니다. 다음 목록은 완전하지 않으며 권장 목록으로 해석되어서는 안 됩니다.

엠디클론
Y데이터
그레텔
흐릿한
대부분.ai
스태티스
젠로켓
ClearBox.ai
Synthesized.io
엔비디아 런치패드
Nbsynthetic.data(오픈 소스 GAN)

합성 데이터 애플리케이션의 잠재력은 여러 도메인, 특히 의료 분야에서 엄청납니다. 그것은 의학 교육, 생의학 데이터 과학, 연구 및 임상 시험에 영향을 미쳐야 합니다. AI와 관련된 대부분의 영역과 마찬가지로 앞으로 더 좋아질 수 밖에 없습니다. 많은 신기술과 달리 이 기술은 비용이 많이 드는 라벨링 비용을 줄이고 임상 시험 데이터를 확장하여 실제로 비용을 절약할 수 있습니다.

합성 데이터는 실제 데이터와 매우 유사한 유사성, 유용성 및 프라이버시를 가지고 있는 것으로 보이지만 모범 사례와 최선의 방법을 더 잘 정의하려면 더 많은 연구가 필요합니다. 마찬가지로, 확실한 승자가 없는 약 30개의 생성적 적대적 네트워크가 있으므로 이 또한 향후 연구 영역입니다.