대치가 용납 할 수없는 편견을 유발합니까?

Aug 19 2020

저는 최근에 데이터 세트에서 누락 된 값을 대체 할 현실적인 값을 "추측"하는 대치 기법에 대해 알게되었습니다. 이것에 대한 나의 큰 문제는 우리가 이미 가지고있는 것과 유사하다고 가정하여 데이터를 추측하고 있다는 것입니다. 이는 데이터에있을 수있는 모든 패턴을 강화하여 잠재적으로 중요하지 않은 패턴을 중요한 패턴으로 바꿀 것입니다. 이 관행이 어떻게 받아 들여 질까요? 내가 무엇을 놓치고 있습니까?

저는이 주제에 비교적 익숙하지 않지만 몇 가지 연구를 수행했으며 대치 기법은 모든 NA를 고정 된 "현실적인"값으로 대체하는 것부터 관찰 된 값의 평균값으로 대체하는 것, 누락 된 값을 추측하는 것까지 다양하다는 것을 알고 있습니다. 최근 접 이웃 방법 또는 최대 우도 방법 사용. 이 방법이 어떻게 작동하는지 이해하지만 데이터를 만들고 있다는 생각을 떨쳐 버릴 수는 없습니다 . 대치 기술은 복잡성과 제작 된 데이터가 얼마나 실제에 가깝게 보일 수 있는지에 따라 다르지만 여전히 데이터를 제작하고 있습니다. 나에게이 관행은 단지 실제 표본이 아닌 실제 , 조작되지 않은 표본을 기반으로 인구에 대한 현실적인 추론을 도출하는 도구로서의 전체 통계 요점을 무너 뜨 립니다.의역 이안 말콤 내 질문은, 우리가 그것을 할 수 있는지 여부에 대해 있지만 우리가인지하지 해야한다 .

통계학 자의 오만에 대한 Tukey의 원칙 중 첫 번째는 다음과 같이 말합니다.

일부 데이터와 답변에 대한 열망의 조합은 주어진 데이터 본문에서 합리적인 답변을 추출 할 수 있음을 보장하지 않습니다.

(From "Sunset Salvo", The American Statistician 40 (1), 72-76, 1986 년 2 월)

대치가 그것과 충돌하지 않습니까?

나는 그것이 단지 나의 무지가 말하는 것일 수도 있다는 것을 알고 있습니다. 이것은 어떤 통계학 자라도이 livid를 읽게 만들 수도 있습니다. 그렇다면 저를 깨달으십시오. 관련 문헌에 대한 조언도 감사하겠습니다. 지금까지 저는 Robinson의 "Forest analytics in R"의 관련 장만 읽었습니다. 건배!

답변

1 spdrnl Aug 20 2020 at 01:04

여기에는 명확한 답이 없습니다. 재미있는 점은 검증 절차를 사용하여 대치의 효과를 확인할 수 있다는 것입니다. 데이터가 결정하도록하십시오!

몇 가지 값이 누락 된 경우 특성을 버려야합니까? 아니면 관찰? 이러한 관측치에 다른 기능에 대한 중요한 정보가 있고 알고리즘이 결 측값을 처리 할 수없는 경우 어떻게됩니까? 등등.

관측치 또는 특징을 제거하는 것과 같은 대치는 결 측값을 처리하는 방법 일뿐입니다. 가장 좋은 결정은 (교차) 유효성 검사와 같은 좋은 기계 절차에 의해 뒷받침되어야합니다.