블랙 스완을 조심하세요

Nov 29 2022
확률과 무작위성에 관한 Nassim Nicholas Taleb의 책이 데이터 전문가에게 가르칠 수 있는 것 Nassim Taleb은 전직 금융 파생상품 거래자이자 확률 연구자입니다. 시장. 당연히 양적 금융과 데이터 과학 모두 통계 모델과 확률 이론을 포함하기 때문에 데이터 전문가에게 많은 교훈을 줍니다.

확률과 무작위성에 관한 Nassim Nicholas Taleb의 책이 데이터 전문가에게 가르쳐 줄 수 있는 것

Pexel의 이미지

Nassim Taleb은 전직 금융 파생 상품 거래자이자 확률 연구원으로, 그의 저서 'The Black Swan: The Impact of the Highly Improbable'은 있을 법하지 않은 사건이 일상 생활과 금융 시장에 미치는 영향을 강조합니다. 당연히 양적 금융과 데이터 과학 모두 통계 모델과 확률 이론을 포함하기 때문에 데이터 전문가에게 많은 교훈을 줍니다.

블랙스완이란?

Black Swan은 매우 희박하지만 매우 영향력 있는 사건에 대한 은유입니다. Nassim에 따르면 우리 모델은 우리가 모델을 개발하는 데 사용하는 마법에도 불구하고 그러한 이벤트에 대해 제대로 준비하지 않는 것 같습니다. Covid — 19 발발은 아마도 아무도 예상하지 못한 사건이 일상 생활에 파괴적인 영향을 미쳤던 가장 최근의 예일 것입니다. 금융시장의 경우 2008년 금융위기는 리먼브러더스 파산과 글로벌 경기침체로 이어진 블랙스완이었다.

검은 백조가 반드시 파괴적일 필요는 없습니다. 노르웨이 북해에서 석유가 발견된 것은 검은 백조로 생각할 수 있습니다. 이야기가 진행됨에 따라 노르웨이가 북해에 대한 권리를 주장했을 때 아무도 거대한 석유 매장량이 있다고 믿지 않았습니다. 또 다른 '긍정적인' 검은 백조는 레이저의 발명일 수 있습니다. 개발 당시에는 실제 목적이 없었지만 시간이 지남에 따라 시력 치료와 같은 응용 프로그램이 발견되었습니다. 이 두 경우 모두 우연한 결과는 예측하지 못했지만(거의 있을 법하지 않음) 매우 영향력이 컸습니다.

불투명도의 삼중 항

Nassim은 역사적 사건을 평가할 때 인간이 저지르는 세 가지 오류를 다음과 같이 설명합니다.

  1. 이해의 환상: 우리는 무엇이 원인인지 알고 있다고 생각하지만 우리의 모든 설명은 허구일 수 있습니다. 실제로는 예측할 수 없는 사건을 예측하고 설명할 수 있다는 환상을 줍니다.
  2. 회고적 왜곡 : 사후에 설명과 해결책, 주의사항을 제시합니다. 부정적인 블랙 스완이 완화될 수 있었다는 환상을 줍니다.
  3. 사실적 정보의 과대평가: 우리는 '사실적'으로 보이는 것이 왜곡되거나 불완전할 수 있음을 깨닫지 못합니다.

어떤 것들은 예측할 수 없거나 설명할 수 없습니다. 설명할 수 있는 경우 설명은 일반적으로 문제 이전이 아니라 문제 이후에 나오며, 이는 데이터에 캡처되지 않은 예측할 수 없는 이벤트이므로 모델이 맹목적임을 경고합니다. 마지막 요점은 모델에서 도출된 추론과 관련이 있으며, 데이터 세트에서 관계의 사실적 표현이라고 믿는 것은 '불완전한' 샘플에서 추출한 편향된 추정치일 수 있습니다.

내러티브 오류

인간으로서 우리는 임의의 사건을 관찰할 때 이야기와 내러티브를 구성하는 경향이 있습니다. 우리의 마음은 적절한 증거 없이 추론하기 쉽습니다.

고층 아파트 부동산 중개인을 위해 일하는 데이터 분석가인 다음 시나리오를 고려하십시오. 귀하는 새로운 개발 프로젝트에서 주차 공간을 얼마나 할당해야 하느냐는 다음 질문을 확인하도록 지정되었습니다.

다음은 임대료와 주차 공간 간의 관계를 나타내는 그래프입니다.

저자의 이미지.

데이터 전문가로서 위의 차트를 보고 어떤 결론을 내립니까? 전체 프로젝트에 대해 1000m²가 있는 경우 주차 공간을 얼마로 할당해야 합니까? 주차는 임차인에게 큰 편의를 제공하므로 큰 공간을 할당하면 부동산 중개인이 더 많은 임대료를 청구할 수 있다는 이야기를 쉽게 구성할 수 있습니다! 합리적으로 보입니까?

앞서 언급한 추론 방식이 꼭 틀린 것은 아니지만 내러티브 오류 에 빠지는 문제가 있다. 사실 지금까지 제공된 데이터만 보고 인과 관계를 확인할 수는 없습니다. 우리가 관찰한 것을 설명하기 위해 구성할 수 있는 수백 가지의 다른 설명이 있습니다 . 예를 들어, 부동산업자가 크고 작은 건설 프로젝트에 관여하고 있으며 대규모 건설 프로젝트는 더 높은 임대료를 내고 더 많은 주차 공간을 가지고 있다고 주장할 수 있습니다. 따라서 주차 공간이 임대료에 미치는 영향은 없습니다.

데이터를 해석하는 진정한 방법은 무엇입니까? 컨트롤을 추가하고 더 많은 증거를 수집해야 합니다.

더 많은 주차 공간에서 샘플을 수집하면 다른 관계를 관찰할 수 있습니다. 저자별 이미지

당신이 무슨 생각을 하고 있는지 알아요, 이건 말도 안 돼요! 물론 모든 것이 완벽하지 않을 것이라고 해서 우리가 대답하지 말아야 한다는 의미는 아닙니다.

아니요, 그게 요점이 아닙니다. 요점은 회의적이라는 것입니다! 인간으로서 우리는 우리가 관찰한 것을 설명하기 위해 이야기를 구성합니다. 데이터 전문가로서 우리는 (구체적인 증거 없이) 내러티브를 구성하려는 충동에 저항해야 합니다. 우리는 우리가 관찰한 것 이상으로 추론하려고 시도해서는 안 되며 그렇게 할 경우의 위험에 주의해야 합니다. 우리는 항상 우리의 내러티브를 위조하기 위해 경계해야 합니다. 스토리텔링은 판매에 도움이 될 수 있지만 자기기만을 영속화하기도 합니다!

이 이야기를 즐기십니까? 코딩 도움이 필요하십니까? 후원자가 되는 것을 고려해 주세요! ( 우리 나라에서는 미디엄 파트너 프로그램을 사용할 수 없습니다. Patreon은 내 글에서 수익을 창출할 수 있는 유일한 방법입니다. )

루딕 오류

Nassim은 이 오류의 이름을 유래했습니다. 그는 학계 전문가들이 현실에 맞지 않는 모델을 구축했지만 우리는 그것을 계속 사용하고 있다고 지적합니다. 그는 특히 현대 포트폴리오 이론과 가우시안 분포의 부적절한 사용으로 인해 현대 재무 분석가가 블랙 스완 사건의 위험을 과소평가하게 된 방법을 지적합니다.

가우시안 분포(파란색)와 비교할 때 두꺼운 꼬리 분포(빨간색)의 예. 뚱뚱한 꼬리 분포는 극단적인 불리한 결과의 더 높은 가능성을 추정합니다. 작성자의 이미지.

있을 법하지 않은 사건은 우리가 생각하는 것보다 더 가능성이 높습니다!

Nassim은 주식 시장의 수익 분포가 가우시안이 아니라 가우시안 모델이 믿게 만드는 것보다 극단적인 사건을 더 가능성 있게 만드는 뚱뚱한 꼬리 분포를 따른다고 설명합니다. 그 결과 옵션 트레이더는 포트폴리오를 과도하게 레버리지하거나 하방 위험에 과도하게 노출하게 됩니다.

데이터 전문가로서 우리 모두는 삶을 더 쉽게 만들어주는 일련의 방법과 분포에 익숙해져 있습니다. 대부분의 선형 모델은 정규 분포(가우시안) 오류를 따르지만 자연 또는 우리가 모델링하기로 선택한 모든 것이 가우시안이어야 할 의무는 없습니다. 우스꽝스러운 오류는 단순한 분포를 넘어 확장되며, 우리가 사용하는 모든 수학적 구조는 우리를 오류에 빠뜨릴 수 있습니다.

관심을 가져야 할 것은 우리가 이러한 단순화에 얼마나 의존할 수 있느냐 하는 것입니다. 데이터 도구와 기술의 확산으로 인해 잘못된 답변을 진실로 받아들일 가능성이 높아졌습니다! 잘 알려진 방법이 무언가를 추정하거나 예측한다고 해서 그것이 사실이 되는 것은 아닙니다. 그것은 모델의 데이터와 가정이 허용하는 만큼만 참입니다.

예측은 사실이 아닙니다!

저자의 이미지

이것은 지적할 때 명백하지만 우리는 지금 그 어느 때보다 더 심각하게 예측을 받아들입니다. 대부분의 경우 그것들은 무해하며, 귀하의 사업에 대한 잘못된 판매 예측을 하는 것은 대부분의 경우 재앙이 되지 않을 것입니다. 그러나 주택 시장을 혼란에 빠뜨리려는 Opendoor와 같은 전통적인 산업을 방해하려는 AI 비즈니스가 증가했습니다. 그들의 전체 비즈니스 모델은 주택 가격을 예측하고 고객에게 주택 가치에 대한 정확한 예측을 제공하는 알고리즘의 능력에 의존합니다.

어떤 것들은 예측하기가 매우 쉽지만 경제학과 같은 사회과학에 관한 대부분의 것들은 그렇지 않습니다. 특히 인간의 행동이 관련된 경우. 경제학자들은 잘못된 것으로 악명이 높지만 우리는 계속해서 그들의 예측에 의존하고 있습니다.

점점 더 많은 기업이 돈을 벌기 위해 예측과 예측에 의존하고 있습니다. Nassim은 세상이 혼란스럽기 때문에 입력값의 작은 변화가 출력값에 큰 변화를 일으킬 수 있다고 강조합니다. 정의상 혼돈을 사용하는 마법이 무엇이든 예측할 수 없습니다. 예측과 예측은 시간이 지남에 따라 더 많이 확장할수록 힘을 잃습니다.

중요한 점은 예측에 더 많이 의존할수록 시스템 오류의 가능성이 높아진다는 것입니다. 한 모델이 잘못된 예측을 내놓으면 다른 시스템이 오작동할 수 있기 때문입니다. 모델에 더 많이 의존할수록 시스템에 더 많은 위험이 도입됩니다.

읽어 주셔서 감사합니다! 내가 쓰는 글이 마음에 든다면 팔로우하고 내가 게시할 때마다 이메일을 받도록 구독하세요!

다음은 귀하가 좋아할 만한 내 게시물 중 일부입니다.