Coi chừng Thiên nga đen
Cuốn sách về xác suất và tính ngẫu nhiên của Nassim Nicholas Taleb có thể dạy gì cho các chuyên gia dữ liệu
Nassim Taleb trước đây là một nhà giao dịch phái sinh tài chính và nhà nghiên cứu xác suất, cuốn sách 'Thiên nga đen: Tác động của những điều rất khó xảy ra' nêu bật mức độ ảnh hưởng của các sự kiện rất khó xảy ra đến cuộc sống hàng ngày và thị trường tài chính của chúng ta. Không ngạc nhiên, nó có rất nhiều bài học cho các chuyên gia dữ liệu vì tài chính định lượng và khoa học dữ liệu đều liên quan đến các mô hình thống kê và lý thuyết xác suất.
Thiên nga đen là gì?
Thiên nga đen là một phép ẩn dụ cho một sự kiện rất khó xảy ra nhưng lại rất có tác động. Theo Nassim, các mô hình của chúng tôi dường như không bao giờ chuẩn bị đúng cách cho những sự kiện như vậy, mặc dù chúng tôi sử dụng ma thuật phù thủy để phát triển chúng. Sự bùng phát của Covid-19 có lẽ là ví dụ gần đây nhất về một sự kiện không lường trước được mà không ai thấy trước có tác động tàn phá đến cuộc sống hàng ngày. Đối với thị trường tài chính, cuộc khủng hoảng tài chính năm 2008 là một thiên nga đen dẫn đến sự phá sản của Lehman Brothers và suy thoái kinh tế toàn cầu.
Thiên nga đen không nhất thiết phải phá hoại. Việc phát hiện ra dầu ở vùng biển phía bắc của Na Uy có thể được ví như một con thiên nga đen. Khi câu chuyện diễn ra, không ai tin rằng có trữ lượng dầu khổng lồ khi Na Uy khẳng định quyền đối với Biển Bắc. Một thiên nga đen 'tích cực' khác có thể là phát minh ra tia laser, khi được phát triển nó không có mục đích thực sự nhưng theo thời gian, các ứng dụng đã được phát hiện như chữa thị lực. Trong cả hai trường hợp này, kết quả tình cờ là không lường trước được (rất khó xảy ra) nhưng lại rất có tác động.
Bộ ba độ mờ
Nassim chỉ ra ba sai lầm mà con người mắc phải khi đánh giá các sự kiện lịch sử:
- Ảo tưởng về sự hiểu biết: Chúng tôi nghĩ rằng chúng tôi biết điều gì đã gây ra điều gì nhưng tất cả những lời giải thích của chúng tôi có thể là hư cấu. Tạo ra ảo tưởng rằng chúng ta có thể dự đoán và giải thích các sự kiện trong khi thực tế chúng không thể đoán trước được.
- Biến dạng hồi cứu : Chúng tôi đưa ra những lời giải thích, giải pháp và biện pháp phòng ngừa sau khi thực tế xảy ra. Tạo ra ảo tưởng rằng Thiên nga đen tiêu cực có thể đã được giảm nhẹ.
- Đánh giá quá cao thông tin thực tế: Chúng tôi không nhận ra những gì có vẻ 'thực tế' có thể là một sự bóp méo hoặc không đầy đủ.
Một số điều không thể dự đoán hoặc giải thích được. Nếu chúng có thể giải thích được thì lời giải thích thường xuất hiện sau vấn đề chứ không phải trước đó, cảnh báo chúng tôi rằng chúng là những sự kiện không lường trước được không được ghi lại trong dữ liệu và do đó các mô hình của chúng tôi bị mù. Điểm cuối cùng liên quan đến các suy luận được rút ra từ các mô hình, những gì chúng tôi tin là sự thể hiện thực tế của các mối quan hệ trong bộ dữ liệu của chúng tôi có thể là các ước tính sai lệch được rút ra từ các mẫu 'không đầy đủ'.
Ngụy biện tường thuật
Là con người, chúng ta có xu hướng xây dựng các câu chuyện và tường thuật khi quan sát các sự kiện ngẫu nhiên. Tâm trí của chúng ta dễ bị suy luận mà không có bằng chứng thích hợp.
Hãy xem xét tình huống sau, bạn là nhà phân tích dữ liệu làm việc cho một công ty môi giới căn hộ cao tầng. Bạn được giao nhiệm vụ xác định câu hỏi sau, họ nên phân bổ bao nhiêu không gian cho bãi đậu xe trong dự án phát triển mới của họ?
Dưới đây là biểu đồ mô tả mối quan hệ giữa giá thuê & chỗ đậu xe:
Là một chuyên gia dữ liệu, bạn nhìn thấy biểu đồ trên, bạn đưa ra kết luận gì? Nếu họ có 1000 m² cho toàn bộ dự án thì họ nên phân bổ bao nhiêu cho bãi đậu xe? Thật dễ dàng để xây dựng một câu chuyện kể rằng bãi đậu xe là một sự thuận tiện rất lớn cho những người thuê nhà, do đó, việc phân bổ không gian rộng lớn sẽ cho phép người môi giới tính thêm tiền thuê! Có vẻ hợp lý?
Dòng lập luận nói trên không nhất thiết là sai nhưng nó có vấn đề rơi vào ngụy biện tường thuật . Sự thật là bằng cách chỉ xem dữ liệu được cung cấp cho chúng tôi cho đến nay, chúng tôi không thể xác định được mối quan hệ nhân quả. Có hàng trăm lời giải thích khác mà chúng ta có thể xây dựng để giải thích những gì chúng ta quan sát được . Ví dụ: bạn có thể lập luận rằng người môi giới tham gia vào cả dự án xây dựng lớn và nhỏ, các dự án xây dựng lớn mang lại giá thuê cao hơn và cũng có nhiều chỗ đậu xe hơn. Do đó, không có tác động của chỗ đậu xe đối với giá thuê.
Đó là cách thực sự để giải thích dữ liệu? Nó yêu cầu thêm các biện pháp kiểm soát và có thể thu thập thêm bằng chứng.
Tôi biết những gì bạn phải nghĩ, điều này là vô lý! Tất nhiên, mọi thứ sẽ không bao giờ trở nên hoàn hảo không có nghĩa là chúng ta không nên trả lời, hay phải không?
Không, đó không phải là điểm chính. Điểm chính là phải hoài nghi! Con người chúng ta xây dựng những câu chuyện để giải thích những gì chúng ta quan sát được; với tư cách là chuyên gia dữ liệu, chúng ta nên chống lại sự thôi thúc xây dựng các câu chuyện (không có bằng chứng cụ thể). Chúng ta không bao giờ nên cố gắng đưa ra những suy luận ngoài những gì chúng ta quan sát được hoặc cẩn thận với những rủi ro nếu chúng ta làm như vậy. Chúng ta nên luôn cảnh giác để làm sai lệch câu chuyện của mình. Kể chuyện có thể tốt cho việc bán hàng nhưng nó cũng kéo dài sự tự huyễn hoặc bản thân!
Thưởng thức câu chuyện này? Cần trợ giúp mã hóa? Hãy xem xét trở thành một người bảo trợ! ( Chương trình đối tác trung bình không khả dụng ở quốc gia của tôi, Patreon là cách duy nhất để kiếm tiền từ bài viết của tôi )
Ngụy biện Ludic
Nassim đặt tên cho ngụy biện này. Ông chỉ ra rằng các chuyên gia hàn lâm đã xây dựng các mô hình không phù hợp với thực tế nhưng chúng ta vẫn kiên trì sử dụng chúng. Ông đặc biệt chỉ ra lý thuyết danh mục đầu tư hiện đại và việc sử dụng phân phối gaussian không phù hợp đã khiến nhà phân tích tài chính hiện đại đánh giá thấp rủi ro của các sự kiện thiên nga đen như thế nào.
Các sự kiện không thể xảy ra có thể xảy ra nhiều hơn chúng ta nghĩ!
Nassim giải thích thêm rằng phân phối lợi nhuận trên thị trường chứng khoán không phải là gaussian mà thay vào đó tuân theo phân phối đuôi mập khiến cho các sự kiện cực đoan có nhiều khả năng xảy ra hơn so với mô hình gaussian khiến chúng ta tin tưởng. Điều này lại khiến các nhà giao dịch quyền chọn sử dụng đòn bẩy quá cao hoặc sử dụng quá mức danh mục đầu tư của họ trước rủi ro giảm giá.
Là chuyên gia dữ liệu, tất cả chúng ta đã quen với một tập hợp các phương pháp và phân phối giúp cuộc sống của chúng ta dễ dàng hơn. Hầu hết các mô hình tuyến tính tuân theo các sai số được phân phối chuẩn (Gaussian), tuy nhiên, bản chất hoặc bất cứ thứ gì chúng ta chọn để lập mô hình không có nghĩa vụ phải là gaussian. Ngụy biện ludic không chỉ là một phân phối, bất kỳ cấu trúc toán học nào chúng ta sử dụng đều có thể khiến chúng ta mắc phải ngụy biện.
Điều cần quan tâm là chúng ta có đủ khả năng chi trả bao nhiêu cho những đơn giản hóa này. Sự phổ biến của các công cụ và kỹ thuật dữ liệu đã khiến chúng ta dễ chấp nhận những câu trả lời sai là sự thật! Chỉ vì một phương pháp nổi tiếng ước tính hoặc dự đoán điều gì đó không làm cho nó trở thành sự thật. Nó chỉ đúng khi dữ liệu và giả định của mô hình cho phép.
Dự báo không phải là sự thật!
Điều này là hiển nhiên khi được chỉ ra nhưng chúng tôi đang xem xét các dự báo một cách nghiêm túc hơn bao giờ hết. Trong hầu hết các trường hợp, chúng vô thưởng vô phạt, việc đưa ra dự báo sai về doanh số bán hàng cho doanh nghiệp của bạn sẽ không phải là thảm họa trong hầu hết các trường hợp. Tuy nhiên, đã có sự gia tăng các doanh nghiệp AI đang cố gắng phá vỡ các ngành công nghiệp truyền thống như Opendoor đang cố gắng phá vỡ thị trường nhà đất. Toàn bộ mô hình kinh doanh của họ dựa vào khả năng dự đoán giá nhà của thuật toán và cung cấp cho khách hàng dự đoán chính xác về giá trị ngôi nhà của họ.
Một số điều rất dễ dự đoán nhưng hầu hết mọi thứ về khoa học xã hội như kinh tế học thì không. Đặc biệt là khi có liên quan đến hành vi của con người. Các nhà kinh tế nổi tiếng là sai, nhưng chúng tôi tiếp tục dựa vào dự đoán của họ.
Ngày càng có nhiều doanh nghiệp dựa vào dự đoán và dự báo để kiếm tiền. Nassim nhấn mạnh rằng thế giới luôn hỗn loạn, do đó những thay đổi nhỏ trong đầu vào của chúng ta có thể gây ra những thay đổi lớn trong đầu ra. Bất kể ma thuật sử dụng sự hỗn loạn theo định nghĩa là không thể dự đoán được. Dự báo và dự đoán sẽ mất sức mạnh khi bạn kéo dài chúng theo thời gian.
Điểm mấu chốt ở đây là, bạn càng dựa vào các dự đoán thì khả năng xảy ra lỗi hệ thống càng cao vì nếu một mô hình đưa ra dự đoán sai thì nó có thể khiến các hệ thống khác gặp trục trặc. Chúng ta càng dựa vào các mô hình thì chúng ta càng đưa vào hệ thống nhiều rủi ro hơn.
Cảm ơn bạn đã đọc! Nếu bạn thích những gì tôi viết, vui lòng theo dõi và đăng ký để nhận email bất cứ khi nào tôi xuất bản!
Dưới đây là một số bài viết của tôi, mà bạn có thể thích:

![Dù sao thì một danh sách được liên kết là gì? [Phần 1]](https://post.nghiatu.com/assets/images/m/max/724/1*Xokk6XOjWyIGCBujkJsCzQ.jpeg)



































