Méfiez-vous du cygne noir
Ce que le livre de Nassim Nicholas Taleb sur les probabilités et le hasard peut enseigner aux professionnels des données

Nassim Taleb est un ancien trader de dérivés financiers et chercheur en probabilités. Son livre "The Black Swan: The Impact of the Highly Improbable" souligne l'impact d'événements hautement improbables sur notre vie quotidienne et nos marchés financiers. Sans surprise, il contient de nombreuses leçons pour les professionnels des données puisque la finance quantitative et la science des données impliquent toutes deux des modèles statistiques et la théorie des probabilités.
Qu'est-ce qu'un cygne noir ?
Black Swan est une métaphore d'un événement hautement improbable mais très percutant. Selon Nassim, nos modèles ne semblent jamais se préparer correctement à de tels événements, malgré la magie que nous employons pour les développer. L'épidémie de Covid-19 est peut-être l'exemple le plus récent d'un événement imprévu que personne n'a vu venir mais qui a eu un impact dévastateur sur la vie quotidienne. Pour les marchés financiers, la crise financière de 2008 a été un cygne noir qui a conduit à la faillite de Lehman Brothers et à une récession mondiale.
Les cygnes noirs ne doivent pas nécessairement être destructeurs. La découverte de pétrole dans la mer du nord de la Norvège pourrait être considérée comme un cygne noir. Selon l'histoire, personne ne croyait qu'il y avait d'énormes réserves de pétrole lorsque la Norvège a revendiqué ses droits sur la mer du Nord. Un autre cygne noir "positif" pourrait être l'invention des lasers, une fois développés, ils n'avaient aucun but réel, mais au fil du temps, des applications ont été découvertes comme le traitement de la vue. Dans ces deux cas, le résultat fortuit était imprévu (hautement improbable) mais très percutant.
Le triplet d'opacité
Nassim énonce trois erreurs que les humains commettent lors de l'évaluation d'événements historiques :
- L'illusion de comprendre : Nous pensons savoir ce qui a causé quoi mais toutes nos explications pourraient être fictives. Donner l'illusion que nous pouvons prédire et expliquer des événements alors qu'en réalité ils pourraient être imprévisibles.
- La distorsion rétrospective : Nous proposons des explications, des solutions et des précautions après coup. Donnant l'illusion que le Black Swan négatif aurait pu être atténué.
- La surévaluation des informations factuelles : Nous ne réalisons pas que ce qui apparaît « factuel » pourrait être déformé ou incomplet.
Certaines choses ne sont ni prévisibles ni explicables. S'ils sont explicables, l'explication vient généralement après le problème et non avant, nous avertissant qu'il s'agit d'événements imprévus qui ne sont pas capturés dans les données et que nos modèles sont donc aveugles. Le dernier point concerne les inférences tirées des modèles, ce que nous pensons être une représentation factuelle des relations dans nos ensembles de données pourrait être des estimations biaisées tirées d'échantillons «incomplets».
L'erreur narrative
En tant qu'êtres humains, nous avons tendance à construire des histoires et des récits lorsque nous observons des événements aléatoires. Nos esprits sont susceptibles de faire des inférences sans preuves appropriées.
Considérez le scénario suivant, vous êtes un analyste de données travaillant pour un agent immobilier d'appartements de grande hauteur. Vous êtes chargé de vérifier la question suivante, combien d'espace doivent-ils allouer au stationnement dans leur nouveau projet de développement ?
Voici un graphique illustrant la relation entre les loyers et l'espace de stationnement :

En tant que professionnel des données, vous voyez le tableau ci-dessus, quelle conclusion en tirez-vous ? S'ils disposent de 1000 m² pour l'ensemble du projet, combien doivent-ils prévoir pour le stationnement ? Il est facile de construire un récit selon lequel le stationnement est une commodité énorme pour les locataires, par conséquent, l'attribution d'un espace énorme permettrait à l'agent immobilier de facturer plus de loyer ! Cela semble raisonnable?
Le raisonnement susmentionné n'est pas nécessairement faux mais il a le problème de tomber dans l' erreur narrative . La vérité est qu'en ne visualisant que les données qui nous ont été fournies jusqu'à présent, nous ne pouvons pas déterminer une relation causale. Il existe des centaines d'autres explications que nous pouvons construire pour expliquer ce que nous observons . Par exemple, vous pouvez affirmer que l'agent immobilier est impliqué dans des projets de construction à la fois grands et petits, les grands projets de construction rapportent des loyers plus élevés et ont également plus d'espace pour se garer. Donc pas d'impact de la place de parking sur les loyers.
Quelle est la vraie façon d'interpréter les données ? Cela nécessite d'ajouter des contrôles et peut-être de recueillir plus de preuves.



Je sais ce que vous devez penser, c'est absurde ! Bien sûr, les choses ne seront jamais parfaites, cela ne signifie pas que nous ne devrions pas répondre, n'est-ce pas ?
Non ce n'est pas le principal. L'essentiel est d'être sceptique ! En tant qu'humains, nous construisons des histoires pour expliquer ce que nous observons ; en tant que professionnels des données, nous devons résister à notre envie de construire des récits (sans preuves concrètes). Nous ne devrions jamais essayer de faire des inférences au-delà de ce que nous observons ou faire attention aux risques si nous le faisons. Nous devrions toujours être à l'affût de falsifier nos récits. Raconter des histoires peut être bon pour la vente, mais cela perpétue également l'auto-illusion !
Vous aimez cette histoire ? Besoin d'aide pour le codage ? Pensez à devenir mécène ! ( Le programme partenaire moyen n'est pas disponible dans mon pays, Patreon est le seul moyen de monétiser mes écrits )
Le sophisme ludique
Nassim est à l'origine du nom de cette erreur. Il souligne que les experts universitaires ont construit des modèles qui ne correspondent pas à la réalité, mais nous persistons à les utiliser. Il souligne en particulier comment la théorie moderne du portefeuille et l'utilisation abusive de la distribution gaussienne ont conduit l'analyste financier moderne à sous-estimer le risque d'événements de cygne noir.

Des événements improbables pourraient être plus probables que nous ne le pensons !
Nassim explique que la distribution des rendements sur le marché boursier n'est pas gaussienne et suit plutôt la distribution à queue grasse qui rend les événements extrêmes plus probables que le modèle gaussien ne le laisse croire. Ce qui, à son tour, amène les traders d'options à surendetter ou à surexposer leur portefeuille au risque de baisse.
En tant que professionnels des données, nous avons tous été habitués à un ensemble de méthodes et de distributions qui nous facilitent la vie. La plupart des modèles linéaires suivent les erreurs pour être normalement distribués (gaussiens), cependant, la nature ou tout ce que nous choisissons de modéliser n'a aucune obligation d'être gaussien. L'erreur ludique s'étend au-delà d'une simple distribution, toute construction mathématique que nous utilisons peut nous soumettre à l'erreur.
La chose dont il faut se soucier est de savoir dans quelle mesure nous pouvons nous permettre de compter sur ces simplifications. La prolifération des outils et des techniques de données nous a rendus plus susceptibles d'accepter les mauvaises réponses comme la vérité ! Ce n'est pas parce qu'une méthode bien connue estime ou prédit quelque chose qu'elle est vraie. Elle n'est vraie que dans la mesure où les données et les hypothèses du modèle le permettent.
Les prévisions ne sont pas des faits !

Celui-ci est évident lorsqu'il est souligné, mais nous prenons les prévisions plus au sérieux que jamais. Dans la plupart des cas ils sont anodins, faire une mauvaise prévision des ventes pour votre entreprise ne sera pas catastrophique dans la plupart des cas. Cependant, il y a eu une augmentation des entreprises d'IA essayant de perturber les industries traditionnelles comme Opendoor essayant de perturber le marché du logement. Tout leur modèle économique repose sur la capacité de leur algorithme à prévoir le prix des maisons et à donner aux clients une prédiction précise de la valeur de leurs maisons.
Certaines choses sont très faciles à prévoir, mais la plupart des choses concernant les sciences sociales telles que l'économie ne le sont pas. Surtout quand il y a un comportement humain impliqué. Les économistes ont notoirement tort, mais nous continuons à nous fier à leurs prédictions.
De plus en plus d'entreprises s'appuient sur des prédictions et des prévisions pour gagner de l'argent. Nassim souligne que le monde est chaotique, donc de petits changements dans nos entrées peuvent entraîner d'énormes changements dans les sorties. Peu importe la sorcellerie utilisée, le chaos par définition ne peut pas être prédit. Les prévisions et les prédictions perdent de leur puissance au fur et à mesure que vous les prolongez dans le temps.
Le point clé à retenir est que plus vous vous fiez aux prédictions, plus le risque de défaillance systémique est élevé, car si un modèle produit de mauvaises prédictions, il peut entraîner un dysfonctionnement d'autres systèmes. Plus nous nous appuyons sur des modèles, plus nous introduisons de risques dans le système.
Merci pour la lecture! Si vous aimez ce que j'écris, suivez-le et abonnez-vous également pour recevoir un e-mail chaque fois que je publie!
Voici quelques-uns de mes articles, qui pourraient vous plaire :