Pouvons-nous prédire les notations ESG à partir de données accessibles au public ?
Les entreprises qui abordent des sujets ESG lors de leurs appels aux résultats obtiennent-elles de meilleures notes ESG ? Nous utilisons différentes techniques de PNL pour donner une réponse.
La menace croissante du changement climatique a poussé les marchés financiers à cibler de plus en plus des investissements plus durables. Les entreprises ne sont plus seulement évaluées par leur profit, mais leur empreinte environnementale et sociale est prise en compte. Cette césure s'accompagne de la question de savoir comment mesurer cette empreinte et ainsi rendre comparables différentes entreprises. Les notations Environnement, Social et Gouvernance (ESG) se sont imposées comme un instrument de mesure de cette empreinte. Les agences de notation ont été fondées pour résoudre ce problème et donner aux investisseurs les meilleures recommandations possibles pour des investissements durables. Lors de mon stage chez ELCA, nous avons pu collecter différentes sources de données non structurées, extraire des informations, et découvrir des liens entre ces données et les notations ESG.
Les agences de notation recueillent et évaluent diverses sources d'information. Le choix des sources d'information et la méthodologie pour construire les notations diffèrent d'une agence à l'autre. Il n'est pas surprenant que les corrélations rapportées entre les différentes agences de notation ESG restent faibles comme indiqué dans les articles (cf. [Berg et al.|2019] et [Gibson et al.|2019] ). Nos données étayent cette idée, comme vous pouvez le voir dans la matrice de corrélation entre trois agences qui mettent leurs données à la disposition du grand public.

Le fait que les méthodologies ne soient que partiellement divulguées par les agences de notation nous a incités à analyser les notations ESG en utilisant des données open source. Comme les scores ESG couvrent un large éventail de sujets, il existe de nombreuses sources textuelles pertinentes telles que des sources d'actualités, des évaluations d'employeurs ou des rapports de développement durable. Pour cette expérience, nous avons décidé d'analyser les appels de gains.
Les appels sur les résultats sont convoqués chaque trimestre par les sociétés cotées et servent de canaux de communication entre les investisseurs et les analystes. De plus en plus, ils discutent de questions liées à l'ESG telles que la manière de faire face à une pandémie, la manière de lutter contre diverses formes de discrimination ou les efforts qu'ils ont entrepris pour réduire leurs émissions de gaz à effet de serre (GES).
Nous allons maintenant répondre brièvement à la question de savoir si nous pouvons établir un lien entre l'appel aux bénéfices d'une entreprise et sa note ESG.
Réponse courte

Nous avons analysé les appels aux bénéfices en extrayant le nombre de mentions ESG différentes au fil du temps pour plus de 3000 entreprises. À cette fin, nous apprenons à un classificateur non supervisé à identifier le texte pertinent pour l'ESG en tirant parti des rapports de durabilité. Nous classons en outre les paragraphes pertinents pour l'ESG en 26 catégories ESG descriptives. Nous créons des fonctionnalités en agrégeant les informations que nous avons recueillies sur les appels de revenus pour chaque entreprise. Ces caractéristiques sont analysées à l'aide de modèles linéaires.
Dans notre analyse préliminaire, nous établissons une relation entre le nombre moyen de mentions ESG d'une entreprise dans les appels de résultats et ses notes ESG. Pour ce faire, nous ajustons un modèle linéaire sur trois variables descriptives : le secteur d'activité de l'entreprise (il y a 42 secteurs au total), les « mentions_totales_moyennes » de l'entreprise et sa « controverse_moyenne ». « mean_total_mentions » compte le nombre de paragraphes dans lesquels les entreprises ont discuté de sujets ESG lors de leurs appels aux résultats. Avec "mean_controversy", nous essayons de saisir les sujets que les entreprises tentent d'éviter mais qui sont abordés lors de la session de questions-réponses d'un appel sur les résultats.
On voit que les coefficients de pente des industries ont un effet positif. Les « producteurs de pétrole et de gaz » ou les « conglomérats industriels » présentent le risque ESG le plus élevé, tandis que les « textiles et vêtements » et les « médias » ont un risque ESG relativement faible.
Est-ce la même chose pour "mean_controversy" ? Plus de controverse conduit-elle à un risque associé plus élevé ? Il s'avère que la pente n'est pas statistiquement significativement différente de 0.
D'autre part, "mean_total_mentions" a une pente négative significative sur la variable de résultat. Les entreprises qui abordent davantage de sujets ESG lors de leur conférence téléphonique sur les résultats obtiennent de meilleurs scores ESG.

Dans ce qui suit, vous pouvez plonger dans l'ensemble de données, explorer le pipeline d'apprentissage automatique pour l'extraction de caractéristiques et examiner les modèles linéaires que nous utilisons pour étudier la relation entre les caractéristiques construites et les évaluations.
Notations ESG
Les notations ESG sont fournies aux investisseurs par plusieurs agences de notation ESG, qui ont développé leur méthodologie pour évaluer la performance ESG de différentes entreprises. Comme son nom l'indique, la performance ESG d'une entreprise est évaluée par l'identification et la pondération d'indicateurs dans les trois domaines suivants : impact environnemental, impact social et qualité de sa gouvernance. Il existe trois sources de divergence dans l'évaluation de la notation ESG :
- Portée : Les trois catégories sont subdivisées en plusieurs sous-catégories jugées pertinentes. Le choix de ces sous-catégories est subjectif et dépend des antécédents culturels et personnels. De plus, les agences de notation déterminent un ensemble de « problèmes matériels » pour différentes industries.
- Divergence de mesure : A l'intérieur de ces sous-catégories, les agences de notation identifient les indicateurs les plus adaptés pour évaluer la performance d'une entreprise. Le choix des indicateurs et les méthodes d'évaluation de ces indicateurs (par exemple le choix de la source de données) peuvent varier d'une agence à l'autre. RepRisk ne tient pas compte des sources de données autodéclarées car ils les jugent peu fiables et biaisées.
- Divergence des pondérations : les différentes mesures doivent être agrégées dans les différentes sous-catégories et finalement agrégées dans une note ESG.
La divergence entre les différentes agences de notation pose un cas intéressant. On peut se demander quels sont les documents indispensables à la prédiction de la notation ESG des différentes notations.
Appels de revenus
Au cours des appels sur les résultats, la direction de l'entreprise présente les résultats trimestriels et discute des facteurs qui ont influencé de manière significative leurs activités. Les remarques préparées par les responsables de l'entreprise sont suivies d'une session de questions-réponses où les analystes et les investisseurs peuvent poser des questions sur les processus de décision de l'entreprise et leurs résultats. Ces sessions pourraient être particulièrement précieuses pour découvrir les failles de la stratégie ESG si de grandes questions critiques sont posées.
Au cours des dernières années, alors que la performance ESG d'une entreprise est devenue plus importante pour les entreprises, les sujets ESG sont devenus plus fréquemment abordés lors des appels de résultats.
Sur la base de ces données publiques, nous pouvons analyser quels dirigeants d'entreprise abordent des sujets pertinents pour l'ESG et en discuter lors de leur conférence téléphonique sur les résultats. Nous pouvons également analyser le type de problème ESG et s'il survient lors des remarques préparées ou plutôt de la session de questions-réponses.
Plonger dans les données
Dans ce qui suit, nous montrons notre approche pour extraire des informations des appels de revenus et les prétraiter pour une tâche de régression. Nous transformons les données non structurées en données tabulaires et étudions un lien potentiel entre les données extraites et les notations ESG.
Comment extraire des informations des appels de gains
Notre ensemble de données est composé d'environ 43 000 transcriptions d'appels sur les résultats d'environ 3 000 entreprises collectées à partir de différentes sources librement accessibles. Nous avons subdivisé le texte en sections « Remarques préparées » et « Q&R » et les avons séparés en paragraphes. Après ces étapes de prétraitement, nous avons extrait les fonctionnalités en trois étapes :
1) Filtrer les paragraphes pertinents
Nous devons identifier les paragraphes qui contiennent des discussions pertinentes sur les sujets ESG. Mais comment définissons-nous la pertinence ESG lorsque nous rencontrons 26 catégories de sujets ESG pertinents tels que définis par le Sustainability Accounting Standards Board (SASB) ? Les catégories SASB comprennent les « émissions de gaz à effet de serre (GES) », la « santé et sécurité des employés » ou la « gestion de l'environnement juridique et réglementaire ».
De nombreux sujets ESG ne sont pas faciles à identifier dans les tas de données textuelles, surtout si votre ensemble de données est composé d'environ 4 millions. paragraphes. La connaissance du domaine est nécessaire pour résoudre cette tâche correctement. Mais que se passe-t-il si vous n'avez pas accès à un expert du domaine ?
Nous nous appuyons sur les rapports de développement durable pour identifier les sujets pertinents pour l'ESG. Les rapports de développement durable sont des documents produits par l'entreprise qui traitent de leurs principaux problèmes ESG et expliquent comment l'entreprise les traite. Les rapports de développement durable nous permettent d'en savoir plus sur les sujets ESG pertinents et leur langage.
Nous formulons la tâche d'identification des paragraphes ESG pertinents comme un problème d'apprentissage non supervisé. Nous échantillonnons 1 million de paragraphes ESG, dont la moitié provient d'appels de résultats et l'autre moitié de rapports de développement durable. Nous utilisons un " all-mpnet-base-v20 " comme incorporation de phrase et réduisons l'espace d'incorporation de 768 à 10 dimensions en utilisant UMAP. La réduction de la dimensionnalité est importante pour éviter la « malédiction de la dimensionnalité » pour la méthode de regroupement suivante. Nous utilisons ensuite "HDBscan" pour identifier les paragraphes similaires.
Nous recommandons l'utilisation de « BERTopic », car il implémente le pipeline dans un package facile à utiliser. De plus, il fournit une méthode TF-IDF basée sur les classes pour extraire les mots-clés les plus saillants d'un cluster.

Pour attribuer une étiquette ESG-pertinente ou ESG-non pertinente aux ~141 clusters, nous utilisons le fait que les paragraphes d'appels sur les résultats sont dominés par un langage non ESG, et les rapports de développement durable contiennent principalement des sujets liés à l'ESG. Par conséquent, nous classons les clusters qui sont dominés par des paragraphes de rapports de développement durable comme pertinents et ceux contenant principalement des paragraphes d'appels sur les revenus comme non pertinents. Nous nous retrouvons ensuite avec 500'000 paragraphes d'appels de résultats classés en catégories pertinentes et non pertinentes pour l'ESG.

Après avoir corrigé manuellement certains clusters manifestement mal classés, nous tenons entre nos mains un ensemble de données étiquetées avec relativement peu de bruit qui a été produit en identifiant automatiquement les sujets ESG pertinents dans différentes industries. La méthode de classification non supervisée est illustrée dans la figure ci-dessus. Cette approche a court-circuité un processus douloureux d'identification des différents sujets ESG pertinents pour différentes industries et d'étiquetage des paragraphes d'appels de résultats qui contiennent relativement peu de données pertinentes pour l'ESG. Dans ce qui suit, nous utiliserons cet ensemble de données pour former un modèle supervisé.
Pour l'évaluation des différents modèles de classification, nous créons un ensemble de données de référence de paragraphes annotés à la main. Nous utilisons une approche simple basée sur des mots-clés, basée sur les travaux d'Evan Tylenda et d'autres , comme base de référence pour comparer nos modèles supervisés.
Nous évaluons différentes méthodes de classification sur deux types différents d'incorporations de texte. D'une part, nous avons utilisé des intégrations TF-IDF pour former un modèle qui identifie les mots-clés les plus exigeants pour classer correctement les paragraphes. D'autre part, nous explorons également l'utilisation de Bert-embeddings (basés sur ESGBert ) qui ont été entraînés sur des données ESG.
L' ESGBert affiné sur la tâche de classification finit par être notre modèle de choix, probablement parce qu'il est déjà pré-formé au langage ESG. Ce modèle de transformateur résout ainsi notre premier problème : identifier les paragraphes ESG pertinents.
2) Classification des sujets ESG
Les paragraphes concernés sont classés dans l'une des 26 catégories ESG, telles que « Qualité et sécurité des produits », « Émissions de GES », « Gestion de l'énergie » ou « Gestion des déchets et des matières dangereuses » (voici une liste de toutes les catégories ESG selon au SASB). ESGBert a été spécialement développé pour cette tâche. Ainsi, nous réutilisons ce modèle pré-formé pour classer les paragraphes pertinents pour l'ESG en 26 catégories différentes.
3) Agrégation des données
À ce stade, nous avons divisé les appels de résultats de chaque entreprise en paragraphes, conservé uniquement ceux qui sont pertinents et les avons affectés à une catégorie ESG. Comment pouvons-nous transformer ces informations sous une forme nous permettant d'étudier une corrélation entre les appels de résultats des entreprises et leurs notes ESG ?
Notre objectif est de tirer parti du fait que les transcriptions des appels sur les résultats peuvent être séparées en une partie de remarques préparées et une session de questions-réponses. Alors que les responsables de l'entreprise peuvent se préparer à briller dans le premier cas, ils doivent généralement endurer le second sans préparation. Nous essayons d'utiliser cette circonstance pour évaluer si une entreprise essaie d'éviter les sujets ESG difficiles dans la partie préparée, qui sont abordés par les analystes ou les investisseurs lors de la session de questions-réponses.
En mathématiques pures, cette approche peut être formulée comme suit. Tout d'abord, nous comptons chaque sujet ESG pour chaque appel de résultats et chaque entreprise :

Ensuite, nous introduisons la distinction entre les décomptes des propos préparés, et les séances de questions-réponses :

Enfin, nous définissons les sujets qui sont mentionnés dans la session de questions-réponses, mais pas dans les remarques préparées, comme potentiellement controversés :

Pour agréger ces chiffres pour chaque entreprise, nous calculons la moyenne des appels de revenus :

avec K étant le nombre total d'appels sur les revenus par entreprise que nous avons collectés.
Nous nous retrouvons maintenant avec une variable de comptage moyen cᵖʳᵉᵖᵃʳᵉᵈ⁻ʳᵉᵐᵃʳᵏˢ, c {Q&R}, cᵒᵛᵉʳᵃˡˡ et cᶜᵒⁿᵗʳᵒᵛᵉʳˢʸ. cᵖʳᵉᵖᵃʳᵉᵈ⁻ʳᵉᵐᵃʳᵏˢ et c{Q&A} sont fortement corrélés et, par conséquent, ne doivent pas être utilisés comme variables dans la régression linéaire. Par conséquent, nous utilisons cᵒᵛᵉʳᵃˡˡ et cᶜᵒⁿᵗʳᵒᵛᵉʳˢʸ comme caractéristiques pour décrire chaque entreprise.
Nous expérimentons une moyenne non pondérée simple et une moyenne pondérée qui nous permettent de mettre davantage l'accent sur les mentions ESG dans les appels de résultats récents. Nous n'ajoutons pas les poids aux formules car ils rendraient l'indexation confuse.
À ce stade, nous avons le nombre moyen (non) pondéré de mentions pour chaque catégorie par entreprise pour les remarques préparées et la session de questions-réponses.
Tendances ESG dans le temps
Nous analysons les fonctionnalités extraites au fil du temps pour identifier les défauts potentiels et découvrir les problèmes. Ci-dessous, nous traçons la part des appels de résultats avec au moins un sujet ESG mentionné au fil du temps. Nous pouvons voir qu'au fil des ans, les sujets ESG sont abordés plus fréquemment lors des appels de résultats. Néanmoins, de nombreux appels de résultats ne contiennent toujours aucune mention ESG. Nous identifions également un pic au premier trimestre 2020.

Dans la figure ci-dessous, nous pouvons regarder le nombre moyen de mentions par catégorie ESG. La figure nous permet d'expliquer le pic que nous avons observé auparavant. Avec la pandémie, qui a débuté fin 2019, de nombreuses entreprises ont dû faire face aux enjeux de la santé et de la sécurité de leurs employés. Nous pouvons observer un fort pic dans cette catégorie au premier trimestre 2020. D'autres problèmes ESG tels que "l'engagement, l'inclusion et la diversité des employés" ont également beaucoup augmenté. Avec les mouvements « Black lives matter » et « LGBTQ+ » après le meurtre de George Floyd en mai 2020, ces politiques sont devenues plus importantes pour de nombreuses entreprises.

Corréler les mentions ESG avec les notations ESG
Après avoir extrait et pré-validé les fonctionnalités, nous effectuons des expériences pour voir si nous pouvons établir une relation entre les fonctionnalités extraites et les notes. Nous combinons les caractéristiques des appels de gains avec les notes et obtenons 3222 points de données. Les notations mesurent le risque ESG d'une entreprise et des valeurs plus élevées correspondent à une moins bonne performance ESG.
Nous effectuons des tests d'hypothèse de la pente de régression pour évaluer une éventuelle relation linéaire entre les caractéristiques extraites et les notes ESG. Nous testons avec un seuil de signification de 5 %. Nos cotes sont à peu près normalement distribuées.
Pour simplifier le test, nous calculons le nombre total de mentions par entreprise

Nous effectuons une régression linéaire avec

où tᵒᵛᵉʳᵃˡˡ est le nombre moyen de mentions ESG par appel de résultats. tᶜᵒⁿᵗʳᵒᵛᵉʳˢʸ est une métrique
Nous utilisons le « groupe d'industrie » comme variable indicatrice, car les notes moyennes diffèrent considérablement d'une industrie à l'autre. Nous avons établi une échelle logarithmique tᵒᵛᵉʳᵃˡˡ car la distribution semble suivre une loi de puissance, la plupart des entreprises n'ayant que quelques mentions ESG et certaines entreprises ayant un nombre très élevé de mentions ESG. Nous remplaçons les mentions zéro par min(number_of_mentions) / 2.

La valeur R au carré du modèle linéaire indique que nos variables sont capables d'expliquer une bonne partie de la variance des notes. La majeure partie de la variance s'explique par les variables indicatrices de l'industrie. L'ajout de nos deux caractéristiques tᵒᵛᵉʳᵃˡˡ et tᶜᵒⁿᵗʳᵒᵛᵉʳˢʸ améliore le score R au carré de 0,435 à 0,461. Le score R-carré ajusté, qui corrige les degrés de liberté supplémentaires, est amélioré de 0,428 à 0,454.
Nous nous intéressons également aux pentes de régression et remarquons ce qui suit
- Nous pouvons rejeter l'hypothèse 0 et trouver une relation linéaire négative entre le nombre de mentions tᵒᵛᵉʳᵃˡˡ et les risques ESG (ce qui signifie que plus de mentions ESG entraînent une diminution du risque ESG). Une pente négative est soutenue par notre intuition selon laquelle plus de mentions ESG devraient entraîner une diminution du risque (meilleures performances ESG).
- Nous ne pouvons pas rejeter l'hypothèse 0 pour le score moyen de controverse (tᶜᵒⁿᵗʳᵒᵛᵉʳˢʸ) au niveau de signification de 5 %. Il semble que ce n'était pas une bonne idée de créer cette variable.
- Les pentes des variables indicatrices des groupes d'industries sont toutes significatives au seuil de 5 %.

Conclusion
Nous avons pu établir un lien entre le nombre moyen de mentions ESG dans les appels de résultats et la notation d'une entreprise. Nous pouvons espérer tirer plus d'informations des mentions ESG des différentes catégories. De fortes corrélations entre ces différentes caractéristiques et un nombre limité d'échantillons en font une tâche difficile.
Dans nos travaux ultérieurs, nous étudierons les relations entre les caractéristiques et les notes à un niveau plus fin. Il pourrait également être utile d'étudier les termes d'interaction potentiels entre les groupes industriels et les mentions ESG. De plus, nous essaierons d'améliorer les prédictions en utilisant des signaux issus d'autres sources documentaires.
Je tiens à remercier mes superviseurs Simon Häfeli et Luc Seiler pour leurs précieuses contributions et discussions pendant le stage et Nicolas Hubacher et Antoine Hue pour la relecture détaillée de l'article. Merci beaucoup :)