Podemos prever classificações ESG a partir de dados disponíveis publicamente?

Dec 02 2022
As empresas que discutem tópicos ESG durante suas teleconferências de resultados obtêm melhores classificações ESG? Usamos diferentes técnicas de PNL para dar uma resposta. A crescente ameaça das mudanças climáticas fez com que os mercados financeiros visassem cada vez mais investimentos mais sustentáveis.

As empresas que discutem tópicos ESG durante suas teleconferências de resultados obtêm melhores classificações ESG? Usamos diferentes técnicas de PNL para dar uma resposta.

A crescente ameaça das mudanças climáticas fez com que os mercados financeiros visassem cada vez mais investimentos mais sustentáveis. As empresas já não são avaliadas apenas pelo seu lucro, mas sim pela sua pegada ambiental e social. Essa cesura é acompanhada pela questão de como medir essa pegada e, assim, tornar diferentes empresas comparáveis. As classificações de Meio Ambiente, Social e Governança (ESG) se estabeleceram como um instrumento que mede essa pegada. As agências de classificação foram fundadas para resolver esse problema e dar aos investidores as melhores recomendações possíveis para investimentos sustentáveis. Durante meu estágio na ELCA, pudemos coletar diferentes fontes de dados não estruturados, extrair informações e descobrir links entre esses dados e as classificações ESG.

Foto por veeterzy no Unsplash

As agências de classificação coletam e avaliam uma variedade de fontes de informação. Tanto a escolha das fontes de informação quanto a metodologia para construir os ratings diferem de agência para agência. Não é surpreendente que as correlações relatadas entre as diferentes agências de classificação ESG permaneçam baixas conforme relatado nos artigos (cf. [Berg et al.|2019] e [Gibson et al.|2019] ). Nossos dados suportam essa percepção, como você pode ver na matriz de correlação entre três agências que disponibilizam seus dados para o grande público.

Matriz de correlação entre os ratings das três diferentes agências de rating. (figura do autor)

O fato de as metodologias serem apenas parcialmente divulgadas pelas agências de rating nos motivou a analisar os ratings ESG usando dados de código aberto. Como as pontuações ESG abrangem uma ampla gama de tópicos, há muitas fontes de texto relevantes, como fontes de notícias, avaliações de empregadores ou relatórios de sustentabilidade. Para esta experiência, decidimos analisar chamadas de ganhos.

As teleconferências de resultados são realizadas trimestralmente por empresas listadas e servem como canais de comunicação entre investidores e analistas. Cada vez mais, eles discutem questões relacionadas ao ESG, como como lidar com uma pandemia, como lidar com várias formas de discriminação ou quais esforços eles empreenderam para reduzir suas emissões de gases de efeito estufa (GEE).

Agora, daremos uma resposta curta para a pergunta se podemos estabelecer um vínculo entre a chamada de ganhos de uma empresa e sua classificação ESG.

Resposta curta

Visão geral da estrutura: Os recursos são extraídos de chamadas de ganhos e usados ​​para previsão de classificação ESG. (figura do autor)

Analisamos as chamadas de ganhos extraindo o número de diferentes menções ESG ao longo do tempo para mais de 3.000 empresas. Para isso, ensinamos um classificador não supervisionado a identificar textos relevantes para ESG, aproveitando os relatórios de sustentabilidade. Além disso, classificamos os parágrafos relevantes para ESG em 26 categorias ESG descritivas. Criamos recursos agregando as informações que coletamos sobre as chamadas de ganhos para cada empresa. Essas características são analisadas com a ajuda de modelos lineares.

Em nossa análise preliminar, estabelecemos uma relação entre o número médio de menções ESG de uma empresa em chamadas de resultados e suas classificações ESG. Para isso, ajustamos um modelo linear em três variáveis ​​descritivas: O setor da empresa (são 42 setores no total), as “menções_totais_médias” da empresa e sua “controvérsia_média”. “mean_total_mentions” conta o número de parágrafos nos quais as empresas discutiram tópicos ESG durante suas teleconferências de resultados. Com “mean_controversy”, tentamos capturar tópicos que as empresas tentam evitar, mas são levantados durante a sessão de perguntas e respostas de uma teleconferência de resultados.

Podemos ver que os coeficientes de inclinação das indústrias têm um efeito positivo. “Produtores de Petróleo e Gás” ou “Conglomerados Industriais” têm a maior quantidade de risco ESG, enquanto “Têxteis e Vestuário” e “Mídia” têm um risco ESG relativamente pequeno.

O mesmo se aplica a “mean_controversy”? Mais controvérsia leva a um maior risco associado? Acontece que a inclinação não é estatisticamente significativamente diferente de 0.

Por outro lado, “mean_total_mentions” tem uma inclinação negativa significativa na variável de resultado. As empresas que discutem mais tópicos ESG durante suas teleconferências de resultados têm melhores pontuações ESG.

Você pode ver alguns dos coeficientes de inclinação e intervalos de confiança do nosso modelo linear. (figura do autor)

A seguir, você pode mergulhar no conjunto de dados, explorar o pipeline de aprendizado de máquina para extração de recursos e observar os modelos lineares que usamos para investigar a relação entre os recursos construídos e as classificações.

classificações ESG

As classificações ESG são fornecidas aos investidores por várias agências de classificação ESG, que desenvolveram sua metodologia para avaliar o desempenho ESG de diferentes empresas. Como o nome sugere, o desempenho ESG de uma corporação é avaliado por meio da identificação e ponderação de indicadores nas três áreas a seguir: impacto ambiental, impacto social e qualidade de sua governança. Existem três fontes de divergência na avaliação de classificação ESG:

  1. Âmbito: As três categorias estão subdivididas em várias subcategorias consideradas relevantes. A escolha dessas subcategorias é subjetiva e depende de contextos culturais e pessoais. Além disso, as agências de classificação determinam um conjunto de “questões materiais” para diferentes setores.
  2. Divergência de medição: Dentro dessas subcategorias, as agências de rating identificam os indicadores mais adequados para avaliar o desempenho de uma empresa. A escolha dos indicadores e os métodos para avaliar esses indicadores (por exemplo, escolha da fonte de dados) podem variar entre as diferentes agências. A RepRisk não considera as fontes de dados auto-relatadas, pois as julga não confiáveis ​​e tendenciosas.
  3. Divergência de pesos: as diferentes medidas precisam ser agregadas nas diferentes subcategorias e, finalmente, agregadas em uma classificação ESG.

A divergência entre as diferentes agências de classificação representa um caso interessante. Podemos nos perguntar quais documentos são essenciais para a previsão do rating ESG dos diferentes ratings.

chamadas de ganhos

Durante as teleconferências de resultados, a administração corporativa apresenta os resultados trimestrais e discute os fatores que influenciaram significativamente seus negócios. As declarações preparadas dos dirigentes da empresa são seguidas de uma sessão de perguntas e respostas, onde analistas e investidores podem fazer perguntas sobre os processos de decisão da empresa e seus resultados. Essas sessões podem ser particularmente valiosas para descobrir falhas na estratégia ESG se grandes perguntas críticas forem feitas.

Nos últimos anos, à medida que o desempenho ESG de uma empresa se tornou mais significativo para os negócios, os tópicos ESG passaram a ser abordados com mais frequência durante as teleconferências de resultados.

Com base nesses dados públicos, podemos analisar quais executivos da empresa trazem assuntos ESG relevantes e discuti-los durante a teleconferência de resultados. Também podemos analisar o tipo de questão ESG e se ela surge durante as observações preparadas ou melhor, na sessão de perguntas e respostas.

Mergulhando nos dados

A seguir, mostramos nossa abordagem para extrair informações de chamadas de ganhos e pré-processá-las para uma tarefa de regressão. Transformamos os dados não estruturados em dados tabulares e investigamos uma possível ligação entre os dados extraídos e as classificações ESG.

Como extrair informações das chamadas de ganhos

Nosso conjunto de dados é composto por aproximadamente 43.000 transcrições de chamadas de ganhos de cerca de 3.000 empresas coletadas de diferentes fontes acessíveis abertamente. Subdividimos o texto nas seções “Comentários preparados” e “Perguntas e respostas” e os separamos em parágrafos. Após essas etapas de pré-processamento, extraímos os recursos em três etapas:

1) Filtre os parágrafos relevantes

Precisamos identificar os parágrafos que contêm discussões relevantes sobre temas ESG. Mas como definimos a relevância ESG quando nos deparamos com 26 categorias de tópicos relevantes para ESG, conforme definido pelo Conselho de Padrões de Contabilidade de Sustentabilidade (SASB) ? As categorias SASB incluem “Emissões de Gases de Efeito Estufa (GEE)”, “Saúde e Segurança dos Funcionários” ou “Gestão do Ambiente Legal e Regulatório”.

Muitos tópicos ESG não são fáceis de identificar nos montes de dados de texto, especialmente se o seu conjunto de dados for composto por aproximadamente 4 milhões. parágrafos. O conhecimento do domínio é necessário para resolver esta tarefa adequadamente. Mas e se você não tiver acesso a um especialista em domínio?

Aproveitamos os relatórios de sustentabilidade para identificar tópicos relevantes para ESG. Os relatórios de sustentabilidade são documentos produzidos pela empresa que discutem suas questões ESG relevantes e explicam como a empresa lida com elas. Os relatórios de sustentabilidade nos permitem conhecer os temas ESG relevantes e sua linguagem.

Formulamos a tarefa de identificar parágrafos ESG relevantes como um problema de aprendizado não supervisionado. Amostramos 1 milhão de parágrafos ESG, dos quais metade vem de chamadas de ganhos e a outra metade de relatórios de sustentabilidade. Usamos um “ all-mpnet-base-v20 ” como incorporação de sentença e reduzimos o espaço de incorporação de 768 para 10 dimensões usando UMAP. A redução da dimensionalidade é importante para evitar a “maldição da dimensionalidade” para o seguinte método de agrupamento. Em seguida, usamos “HDBscan” para identificar parágrafos semelhantes.

Recomendamos o uso de “ BERTopic ”, pois ele implementa o pipeline em um pacote fácil de usar. Além disso, fornece um método TF-IDF baseado em classe para extrair as palavras-chave mais salientes de um cluster.

O pipeline que descreve nosso método para classificação de relevância não supervisionada (figura por autor)

Para atribuir um rótulo ESG relevante ou ESG não relevante aos ~141 clusters, usamos o fato de que os parágrafos de chamadas de ganhos são dominados por linguagem não ESG e os relatórios de sustentabilidade contêm principalmente tópicos relacionados a ESG. Portanto, classificamos os clusters que são dominados por parágrafos de relatórios de sustentabilidade como relevantes e os que contêm a maioria dos parágrafos de chamadas de resultados como não relevantes. Em seguida, terminamos com 500.000 parágrafos de chamada de ganhos classificados em categorias relevantes e não relevantes para ESG.

Ilustração do esquema de votação que determina a relevância ESG de um cluster. (figura do autor)

Depois de corrigir manualmente alguns clusters obviamente mal classificados, mantemos em nossas mãos um conjunto de dados rotulado com relativamente pouco ruído que foi produzido pela identificação automática dos tópicos ESG relevantes em diferentes setores. O método de classificação não supervisionado é ilustrado na figura acima. Essa abordagem interrompeu um processo doloroso de identificar os diferentes tópicos ESG relevantes para diferentes setores e rotular parágrafos de chamadas de ganhos que contêm relativamente poucos dados relevantes para ESG. A seguir, usaremos esse conjunto de dados para treinar um modelo supervisionado.

Para a avaliação dos diferentes modelos de classificação, criamos um conjunto de dados padrão-ouro de parágrafos anotados à mão. Usamos uma abordagem simples baseada em palavras-chave, com base no trabalho de Evan Tylenda e outros , como base para comparar nossos modelos supervisionados.

Avaliamos diferentes métodos de classificação em dois tipos diferentes de incorporação de texto. Por um lado, usamos embeddings TF-IDF para treinar um modelo que identifica as palavras-chave mais criteriosas para classificar os parágrafos corretamente. Por outro lado, também exploramos o uso de incorporações Bert (baseadas em ESGBert ) que foram treinadas em dados ESG.

O ESGBert ajustado na tarefa de classificação acaba sendo nosso modelo de escolha, provavelmente porque já está pré-treinado na linguagem ESG. Este modelo de transformador resolve nosso primeiro problema: identificar parágrafos ESG relevantes.

2) Classificação do tópico ESG

Os parágrafos relevantes são classificados em uma das 26 categorias ESG, como “Qualidade e Segurança do Produto”, “Emissões de GEE”, “Gestão de Energia” ou “Gestão de Resíduos e Materiais Perigosos” (aqui está uma lista de todas as categorias ESG de acordo com ao SASB). O ESGBert foi desenvolvido especificamente para esta tarefa. Assim, reutilizamos esse modelo pré-treinado para classificar os parágrafos relevantes para ESG em 26 categorias diferentes.

3) Agregação de dados

Neste ponto, dividimos as chamadas de ganhos de cada empresa em parágrafos, mantemos apenas os relevantes e os atribuímos a uma categoria ESG. Como podemos transformar essas informações em um formato que nos permita investigar uma correlação entre as divulgações de resultados das empresas e suas classificações ESG?

Nosso objetivo é aproveitar o fato de que as transcrições das teleconferências de resultados podem ser separadas em uma parte de comentários preparados e na sessão de perguntas e respostas. Embora os funcionários da empresa possam se preparar para brilhar no primeiro, eles geralmente precisam suportar o segundo despreparados. Tentamos usar essa circunstância para avaliar se uma empresa tenta evitar tópicos difíceis de ESG na parte preparada, que são levantados pelos analistas ou investidores durante a sessão de perguntas e respostas.

Em matemática pura, essa abordagem pode ser formulada da seguinte maneira. Primeiro, contamos cada tópico ESG para cada teleconferência de resultados e cada empresa:

Em seguida, introduzimos a distinção entre as contagens das observações preparadas e das sessões de perguntas e respostas:

Por fim, definimos os temas que são mencionados na sessão de perguntas e respostas, mas não nos comentários preparados, como potencialmente polêmicos:

Para agregar essas contagens para cada empresa, calculamos a média das chamadas de ganhos:

com K sendo o número total de chamadas de ganhos por empresa que coletamos.

Agora terminamos com uma variável de contagem média cᵖʳᵉᵖᵃʳᵉᵈ⁻ʳᵉᵐᵃʳᵏˢ, c {Q&A}, cᵒᵛᵉʳᵃˡˡ e cᶜᵒⁿᵗʳᵒᵛᵉʳˢʸ. cᵖʳᵉᵖᵃʳᵉᵈ⁻ʳᵉᵐᵃʳᵏˢ ec{Q&A} são altamente correlacionados e, portanto, não devem ser usados ​​como variáveis ​​em regressão linear. Assim, usamos cᵒᵛᵉʳᵃˡˡ e cᶜᵒⁿᵗʳᵒᵛᵉʳˢʸ como recursos para descrever cada empresa.

Experimentamos uma média não ponderada simples e uma média ponderada que nos permite colocar mais ênfase nas menções ESG em chamadas de ganhos recentes. Não adicionamos os pesos às fórmulas, pois isso tornaria a indexação confusa.

Neste ponto, temos a média (não) ponderada de menções para cada categoria por empresa para os comentários preparados e para a sessão de perguntas e respostas.

Tendências ESG ao longo do tempo

Analisamos os recursos extraídos ao longo do tempo para identificar possíveis falhas e descobrir problemas. Abaixo, traçamos a parcela de chamadas de ganhos com pelo menos uma menção de tópico ESG ao longo do tempo. Podemos ver que, ao longo dos anos, os tópicos ESG são discutidos com mais frequência durante as teleconferências de resultados. No entanto, muitas chamadas de ganhos ainda não contêm nenhuma menção ESG. Também identificamos um pico no primeiro trimestre de 2020.

O número médio de chamadas de ganhos com pelo menos 1 menção ESG ao longo dos anos. (figura do autor)

Na figura abaixo, podemos ver o número médio de menções por categoria ESG. A figura nos permite explicar o pico que observamos anteriormente. Com a pandemia, iniciada no final de 2019, muitas empresas tiveram que equacionar as questões de saúde e segurança de seus colaboradores. Podemos ver um forte pico nessa categoria no primeiro trimestre de 2020. Outras questões ESG, como “engajamento, inclusão e diversidade dos funcionários”, também aumentaram muito. Com os movimentos “Black lives matter” e “LGBTQ+” após o assassinato de George Floyd em maio de 2020, essas políticas se tornaram mais importantes para muitas empresas.

O número médio de menções de diferentes categorias ESG ao longo dos anos. O gráfico foi organizado removendo algumas categorias que mudaram menos ao longo do tempo. (figura do autor)

Correlacionar menções ESG com classificações ESG

Depois de extrair e pré-validar as características, realizamos alguns experimentos para ver se conseguimos estabelecer uma relação entre as características extraídas e as avaliações. Combinamos os recursos das chamadas de ganhos com as classificações e acabamos com 3222 pontos de dados. As classificações medem o risco ESG de uma empresa e valores mais altos correspondem a um pior desempenho ESG.

Realizamos testes de hipótese da inclinação da regressão para avaliar uma possível relação linear entre as características extraídas e as classificações ESG. Testamos com nível de significância de 5%. Nossas classificações são aproximadamente normalmente distribuídas.

Para simplificar o teste, calculamos o número total de menções por empresa

Executamos uma regressão linear com

onde tᵒᵛᵉʳᵃˡˡ é o número médio de menções ESG por chamada de resultados. tᶜᵒⁿᵗʳᵒᵛᵉʳˢʸ é uma métrica

Usamos o “grupo da indústria” como uma variável indicadora, pois as classificações médias diferem consideravelmente de indústria para indústria. Nós escalamos tᵒᵛᵉʳᵃˡˡ como a distribuição parece seguir uma lei de potência com a maioria das empresas tendo apenas algumas menções ESG e algumas empresas tendo um número muito alto de menções ESG. Substituímos as menções zero por min(number_of_mentions) / 2.

Resumo das estatísticas do modelo linear. As variáveis ​​podem explicar uma parte razoável da variância, como pode ser visto pelo escore R-quadrado.

O valor de R-quadrado do modelo linear indica que nossas variáveis ​​são capazes de explicar uma boa quantidade de variância nas classificações. A maior parte da variação é explicada pelas variáveis ​​do indicador da indústria. A adição de nossos dois recursos tᵒᵛᵉʳᵃˡˡ e tᶜᵒⁿᵗʳᵒᵛᵉʳˢʸ melhora a pontuação do R-quadrado de 0,435 para 0,461. A pontuação ajustada do R-quadrado, que corrige os graus de liberdade adicionais, foi aprimorada de 0,428 para 0,454.

Também estamos interessados ​​nas inclinações da regressão e notamos o seguinte

  • Podemos rejeitar a hipótese 0 e encontrar uma relação linear negativa entre o número de menções tᵒᵛᵉʳᵃˡˡ e os riscos ESG (o que significa que mais menções ESG levam a uma quantidade menor de risco ESG). Uma inclinação negativa é apoiada por nossa intuição de que mais menções ESG devem levar a uma diminuição do risco (melhor desempenho ESG).
  • Não podemos rejeitar a hipótese 0 para a pontuação média de controvérsia (tᶜᵒⁿᵗʳᵒᵛᵉʳˢʸ) no nível de significância de 5%. Parece que não foi uma boa ideia criar essa variável.
  • As inclinações das variáveis ​​indicadoras dos grupos industriais são todas significativas ao nível de 5%.
Resumo do modelo linear com os parâmetros mais importantes, por exemplo, inclinação, erro padrão e o teste t correspondente.

Conclusão

Conseguimos estabelecer uma ligação entre o número médio de menções ESG nas chamadas de resultados e a classificação de uma empresa. Podemos esperar extrair mais informações das menções ESG das diferentes categorias. Fortes correlações entre esses diferentes recursos e um número limitado de amostras tornam essa tarefa desafiadora.

Em nosso trabalho futuro, investigaremos as relações entre os recursos e as classificações em um nível mais refinado. Investigar possíveis termos de interação entre grupos da indústria e menções ESG também pode ser útil. Além disso, tentaremos melhorar as previsões usando sinais derivados de outras fontes documentais.

Gostaria de agradecer aos meus supervisores Simon Häfeli e Luc Seiler por suas valiosas contribuições e discussões durante o estágio e Nicolas Hubacher e Antoine Hue pela revisão detalhada do artigo. Muito Obrigado :)