¿Podemos predecir las calificaciones ESG a partir de datos disponibles públicamente?

Dec 02 2022
¿Las empresas que discuten temas ESG durante sus llamadas de ganancias obtienen mejores calificaciones ESG? Utilizamos diferentes técnicas de PNL para dar una respuesta. La creciente amenaza del cambio climático ha provocado que los mercados financieros apunten cada vez más a inversiones más sostenibles.

¿Las empresas que discuten temas ESG durante sus llamadas de ganancias obtienen mejores calificaciones ESG? Utilizamos diferentes técnicas de PNL para dar una respuesta.

La creciente amenaza del cambio climático ha provocado que los mercados financieros apunten cada vez más a inversiones más sostenibles. Las empresas ya no solo se evalúan por su beneficio, sino que se tiene en cuenta su huella ambiental y social. Esta cesura va acompañada de la pregunta de cómo medir esta huella y así hacer comparables diferentes empresas. Las calificaciones ambientales, sociales y de gobierno (ESG) se han establecido como un instrumento que mide esta huella. Las agencias de calificación se fundaron para abordar este problema y brindar a los inversores las mejores recomendaciones posibles para inversiones sostenibles. Durante mi pasantía en ELCA, pudimos recopilar diferentes fuentes de datos no estructurados, extraer información y descubrir vínculos entre estos datos y las calificaciones de ESG.

Foto de veeterzy en Unsplash

Las agencias calificadoras recopilan y evalúan una variedad de fuentes de información. Tanto la elección de las fuentes de información como la metodología para construir las calificaciones difieren de una agencia a otra. No sorprende que las correlaciones informadas entre las diferentes agencias de calificación ESG sigan siendo bajas, como se informa en los documentos (cf. [Berg et al.|2019] y [Gibson et al.|2019] ). Nuestros datos respaldan esta idea, como puede ver en la matriz de correlación entre tres agencias que ponen sus datos a disposición del público en general.

Matriz de correlación entre las calificaciones de las tres diferentes agencias calificadoras. (cifra del autor)

El hecho de que las agencias de calificación solo divulguen parcialmente las metodologías nos ha motivado a analizar las calificaciones de ESG utilizando datos de código abierto. Dado que los puntajes ESG cubren una amplia gama de temas, hay muchas fuentes de texto relevantes, como fuentes de noticias, calificaciones de empleadores o informes de sostenibilidad. Para este experimento, hemos decidido analizar las llamadas de ganancias.

Las llamadas de ganancias son convocadas cada trimestre por las empresas que cotizan en bolsa y sirven como canales de comunicación entre inversores y analistas. Cada vez más, discuten temas relacionados con ESG, como cómo lidiar con una pandemia, cómo abordar diversas formas de discriminación o qué esfuerzos han emprendido para reducir sus emisiones de gases de efecto invernadero (GEI).

Ahora, daremos una respuesta breve a la pregunta de si podemos establecer un vínculo entre la llamada de ganancias de una empresa y su calificación ESG.

Respuesta corta

Descripción general del marco: las características se extraen de las llamadas de ganancias y se utilizan para la predicción de calificación ESG. (cifra del autor)

Analizamos las llamadas de ganancias extrayendo la cantidad de diferentes menciones de ESG a lo largo del tiempo para más de 3000 empresas. Con este fin, enseñamos a un clasificador no supervisado a identificar texto relevante para ESG aprovechando los informes de sustentabilidad. Clasificamos además los párrafos relevantes para ESG en 26 categorías descriptivas de ESG. Creamos funciones agregando la información que reunimos sobre las llamadas de ganancias para cada empresa. Estas características se analizan con la ayuda de modelos lineales.

En nuestro análisis preliminar, establecemos una relación entre el número promedio de menciones ESG de una empresa en llamadas de ganancias y sus calificaciones ESG. Para ello, ajustamos un modelo lineal sobre tres variables descriptivas: la industria de la empresa (hay 42 industrias en total), las “menciones_totales_medias” de la empresa y su “controversia_media”. "mean_total_mentions" cuenta la cantidad de párrafos en los que las empresas han discutido temas ESG durante sus llamadas de ganancias. Con “mean_controversy” tratamos de capturar temas que las empresas intentan evitar pero que se plantean durante la sesión de preguntas y respuestas de una llamada de ganancias.

Podemos ver que los coeficientes de pendiente de las industrias tienen un efecto positivo. Los "productores de petróleo y gas" o los "conglomerados industriales" tienen la mayor cantidad de riesgo ESG, mientras que "textiles y prendas de vestir" y "medios" tienen un riesgo ESG relativamente pequeño.

¿Se aplica lo mismo a “mean_controversy”? ¿Más controversia conduce a un mayor riesgo asociado? Resulta que la pendiente no es estadísticamente significativamente diferente a 0.

Por otro lado, “mean_total_mentions” tiene una pendiente negativa significativa en la variable de resultado. Las empresas que discuten más temas ESG durante su llamada de ganancias tienen mejores puntajes ESG.

Puede ver algunos de los coeficientes de pendiente e intervalos de confianza de nuestro modelo lineal. (cifra del autor)

A continuación, puede sumergirse en el conjunto de datos, explorar la tubería de aprendizaje automático para la extracción de funciones y ver los modelos lineales que usamos para investigar la relación entre las funciones construidas y las calificaciones.

Calificaciones ESG

Las calificaciones ESG son proporcionadas a los inversores por varias agencias de calificación ESG, quienes desarrollaron su metodología para evaluar el desempeño ESG de diferentes empresas. Como sugiere el nombre, el desempeño ESG de una corporación se evalúa identificando y ponderando indicadores en las siguientes tres áreas: impacto ambiental, impacto social y la calidad de su gobierno. Hay tres fuentes de divergencia en la evaluación de la calificación ESG:

  1. Alcance: Las tres categorías se subdividen en varias subcategorías que se consideran relevantes. La elección de estas subcategorías es subjetiva y depende de los antecedentes culturales y personales. Además, las agencias calificadoras determinan un conjunto de “temas materiales” para diferentes industrias.
  2. Divergencia de medición: Dentro de estas subcategorías, las agencias calificadoras identifican los indicadores más adecuados para evaluar el desempeño de una empresa. La elección de indicadores y los métodos para evaluar estos indicadores (por ejemplo, la elección de la fuente de datos) puede variar entre las diferentes agencias. RepRisk no considera las fuentes de datos autoinformadas, ya que las considera poco confiables y sesgadas.
  3. Divergencia de pesos: las diferentes medidas deben agregarse en las diferentes subcategorías y finalmente agregarse en una calificación ESG.

La divergencia entre las diferentes agencias de calificación plantea un caso interesante. Podemos preguntarnos qué documentos son imprescindibles para la predicción del rating ESG de los diferentes ratings.

Llamadas de ganancias

Durante las llamadas de ganancias, la gerencia corporativa presenta las ganancias trimestrales y analiza los factores que han influido significativamente en su negocio. Los comentarios preparados de los funcionarios de la empresa van seguidos de una sesión de preguntas y respuestas en la que los analistas e inversores pueden hacer preguntas sobre los procesos de decisión de la empresa y sus resultados. Estas sesiones podrían ser particularmente valiosas para descubrir fallas en la estrategia ESG si se hacen grandes preguntas críticas.

Durante los últimos años, a medida que el desempeño de ESG de una empresa se ha vuelto más importante para los negocios, los temas de ESG se han abordado con mayor frecuencia durante las llamadas de ganancias.

Con base en estos datos públicos, podemos analizar qué ejecutivos de la empresa mencionan temas relevantes para ESG y discutirlos durante su llamada de ganancias. También podemos analizar el tipo de problema ESG y si surge durante los comentarios preparados o más bien durante la sesión de preguntas y respuestas.

Buceando en los datos

A continuación, mostramos nuestro enfoque para extraer información de llamadas de ganancias y preprocesarlas para una tarea de regresión. Transformamos los datos no estructurados en datos tabulares e investigamos un vínculo potencial entre los datos extraídos y las calificaciones ESG.

Cómo extraer información de las llamadas de ganancias

Nuestro conjunto de datos se compone de ~43 000 transcripciones de llamadas de ganancias de alrededor de 3 000 empresas recopiladas de diferentes fuentes de acceso abierto. Subdividimos el texto en las secciones "Comentarios preparados" y "Preguntas y respuestas" y las separamos en párrafos. Después de estos pasos de preprocesamiento, extrajimos características en tres pasos:

1) Filtrar párrafos relevantes

Necesitamos identificar los párrafos que contienen discusiones relevantes sobre temas ESG. Pero, ¿cómo definimos la relevancia de ESG cuando nos encontramos con 26 categorías de temas relevantes de ESG según lo definido por la Junta de Normas de Contabilidad de Sostenibilidad (SASB) ? Las categorías de SASB incluyen "Emisiones de gases de efecto invernadero (GEI)", "Salud y seguridad de los empleados" o "Gestión del entorno legal y regulatorio".

Muchos temas ESG no son fáciles de identificar en montones de datos de texto, especialmente si su conjunto de datos está compuesto por aproximadamente 4 Mio. párrafos Se requiere conocimiento del dominio para resolver esta tarea correctamente. Pero, ¿qué sucede si no tiene acceso a un experto en el dominio?

Aprovechamos los informes de sustentabilidad para identificar temas relevantes para ESG. Los informes de sostenibilidad son documentos producidos por la empresa que analizan sus problemas ESG materiales y explican cómo la empresa los trata. Los informes de sostenibilidad nos permiten conocer los temas ESG relevantes y su lenguaje.

Formulamos la tarea de identificar párrafos ESG relevantes como un problema de aprendizaje no supervisado. Tomamos muestras de 1 millón de párrafos ESG, de los cuales la mitad provienen de llamadas de ganancias y la otra mitad de informes de sostenibilidad. Usamos un " all-mpnet-base-v20 " como incrustación de oraciones y reducimos el espacio de incrustación de 768 a 10 dimensiones usando UMAP. La reducción de la dimensionalidad es importante para evitar la "maldición de la dimensionalidad" para el siguiente método de agrupación. Luego usamos "HDBscan" para identificar párrafos similares.

Recomendamos el uso de " BERTopic ", ya que implementa la canalización en un paquete fácil de usar. Además, proporciona un método TF-IDF basado en clases para extraer las palabras clave más destacadas de un clúster.

La canalización que representa nuestro método para la clasificación de relevancia no supervisada (figura del autor)

Para asignar una etiqueta ESG relevante o ESG no relevante a los ~141 clústeres, usamos el hecho de que los párrafos de llamadas de ganancias están dominados por lenguaje no ESG, y los informes de sustentabilidad contienen principalmente temas relacionados con ESG. Por lo tanto, clasificamos los grupos que están dominados por párrafos de informes de sustentabilidad como relevantes y los que contienen principalmente párrafos de llamadas de ganancias como no relevantes. Luego terminamos con 500 000 párrafos de llamadas de ganancias clasificados en categorías relevantes y no relevantes de ESG.

Ilustración del esquema de votación que determina la relevancia ESG de un clúster. (cifra del autor)

Después de corregir a mano algunos clústeres obviamente mal clasificados, tenemos en nuestras manos un conjunto de datos etiquetados con relativamente poco ruido que se produjo al identificar automáticamente los temas ESG relevantes en diferentes industrias. El método de clasificación no supervisado se ilustra en la figura anterior. Este enfoque cortocircuitó un proceso doloroso de identificar los diferentes temas ESG relevantes para diferentes industrias y etiquetar los párrafos de llamadas de ganancias que contienen relativamente pocos datos relevantes de ESG. A continuación, utilizaremos este conjunto de datos para entrenar un modelo supervisado.

Para la evaluación de los diferentes modelos de clasificación, creamos un conjunto de datos estándar de oro de párrafos anotados a mano. Usamos un enfoque simple basado en palabras clave, basado en el trabajo de Evan Tylenda y otros , como referencia para comparar nuestros modelos supervisados.

Evaluamos diferentes métodos de clasificación en dos tipos diferentes de incrustaciones de texto. Por un lado, usamos incrustaciones TF-IDF para entrenar un modelo que identifica las palabras clave más exigentes para clasificar los párrafos correctamente. Por otro lado, también exploramos el uso de incrustaciones Bert (basadas en ESGBert ) que fueron entrenadas en datos ESG.

El ESGBert ajustado en la tarea de clasificación termina siendo nuestro modelo de elección, muy probablemente porque ya está entrenado previamente en el lenguaje ESG. Este modelo de transformador resuelve nuestro primer problema: identificar los párrafos ESG relevantes.

2) Clasificación de temas ASG

Los párrafos relevantes se clasifican en una de las 26 categorías ESG, como "Calidad y seguridad del producto", "Emisiones de GEI", "Gestión de la energía" o "Gestión de residuos y materiales peligrosos" (aquí hay una lista de todas las categorías ESG según a SASB). ESGBert ha sido desarrollado específicamente para esta tarea. Por lo tanto, reutilizamos este modelo previamente entrenado para clasificar los párrafos relevantes para ESG en 26 categorías diferentes.

3) Agregación de datos

En este punto, hemos dividido las llamadas de ganancias de cada empresa en párrafos, mantenemos solo las relevantes y las asignamos a una categoría ESG. ¿Cómo podemos transformar esta información en una forma que nos permita investigar una correlación entre las llamadas de ganancias de las empresas y sus calificaciones ESG?

Nuestro objetivo es aprovechar el hecho de que las transcripciones de llamadas de ganancias se pueden separar en una parte de comentarios preparados y la sesión de preguntas y respuestas. Si bien los funcionarios de la empresa pueden prepararse para brillar en el primero, por lo general deben soportar el segundo sin estar preparados. Intentamos utilizar esta circunstancia para evaluar si una empresa trata de evitar temas ESG difíciles en la parte preparada, que plantean los analistas o inversores durante la sesión de preguntas y respuestas.

En matemáticas puras, este enfoque se puede formular de la siguiente manera. Primero, contamos cada tema ESG para cada llamada de ganancias y cada empresa:

Luego, introducimos la distinción entre los recuentos de los comentarios preparados y las sesiones de preguntas y respuestas:

Finalmente, definimos los temas que se mencionan en la sesión de preguntas y respuestas, pero no en los comentarios preparados, como potencialmente controvertidos:

Para agregar estos recuentos para cada empresa, promediamos las llamadas de ganancias:

siendo K el número total de llamadas de ganancias por empresa que recopilamos.

Ahora terminamos con una variable de recuento promedio cᵖʳᵉᵖᵃʳᵉᵈ⁻ʳᵉᵐᵃʳᵏˢ, c {Q&A}, cᵒᵛᵉʳᵃˡˡ y cᶜᵒⁿᵗʳᵒᵛᵉʳˢʸ. cᵖʳᵉᵖᵃʳᵉᵈ⁻ʳᵉᵐᵃʳᵏˢ y c{Q&A} están altamente correlacionados y, por lo tanto, no deben usarse como variables en la regresión lineal. Por lo tanto, usamos cᵒᵛᵉʳᵃˡˡ y cᶜᵒⁿᵗʳᵒᵛᵉʳˢʸ como características para describir cada empresa.

Experimentamos con una media no ponderada simple y una media ponderada que nos permite poner más énfasis en las menciones de ESG en llamadas de ganancias recientes. No agregamos los pesos a las fórmulas, ya que harían que la indexación fuera confusa.

En este punto, tenemos el número promedio (no) ponderado de menciones para cada categoría por empresa para los comentarios preparados y la sesión de preguntas y respuestas.

Tendencias ESG a lo largo del tiempo

Analizamos las características extraídas a lo largo del tiempo para identificar fallas potenciales y descubrir problemas. A continuación, trazamos la proporción de llamadas de ganancias con al menos una mención de tema ESG a lo largo del tiempo. Podemos ver que a lo largo de los años, los temas ESG se discuten con más frecuencia durante las llamadas de ganancias. Sin embargo, muchas llamadas de ganancias aún no contienen ninguna mención de ESG. También identificamos un pico en el primer trimestre de 2020.

El número promedio de llamadas de ganancias con al menos 1 mención ESG a lo largo de los años. (cifra del autor)

En la figura a continuación, podemos ver el número promedio de menciones por categoría ESG. La figura nos permite explicar el pico que observamos antes. Con la pandemia, que comenzó a fines de 2019, muchas empresas tuvieron que abordar los problemas de salud y seguridad de sus empleados. Podemos ver un fuerte pico en esa categoría en el primer trimestre de 2020. Otros temas ESG como "Compromiso, inclusión y diversidad de los empleados" también han aumentado mucho. Con los movimientos “Black Lives Matter” y “LGBTQ+” tras el asesinato de George Floyd en mayo de 2020, estas políticas se han vuelto más importantes para muchas empresas.

El número promedio de menciones de diferentes categorías ESG a lo largo de los años. El gráfico se despejó eliminando algunas categorías que cambiaron menos con el tiempo. (cifra del autor)

Correlacionar las menciones ESG con las calificaciones ESG

Después de extraer y validar previamente las funciones, realizamos algunos experimentos para ver si podemos establecer una relación entre las funciones extraídas y las calificaciones. Combinamos las características de las llamadas de ganancias con las calificaciones y terminamos con 3222 puntos de datos. Las calificaciones miden el riesgo ESG de una empresa y los valores más altos corresponden a un peor desempeño ESG.

Realizamos pruebas de hipótesis de la pendiente de regresión para evaluar una posible relación lineal entre las características extraídas y las calificaciones ESG. Probamos con un nivel de significancia del 5%. Nuestras calificaciones tienen una distribución aproximadamente normal.

Para simplificar la prueba, calculamos el número total de menciones por empresa

Realizamos una regresión lineal con

donde tᵒᵛᵉʳᵃˡˡ es el número promedio de menciones ESG por llamada de ganancias. tᶜᵒⁿᵗʳᵒᵛᵉʳˢʸ es una métrica

Usamos el "grupo de la industria" como una variable indicadora ya que las calificaciones medias difieren considerablemente de una industria a otra. Realizamos una escala logarítmica de tᵒᵛᵉʳᵃˡˡ, ya que la distribución parece seguir una ley de potencia: la mayoría de las empresas tienen solo unas pocas menciones de ESG y algunas empresas tienen una cantidad muy alta de menciones de ESG. Reemplazamos las menciones cero con min(number_of_mentions) / 2.

Resumen de las estadísticas del modelo lineal. Las variables pueden explicar una parte razonable de la varianza como se puede ver por el puntaje R-cuadrado.

El valor R-cuadrado del modelo lineal indica que nuestras variables pueden explicar una buena cantidad de varianza en las calificaciones. La mayor parte de la varianza se explica por las variables indicadoras de la industria. La adición de nuestras dos funciones tᵒᵛᵉʳᵃˡˡ y tᶜᵒⁿᵗʳᵒᵛᵉʳˢʸ mejora la puntuación R-cuadrado de 0,435 a 0,461. La puntuación R cuadrada ajustada, que corrige los grados de libertad adicionales, se mejora de 0,428 a 0,454.

También estamos interesados ​​en las pendientes de regresión y observamos lo siguiente

  • Podemos rechazar la hipótesis 0 y encontrar una relación lineal negativa entre el número de menciones tᵒᵛᵉʳᵃˡˡ y los riesgos ESG (lo que significa que más menciones ESG conducen a una menor cantidad de riesgo ESG). Una pendiente negativa está respaldada por nuestra intuición de que más menciones ESG deberían conducir a una disminución del riesgo (mejor desempeño ESG).
  • No podemos rechazar la hipótesis 0 para la puntuación de controversia media (tᶜᵒⁿᵗʳᵒᵛᵉʳˢʸ) en el nivel de significancia del 5 %. Parece que no fue una gran idea crear esta variable.
  • Las pendientes de las variables indicadoras de los grupos industriales son todas significativas al nivel del 5%.
Resumen del modelo lineal con los parámetros más importantes, por ejemplo, pendiente, error estándar y la prueba t correspondiente.

Conclusión

Pudimos establecer un vínculo entre el número promedio de menciones ESG en llamadas de ganancias y la calificación de una empresa. Podemos esperar obtener más información de las menciones ESG de las diferentes categorías. Las fuertes correlaciones entre estas diferentes características y un número limitado de muestras hacen que sea una tarea desafiante.

En nuestro trabajo posterior, investigaremos las relaciones entre las características y las calificaciones en un nivel más detallado. También podría ser útil investigar los posibles términos de interacción entre los grupos de la industria y las menciones de ESG. Además, intentaremos mejorar las predicciones utilizando señales derivadas de otras fuentes documentales.

Quisiera agradecer a mis supervisores Simon Häfeli y Luc Seiler por su valioso aporte y discusión durante la pasantía y a Nicolas Hubacher y Antoine Hue por la revisión detallada del artículo. Muchas gracias :)