Bisakah kita memprediksi peringkat ESG dari data yang tersedia untuk umum?

Dec 02 2022
Apakah perusahaan yang membahas topik ESG selama panggilan pendapatan mereka mendapatkan peringkat ESG yang lebih baik? Kami menggunakan teknik NLP yang berbeda untuk memberikan jawaban. Meningkatnya ancaman perubahan iklim telah menyebabkan pasar keuangan semakin menargetkan investasi yang lebih berkelanjutan.

Apakah perusahaan yang membahas topik ESG selama panggilan pendapatan mereka mendapatkan peringkat ESG yang lebih baik? Kami menggunakan teknik NLP yang berbeda untuk memberikan jawaban.

Meningkatnya ancaman perubahan iklim telah menyebabkan pasar keuangan semakin menargetkan investasi yang lebih berkelanjutan. Perusahaan tidak lagi hanya dinilai dari keuntungannya, tetapi jejak lingkungan dan sosialnya juga diperhitungkan. Caesura ini disertai dengan pertanyaan bagaimana mengukur jejak ini dan dengan demikian membuat perusahaan yang berbeda dapat dibandingkan. Peringkat Lingkungan, Sosial, dan Tata Kelola (ESG) telah memantapkan dirinya sebagai instrumen yang mengukur jejak ini. Lembaga pemeringkat didirikan untuk mengatasi masalah ini dan memberi investor rekomendasi terbaik untuk investasi berkelanjutan. Selama magang di ELCA, kami dapat mengumpulkan berbagai sumber data tidak terstruktur, mengekstrak informasi, dan menemukan hubungan antara data ini dan peringkat ESG.

Foto oleh veeterzy di Unsplash

Lembaga pemeringkat mengumpulkan dan mengevaluasi berbagai sumber informasi. Pilihan sumber informasi dan metodologi untuk membangun peringkat berbeda dari satu lembaga ke lembaga lainnya. Tidak mengherankan, bahwa korelasi yang dilaporkan antara lembaga pemeringkat ESG yang berbeda tetap rendah seperti yang dilaporkan di koran (lihat [Berg et al.|2019] dan [Gibson et al.|2019] ). Data kami mendukung wawasan ini seperti yang Anda lihat dalam matriks korelasi antara tiga lembaga yang membuat data mereka tersedia untuk publik yang lebih luas.

Matriks korelasi antara peringkat dari tiga lembaga pemeringkat yang berbeda. (gambar oleh penulis)

Fakta bahwa metodologi hanya diungkapkan sebagian oleh lembaga pemeringkat telah memotivasi kami untuk menganalisis peringkat ESG dengan menggunakan data sumber terbuka. Karena skor ESG mencakup berbagai topik, ada banyak sumber teks yang relevan seperti sumber berita, peringkat pemberi kerja, atau laporan keberlanjutan. Untuk eksperimen ini, kami telah memutuskan untuk menganalisis panggilan pendapatan.

Panggilan pendapatan diadakan setiap kuartal oleh perusahaan terdaftar dan berfungsi sebagai saluran komunikasi antara investor dan analis. Mereka semakin sering membahas isu-isu terkait LST seperti bagaimana menghadapi pandemi, bagaimana mengatasi berbagai bentuk diskriminasi, atau upaya apa yang telah mereka lakukan untuk mengurangi emisi gas rumah kaca (GRK) mereka.

Sekarang, kami akan memberikan jawaban singkat untuk pertanyaan apakah kami dapat membuat hubungan antara panggilan pendapatan perusahaan dan peringkat ESG-nya.

Jawaban singkat

Gambaran kerangka kerja: Fitur diekstrak dari panggilan pendapatan dan digunakan untuk prediksi peringkat ESG. (gambar oleh penulis)

Kami menganalisis panggilan pendapatan dengan mengekstraksi jumlah penyebutan ESG yang berbeda dari waktu ke waktu untuk lebih dari 3000 perusahaan. Untuk tujuan ini, kami mengajarkan pengklasifikasi tanpa pengawasan untuk mengidentifikasi teks yang relevan dengan LST dengan memanfaatkan laporan keberlanjutan. Kami selanjutnya mengklasifikasikan paragraf yang relevan dengan LST ke dalam 26 kategori LST deskriptif. Kami membuat fitur dengan menggabungkan informasi yang kami kumpulkan tentang panggilan pendapatan untuk setiap perusahaan. Fitur-fitur ini dianalisis dengan bantuan model linier.

Dalam analisis pendahuluan kami, kami menetapkan hubungan antara jumlah rata-rata penyebutan ESG perusahaan dalam panggilan pendapatan dan peringkat ESG mereka. Untuk melakukannya, kami mencocokkan model linear pada tiga variabel deskriptif: Industri perusahaan (total ada 42 industri), "rerata_total_mentions" perusahaan dan "mean_controversy" -nya. “mean_total_mentions” menghitung jumlah paragraf di mana perusahaan telah membahas topik LST selama panggilan pendapatan mereka. Dengan "mean_controversy" kami mencoba menangkap topik yang coba dihindari oleh perusahaan tetapi diangkat selama sesi tanya jawab panggilan pendapatan.

Kita dapat melihat bahwa koefisien kemiringan industri berpengaruh positif. “Produsen Minyak & Gas” atau “Konglomerat Industri” memiliki jumlah risiko LST tertinggi sedangkan “Tekstil & Pakaian Jadi” dan “Media” memiliki risiko LST yang relatif kecil.

Apakah hal yang sama berlaku untuk "mean_controversy"? Apakah lebih banyak kontroversi mengarah pada risiko terkait yang lebih tinggi? Ternyata kemiringan secara statistik tidak berbeda nyata dengan 0.

Di sisi lain, "mean_total_mentions" memiliki kemiringan negatif yang signifikan pada variabel hasil. Perusahaan yang membahas lebih banyak topik ESG selama panggilan pendapatan mereka memiliki skor ESG yang lebih baik.

Anda dapat melihat beberapa koefisien kemiringan dan interval kepercayaan dari model linier kami. (gambar oleh penulis)

Berikut ini, Anda dapat mempelajari kumpulan data, menjelajahi saluran pembelajaran mesin untuk ekstraksi fitur, dan melihat model linier yang kami gunakan untuk menyelidiki hubungan antara fitur yang dibangun dan peringkat.

peringkat ESG

Peringkat ESG diberikan kepada investor oleh beberapa lembaga pemeringkat ESG, yang mengembangkan metodologi mereka untuk menilai kinerja ESG dari berbagai perusahaan. Seperti namanya, kinerja LST suatu korporasi dievaluasi dengan mengidentifikasi dan memberi bobot indikator dalam tiga bidang berikut: Dampak lingkungan, dampak sosial, dan kualitas tata kelolanya. Ada tiga sumber perbedaan dalam penilaian peringkat ESG:

  1. Cakupan: Ketiga kategori tersebut dibagi lagi menjadi beberapa subkategori yang dianggap relevan. Pemilihan subkategori ini bersifat subyektif dan bergantung pada latar belakang budaya dan pribadi. Selain itu, lembaga pemeringkat menentukan serangkaian "masalah material" untuk industri yang berbeda.
  2. Perbedaan pengukuran: Di dalam subkategori ini, lembaga pemeringkat mengidentifikasi indikator yang paling sesuai untuk menilai kinerja perusahaan. Pilihan indikator dan metode untuk menilai indikator-indikator ini (misalnya pilihan sumber data) dapat bervariasi di antara lembaga yang berbeda. RepRisk tidak mempertimbangkan sumber data yang dilaporkan sendiri karena menilainya tidak dapat diandalkan dan bias.
  3. Divergensi bobot: Pengukuran yang berbeda perlu digabungkan ke dalam subkategori yang berbeda dan akhirnya digabungkan menjadi satu peringkat ESG.

Perbedaan antara lembaga pemeringkat yang berbeda menimbulkan kasus yang menarik. Kami dapat bertanya pada diri sendiri dokumen mana yang penting untuk prediksi peringkat ESG dari peringkat yang berbeda.

Panggilan penghasilan

Selama panggilan pendapatan, manajemen perusahaan menyajikan pendapatan triwulanan dan membahas faktor-faktor yang secara signifikan mempengaruhi bisnis mereka. Sambutan pejabat perusahaan yang telah disiapkan diikuti dengan sesi tanya jawab di mana analis dan investor dapat mengajukan pertanyaan tentang proses pengambilan keputusan perusahaan dan hasilnya. Sesi-sesi ini bisa sangat berharga untuk menemukan kekurangan dalam strategi LST jika pertanyaan-pertanyaan kritis yang besar diajukan.

Selama beberapa tahun terakhir, karena kinerja LST perusahaan menjadi lebih signifikan untuk bisnis, topik LST menjadi lebih sering dibahas selama panggilan pendapatan.

Berdasarkan data publik ini, kami dapat menganalisis eksekutif perusahaan mana yang mengangkat topik yang relevan dengan ESG dan mendiskusikannya selama panggilan pendapatan mereka. Kami juga dapat menganalisis jenis masalah LST dan apakah itu muncul selama sambutan yang disiapkan atau lebih tepatnya sesi tanya jawab.

Menyelam ke dalam data

Berikut ini, kami menunjukkan pendekatan kami untuk mengekstraksi informasi dari panggilan pendapatan dan memprosesnya terlebih dahulu untuk tugas regresi. Kami mengubah data yang tidak terstruktur menjadi data tabular dan menyelidiki hubungan potensial antara data yang diekstraksi dan peringkat ESG.

Cara mengekstrak informasi dari panggilan pendapatan

Kumpulan data kami terdiri dari ~43.000 transkrip panggilan pendapatan dari sekitar 3.000 perusahaan yang dikumpulkan dari berbagai sumber yang dapat diakses secara terbuka. Kami membagi teks menjadi bagian "Pernyataan yang disiapkan" dan "Tanya Jawab" dan memisahkannya menjadi beberapa paragraf. Setelah langkah-langkah prapemrosesan ini, kami mengekstraksi fitur dalam tiga langkah:

1) Saring paragraf yang relevan

Kita perlu mengidentifikasi paragraf-paragraf yang memuat pembahasan yang relevan tentang topik-topik LST. Tetapi bagaimana kita mendefinisikan relevansi LST ketika menemukan 26 kategori topik yang relevan dengan LST sebagaimana didefinisikan oleh Dewan Standar Akuntansi Keberlanjutan (SASB) ? Kategori SASB mencakup “Emisi Gas Rumah Kaca (GRK)”, “Kesehatan dan Keselamatan Karyawan”, atau “Pengelolaan Lingkungan Hukum dan Peraturan”.

Banyak topik ESG tidak mudah diidentifikasi dalam tumpukan data teks, terutama jika kumpulan data Anda terdiri dari kira-kira 4 juta. paragraf. Pengetahuan domain diperlukan untuk menyelesaikan tugas ini dengan benar. Tetapi bagaimana jika Anda tidak memiliki akses ke pakar domain?

Kami memanfaatkan laporan keberlanjutan untuk mengidentifikasi topik yang relevan dengan LST. Laporan keberlanjutan adalah dokumen yang diproduksi perusahaan yang membahas isu-isu LST material mereka dan menjelaskan bagaimana perusahaan menanganinya. Laporan keberlanjutan memungkinkan kami untuk mempelajari tentang topik LST yang relevan dan bahasanya.

Kami merumuskan tugas untuk mengidentifikasi paragraf ESG yang relevan sebagai masalah pembelajaran yang tidak diawasi. Kami mengambil sampel 1 juta paragraf ESG, yang separuhnya berasal dari panggilan pendapatan dan separuh lainnya dari laporan keberlanjutan. Kami menggunakan " all-mpnet-base-v20 " sebagai penyematan kalimat dan mengurangi ruang penyematan dari 768 menjadi 10 dimensi dengan menggunakan UMAP. Pengurangan dimensi penting untuk menghindari "kutukan dimensi" untuk metode pengelompokan berikut. Kami kemudian menggunakan "HDBscan" untuk mengidentifikasi paragraf serupa.

Kami merekomendasikan penggunaan “ BERTopic ”, karena mengimplementasikan pipeline dalam paket yang mudah digunakan. Selain itu, ini menyediakan metode TF-IDF berbasis kelas untuk mengekstraksi kata kunci yang paling menonjol dari sebuah cluster.

Saluran yang menggambarkan metode kami untuk klasifikasi relevansi tanpa pengawasan (gambar oleh penulis)

Untuk menetapkan label ESG-relevan atau ESG-non-relevan ke ~141 klaster, kami menggunakan fakta bahwa paragraf panggilan pendapatan didominasi oleh bahasa non-ESG, dan laporan keberlanjutan berisi sebagian besar topik terkait ESG. Oleh karena itu, kami mengklasifikasikan klaster yang didominasi oleh paragraf dari laporan keberlanjutan sebagai relevan dan klaster yang berisi sebagian besar paragraf panggilan pendapatan sebagai tidak relevan. Kami kemudian berakhir dengan 500.000 paragraf panggilan pendapatan yang diklasifikasikan ke dalam kategori yang relevan dengan ESG dan tidak relevan dengan ESG.

Ilustrasi skema pemungutan suara yang menentukan relevansi LST sebuah klaster. (gambar oleh penulis)

Setelah mengoreksi beberapa klaster yang jelas salah klasifikasi secara manual, kami memegang kumpulan data berlabel dengan noise yang relatif kecil yang dihasilkan dengan mengidentifikasi secara otomatis topik ESG yang relevan di berbagai industri. Metode klasifikasi tanpa pengawasan diilustrasikan pada gambar di atas. Pendekatan ini mempersingkat proses yang menyakitkan dalam mengidentifikasi berbagai topik LST yang relevan untuk industri yang berbeda dan memberi label paragraf panggilan pendapatan yang berisi data relevan LST yang relatif sedikit. Berikut ini, kami akan menggunakan kumpulan data ini untuk melatih model yang diawasi.

Untuk evaluasi model klasifikasi yang berbeda, kami membuat kumpulan data standar emas dari paragraf beranotasi tangan. Kami menggunakan pendekatan berbasis kata kunci sederhana, berdasarkan karya Evan Tylenda dan lainnya , sebagai dasar untuk membandingkan model kami yang diawasi.

Kami mengevaluasi metode klasifikasi yang berbeda pada dua jenis penyematan teks yang berbeda. Di satu sisi, kami menggunakan penyematan TF-IDF untuk melatih model yang mengidentifikasi kata kunci yang paling cerdas untuk mengklasifikasikan paragraf dengan benar. Di sisi lain, kami juga mengeksplorasi penggunaan Bert-embeddings (berdasarkan ESGBert ) yang dilatih pada data ESG.

ESGBert yang disempurnakan pada tugas klasifikasi akhirnya menjadi model pilihan kami, kemungkinan besar karena sudah dilatih sebelumnya dalam bahasa ESG. Model transformator ini memecahkan masalah pertama kita: mengidentifikasi paragraf ESG yang relevan.

2) klasifikasi topik LST

Paragraf yang relevan diklasifikasikan ke dalam salah satu dari 26 kategori LST, seperti “Kualitas dan Keamanan Produk”, “Emisi GRK”, “Manajemen Energi”, atau “Pengelolaan Limbah dan Bahan Berbahaya” ( berikut adalah daftar semua kategori LST menurut ke SASB). ESGBert telah dikembangkan secara khusus untuk tugas ini. Oleh karena itu, kami menggunakan kembali model pra-pelatihan ini untuk mengklasifikasikan paragraf yang relevan dengan ESG ke dalam 26 kategori berbeda.

3) Agregasi data

Pada titik ini, kami telah membagi panggilan pendapatan setiap perusahaan menjadi beberapa paragraf, menyimpan hanya yang relevan, dan menetapkannya ke kategori ESG. Bagaimana kami dapat mengubah informasi ini menjadi bentuk yang memungkinkan kami menyelidiki korelasi antara panggilan pendapatan perusahaan dan peringkat ESG mereka?

Tujuan kami adalah memanfaatkan fakta bahwa transkrip panggilan pendapatan dapat dipisahkan menjadi bagian sambutan yang telah disiapkan dan sesi tanya jawab. Sementara pejabat perusahaan dapat bersiap-siap untuk bersinar di masa lalu, mereka biasanya harus menanggung yang terakhir tanpa persiapan. Kami mencoba menggunakan keadaan ini untuk menilai apakah sebuah perusahaan mencoba menghindari topik ESG yang sulit di bagian yang disiapkan, yang diangkat oleh analis atau investor selama sesi tanya jawab.

Dalam matematika murni, pendekatan ini dapat dirumuskan sebagai berikut. Pertama, kami menghitung setiap topik LST untuk setiap panggilan pendapatan dan setiap perusahaan:

Kemudian, kami memperkenalkan perbedaan antara hitungan dari sambutan yang telah disiapkan, dan sesi tanya jawab:

Terakhir, kami mendefinisikan topik yang disebutkan dalam sesi tanya jawab, tetapi tidak dalam sambutan yang disiapkan, sebagai berpotensi kontroversial:

Untuk menggabungkan jumlah ini untuk setiap perusahaan, kami menghitung rata-rata pendapatan:

dengan K adalah jumlah panggilan pendapatan per perusahaan yang kami kumpulkan.

Kita sekarang berakhir dengan variabel jumlah rata-rata cᵖʳᵉᵖᵃʳᵉᵈ⁻ʳᵉᵐᵃʳᵏˢ, c {Q&A}, cᵒᵛᵉʳᵃˡˡ, dan cᶜᵒⁿᵗʳᵒᵛᵉʳˢʸ. cᵖʳᵉᵖᵃʳᵉᵈ⁻ʳᵉᵐᵃʳᵏˢ dan c{Q&A} sangat berkorelasi dan, oleh karena itu, tidak boleh digunakan sebagai variabel dalam regresi linier. Oleh karena itu, kami menggunakan cᵒᵛᵉʳᵃˡˡ dan cᶜᵒⁿᵗʳᵒᵛᵉʳˢʸ sebagai fitur untuk mendeskripsikan setiap perusahaan.

Kami bereksperimen dengan rata-rata tak tertimbang sederhana dan rata-rata tertimbang yang memungkinkan kami untuk lebih menekankan penyebutan ESG dalam panggilan pendapatan baru-baru ini. Kami tidak menambahkan bobot ke rumus karena akan membuat pengindeksan membingungkan.

Pada titik ini, kami memiliki jumlah rata-rata penyebutan (tidak) tertimbang untuk setiap kategori per perusahaan untuk sambutan yang disiapkan dan sesi tanya jawab.

Tren ESG dari waktu ke waktu

Kami menganalisis fitur yang diekstraksi dari waktu ke waktu untuk mengidentifikasi potensi kelemahan dan menemukan masalah. Di bawah ini, kami memplot bagian panggilan pendapatan dengan setidaknya satu topik LST yang disebutkan dari waktu ke waktu. Kita dapat melihat bahwa selama bertahun-tahun, topik LST lebih sering dibahas selama panggilan pendapatan. Namun demikian, banyak panggilan pendapatan masih tidak mengandung penyebutan ESG. Kami juga mengidentifikasi puncaknya pada kuartal pertama tahun 2020.

Jumlah rata-rata panggilan pendapatan dengan setidaknya 1 penyebutan ESG selama bertahun-tahun. (gambar oleh penulis)

Pada gambar di bawah ini, kita bisa melihat rata-rata jumlah penyebutan per kategori ESG. Gambar tersebut memungkinkan kita untuk menjelaskan puncak yang kita amati sebelumnya. Dengan adanya pandemi yang dimulai pada akhir tahun 2019, banyak perusahaan harus memperhatikan masalah kesehatan dan keselamatan karyawannya. Kita dapat melihat puncak yang kuat dalam kategori tersebut pada kuartal pertama tahun 2020. Masalah LST lainnya seperti “Keterlibatan, inklusi, dan keragaman karyawan” juga meningkat pesat. Dengan gerakan “Kehidupan kulit hitam” dan “LGBTQ+” setelah pembunuhan George Floyd pada Mei 2020, kebijakan ini menjadi semakin penting bagi banyak perusahaan.

Jumlah rata-rata penyebutan berbagai kategori ESG selama bertahun-tahun. Grafik rapi dengan menghapus beberapa kategori yang berubah lebih sedikit dari waktu ke waktu. (gambar oleh penulis)

Mengkorelasikan penyebutan ESG dengan peringkat ESG

Setelah mengekstraksi dan melakukan pra-validasi fitur, kami menjalankan beberapa eksperimen untuk melihat apakah kami dapat membuat hubungan antara fitur yang diekstraksi dan peringkat. Kami menggabungkan fitur panggilan penghasilan dengan peringkat dan berakhir dengan 3222 titik data. Peringkat tersebut mengukur risiko ESG suatu perusahaan dan nilai yang lebih tinggi sesuai dengan kinerja ESG yang lebih buruk.

Kami melakukan pengujian hipotesis kemiringan regresi untuk mengevaluasi kemungkinan hubungan linier antara fitur yang diekstraksi dan peringkat ESG. Kami menguji dengan tingkat signifikansi 5%. Peringkat kami kira-kira terdistribusi secara normal.

Untuk menyederhanakan pengujian, kami menghitung jumlah total penyebutan per perusahaan

Kami menjalankan regresi linier dengan

di mana tᵒᵛᵉʳᵃˡˡ adalah jumlah rata-rata penyebutan ESG per panggilan pendapatan. tᶜᵒⁿᵗʳᵒᵛᵉʳˢʸ adalah metrik

Kami menggunakan “kelompok industri” sebagai variabel indikator karena peringkat rata-rata sangat berbeda dari satu industri ke industri lainnya. Kami mencatat skala log karena distribusi tampaknya mengikuti undang-undang kekuatan dengan sebagian besar perusahaan hanya memiliki beberapa penyebutan ESG dan beberapa perusahaan memiliki jumlah penyebutan ESG yang sangat tinggi. Kami mengganti penyebutan nol dengan min(number_of_mentions) / 2.

Ringkasan statistik model linier. Variabel dapat menjelaskan bagian wajar dari varian seperti yang dapat dilihat dengan skor R-kuadrat.

Nilai R-kuadrat dari model linier menunjukkan bahwa variabel kami mampu menjelaskan jumlah varian yang baik dalam peringkat. Sebagian besar varian dijelaskan oleh variabel indikator industri. Penambahan dua fitur kami tᵒᵛᵉʳᵃˡˡ dan tᶜᵒⁿᵗʳᵒᵛᵉʳˢʸ meningkatkan skor R-kuadrat dari 0,435 menjadi 0,461. Skor R-kuadrat yang disesuaikan, yang mengoreksi derajat kebebasan tambahan, ditingkatkan dari 0,428 menjadi 0,454.

Kami juga tertarik dengan lereng regresi dan perhatikan hal berikut

  • Kita dapat menolak hipotesis 0 dan menemukan hubungan linier negatif antara jumlah penyebutan tᵒᵛᵉʳᵃˡˡ dan risiko LST (Artinya semakin banyak penyebutan LST menyebabkan jumlah risiko LST yang lebih rendah). Kemiringan negatif didukung oleh intuisi kami bahwa lebih banyak penyebutan ESG akan mengarah pada penurunan risiko (kinerja ESG yang lebih baik).
  • Kami tidak dapat menolak hipotesis 0 untuk skor rata-rata kontroversi (tᶜᵒⁿᵗʳᵒᵛᵉʳˢʸ) pada tingkat signifikansi 5%. Sepertinya bukan ide bagus untuk membuat variabel ini.
  • Kemiringan variabel indikator kelompok industri semuanya signifikan pada tingkat 5%.
Rangkuman model linier dengan parameter yang paling penting misalnya kemiringan, kesalahan standar, dan uji-t yang sesuai.

Kesimpulan

Kami dapat membuat hubungan antara jumlah rata-rata penyebutan ESG dalam panggilan pendapatan dan peringkat perusahaan. Kami dapat berharap untuk memeras lebih banyak informasi dari penyebutan ESG dari berbagai kategori. Korelasi yang kuat antara fitur-fitur yang berbeda ini dan jumlah sampel yang terbatas menjadikannya tugas yang menantang.

Dalam pekerjaan kami selanjutnya, kami akan menyelidiki hubungan antara fitur dan peringkat pada tingkat yang lebih mendetail. Menyelidiki istilah interaksi potensial antara kelompok industri dan penyebutan ESG juga dapat membantu. Selanjutnya, kami akan mencoba meningkatkan prediksi dengan menggunakan sinyal yang berasal dari sumber dokumen lain.

Saya ingin mengucapkan terima kasih kepada supervisor saya Simon Häfeli dan Luc Seiler atas masukan dan diskusi mereka yang berharga selama magang dan Nicolas Hubacher dan Antoine Hue untuk tinjauan mendetail dari artikel tersebut. Terimakasih banyak :)