Kata-kata sebagai Penjaga Gerbang: Mengukur Istilah dan Makna Khusus Disiplin dalam Publikasi Ilmiah

May 09 2023
Teks ilmiah seringkali sarat dengan jargon, atau bahasa khusus yang dapat memfasilitasi komunikasi yang efisien di dalam bidang tetapi menghalangi pemahaman bagi orang luar. Jargon secara alami berkembang sehingga peneliti dan sarjana dapat menyampaikan makna secara ringkas, tetapi dapat menjadi penghalang antar bidang, dan antara ilmuwan dan masyarakat umum.
Kami mengukur jargon ilmiah, yang terdiri dari jenis kata khusus disiplin ilmu (biru) dan indra (oranye), dalam Semantic Scholar Open Research Corpus (S2ORC). Kutipan kiri atas adalah dari makalah optoelektronik oleh Satishkumar et al. (2000). Kami menghubungkan pengukuran ini dengan dua implikasi sosial utama yang melibatkan desain audiens dan kesuksesan ilmiah.

Teks ilmiah sering sarat dengan jargon , atau bahasa khusus yang dapat memfasilitasi komunikasi yang efisien dalam bidang tetapi menghambat pemahaman bagi orang luar. Jargon secara alami berkembang sehingga peneliti dan sarjana dapat menyampaikan makna secara ringkas, tetapi dapat menjadi penghalang antar bidang, dan antara ilmuwan dan masyarakat umum.

Misalnya, kata-kata seperti persimpangan , dioda, dan bias khusus untuk bidang optoelektronik, seperti yang ditunjukkan pada gambar di atas. Secara khusus, bias dipenuhi dengan berbagai makna, atau pengertian , lintas bidang, karena dapat merujuk pada diskriminasi sosial, kesalahan estimasi statistik, atau arus listrik. Dalam makalah kami , kami menggunakan pendekatan pemrosesan bahasa alami (NLP) yang disebut induksi pengertian kata untuk menguraikan pengertian kata-kata, dan menunjukkan bahwa kata-kata tersebut dapat dikhususkan seperti jenis kata khusus bidang. Kami mendefinisikan jargon sebagai kata-kata khusus disiplin dan makna khusus disiplin. Lihat makalah Temuan ACL 2023 kamiuntuk penjelasan mendetail tentang cara kami mengoperasionalkan dan memvalidasi ukuran jargon kami.

Contoh jenis kata khusus disiplin (di atas), dan pengertian kata khusus disiplin (di bawah). Bisakah Anda mencari tahu apa arti kelebihan kata-kata di bagian bawah di kedua disiplin ilmu mereka? Lihat tabel lengkap di makalah kami untuk memeriksa apakah intuisi Anda benar!

Kami mengukur jargon dalam abstrak bahasa Inggris di tiga ratus bidang studi dari Semantic Scholar Open Research Corpus (S2ORC). Kami menemukan bahwa meskipun ilmu biologi menggunakan jenis kata yang sangat khas, seperti nama molekul dan bahan kimia, subbidang dalam matematika, teknologi, fisika, dan ekonomi cenderung menggunakan kembali kata yang ada dengan arti khusus. Misalnya, ahli matematika menggunakan kembali kata-kata umum seperti kekuatan , kutub , penyatuan , permukaan , dan asal.

Kami menghubungkan pengukuran jargon ilmiah ini dengan dua implikasi sosial utama, untuk menunjukkan kegunaan metrik kami untuk penelitian "sains sains" dan sosiolinguistik komputasi, yang merupakan studi tentang bagaimana faktor sosial berhubungan dengan bahasa.

Sumbu x adalah indeks, atau tempat kita berada dalam abstrak, dari awal kata 0 hingga kata ke-100. Sumbu y adalah "jargoni" maksimum rata-rata kata pada indeks tersebut. Kesenjangan antara berbagai jenis jurnal lebih besar untuk abstrak di bidang teknik dan ilmu komputer daripada di bidang kedokteran dan biologi.

Pertama, kami mengukur desain audiens , atau apakah sarjana mengurangi penggunaan jargon tergantung pada siapa mereka menulis. Kami menemukan bahwa sebagian besar bidang mengurangi jargon saat menerbitkan jurnal multidisiplin tujuan umum seperti Nature , tetapi beberapa bidang melakukannya lebih dari yang lain. Misalnya, pada gambar di atas, ilmu komputer lebih menyesuaikan konten yang dipublikasikan berdasarkan tempat daripada kedokteran dan biologi. Penjelasan yang mungkin untuk perilaku ini adalah bahwa tempat tujuan umum memiliki sejarah yang dipimpin dan didominasi oleh ilmu biologi dan fisika.¹ Jadi, meskipun tempat "tujuan umum" mungkin dimaksudkan untuk semua ilmu pengetahuan,² beberapa bidang diharapkan untuk menyesuaikan bahasa mereka lebih dari yang lain.

Kolom "tipe" dan "indera" menunjukkan koefisien regresi untuk pecahan kata atau indra khusus disiplin dalam abstrak. Variabel dependen adalah jumlah kutipan dan dampak interdisipliner. Koefisien negatif yang signifikan disorot, dan “# obv.” adalah jumlah pengamatan. Besarnya koefisien tidak dapat dibandingkan antar baris, karena masing-masing merupakan regresi yang terpisah. "Koreksi Bonferroni" mengacu pada jenis koreksi statistik untuk memperhitungkan beberapa perbandingan.

Kedua, kami memeriksa bagaimana bahasa khusus disiplin dikaitkan dengan dua ukuran keberhasilan ilmiah yang berbeda: jumlah kutipan dan dampak interdisipliner . Dampak interdisipliner mengukur keragaman bidang yang mengutip makalah. Kami menjalankan model regresi terpisah untuk setiap bidang, untuk melihat bagaimana hubungan antara jargon dan kesuksesan mungkin berbeda di antara mereka. Meskipun arah korelasi antara jargon dan tingkat kutipan bervariasi, jargon hampir selalu berkorelasi negatif dengan dampak interdisipliner.³

Gabungan, temuan kami menunjukkan bahwa meskipun beberapa bidang tidak mengurangi penggunaan jargon sebanyak yang lain di tempat tujuan umum, praktik ini dapat menghambat komunikasi interdisipliner. Ini membuka peluang potensial untuk meninjau kembali norma penulisan abstrak, terutama untuk tempat yang bermaksud menjembatani disiplin ilmu.

[1] Surat pendirian PLOS One dan peluncuran awal Nature's Scientific Reports adalah dua contoh asal-usul venue tujuan umum.

[2] Sebagai contoh, lihat “ Aim and Scope ” dari Nature .

[3] Studi kami tidak kausal, tetapi memberikan jalan ke depan untuk studi masa depan sekitar efek jargon pada koneksi interdisipliner.

Ikuti @allen_ai dan @semanticscholar di Twitter, dan berlangganan Buletin AI2 untuk tetap mengikuti berita dan penelitian yang keluar dari AI2.