Bekçi Olarak Kelimeler: Bilimsel Yayınlarda Disipline Özgü Terimleri ve Anlamları Ölçme

May 09 2023
Bilimsel metinler genellikle, alanlar içinde verimli iletişimi kolaylaştırabilen ancak dışarıdan gelenlerin anlamasını engelleyebilen jargonla veya özel bir dille doludur. Jargon, araştırmacıların ve akademisyenlerin anlamı kısa ve öz bir şekilde iletebilmesi için doğal olarak gelişir, ancak alanlar arasında ve bilim adamları ile genel halk arasında bir engel olabilir.
Semantic Scholar Open Research Corpus'ta (S2ORC) disipline özgü kelime türlerinden (mavi) ve duyulardan (turuncu) oluşan bilimsel jargonu ölçüyoruz. Sol üstteki alıntı, Satishkumar ve diğerleri tarafından yazılan bir optoelektronik makalesinden alınmıştır. (2000). Bu ölçümleri, izleyici tasarımı ve bilimsel başarıyı içeren iki temel sosyal sonuçla ilişkilendiriyoruz.

Bilimsel metinler genellikle , alanlar içinde verimli iletişimi kolaylaştırabilen ancak dışarıdan gelenlerin anlamasını engelleyebilen jargonla veya özel bir dille yüklüdür . Jargon, araştırmacıların ve akademisyenlerin anlamı kısa ve öz bir şekilde iletebilmesi için doğal olarak gelişir, ancak alanlar arasında ve bilim adamları ile genel halk arasında bir engel olabilir.

Örneğin, bağlantı , diyot ve önyargı gibi kelimeler , yukarıdaki şekilde gösterildiği gibi optoelektronik alanına özgüdür. Özellikle önyargı , sosyal ayrımcılığa, istatistiksel yanlış tahmine veya elektrik akımlarına atıfta bulunabileceğinden, alanlar arasında farklı anlamlar veya duyularla aşırı yüklenir . Makalemizde , kelimelerin anlamlarını çözmek için kelime duyusu indüksiyonu adı verilen bir doğal dil işleme (NLP) yaklaşımı kullanıyoruz ve bunların alana özgü kelime türleri kadar uzmanlaşmış olabileceğini gösteriyoruz. Jargonu hem disipline özgü kelimeler hem de disipline özgü anlamlar olarak tanımlıyoruz. ACL 2023 raporuna ilişkin Bulgularımıza bakınJargon ölçümümüzü nasıl işler hale getirdiğimizin ve doğruladığımızın ayrıntılı bir açıklaması için.

Disipline özgü kelime türleri (yukarıda) ve disipline özgü kelime anlamlarının örnekleri (aşağıda). Alt yarıdaki kelimelerin iki disiplinde ne gibi aşırı yüklenmiş anlamları olduğunu anlayabilir misin? Sezginizin doğru olup olmadığını kontrol etmek için makalemizdeki tam tablolara bakın!

Semantic Scholar Open Research Corpus'tan (S2ORC) üç yüz çalışma alanında İngilizce özetlerdeki jargonu ölçüyoruz . Biyolojik bilimler moleküllerin ve kimyasalların adları gibi çok farklı kelime türlerini kullanırken, matematik, teknoloji, fizik ve ekonomideki alt alanların mevcut sözcükleri özel anlamlarla yeniden kullanma eğiliminde olduğunu görüyoruz. Örneğin, matematikçiler güç , kutup , birleşim , yüzey ve köken gibi yaygın sözcükleri yeniden kullanırlar.

"Bilim bilimi" araştırması ve sosyal faktörlerin dille nasıl ilişkili olduğunun incelenmesi olan hesaplamalı toplumdilbilim için ölçümlerimizin faydasını göstermek için bu bilimsel jargon ölçümlerini iki temel sosyal çıkarımla ilişkilendiriyoruz.

X ekseni, 0'dan 100. kelimeye kadar olan dizin veya özette bulunduğumuz yerdir. Y ekseni, o dizindeki kelimenin ortalama maksimum "jargoniliği"dir. Farklı dergi türleri arasındaki boşluk, mühendislik ve bilgisayar bilimlerindeki özetler için tıp ve biyolojideki özetlerden daha fazladır.

İlk olarak, hedef kitle tasarımını veya akademisyenlerin kimin için yazdıklarına bağlı olarak jargon kullanımlarını azaltıp azaltmadıklarını ölçeriz . Nature gibi genel amaçlı, çok disiplinli dergilerde yayın yaparken çoğu alanın jargonu azalttığını görüyoruz , ancak bazı alanlar bunu diğerlerinden daha fazla yapıyor. Örneğin, yukarıdaki şekilde bilgisayar bilimi, yayınlanan içeriğini tıp ve biyolojiye göre mekana göre daha fazla ayarlar. Bu davranışın olası bir açıklaması, genel amaçlı mekanların biyolojik ve fiziksel bilimler tarafından yönetilme ve hakim olma geçmişine sahip olmasıdır.¹ Bu nedenle, "genel amaçlı" mekanların tüm bilim için olması amaçlanmış olsa da² bazı alanlarda bu davranış beklenir. dillerini diğerlerinden daha fazla uyarlamak.

"Türler" ve "duyular" sütunları, özetlerdeki disipline özgü kelime veya anlamların kesirleri için regresyon katsayılarını gösterir. Bağımlı değişkenler alıntı sayısı ve disiplinler arası etkidir. Önemli ölçüde negatif katsayılar vurgulanır ve "# obv." gözlem sayısıdır. Her biri ayrı regresyon olduğundan, katsayıların büyüklüğü satırlar arasında karşılaştırılamaz. "Bonferroni düzeltmesi", çoklu karşılaştırmaları hesaba katan bir tür istatistiksel düzeltmeyi ifade eder.

İkinci olarak, disipline özgü dilin iki farklı bilimsel başarı ölçüsü ile nasıl ilişkili olduğunu inceliyoruz: alıntı sayısı ve disiplinler arası etki . Disiplinlerarası etki, bir makaleden alıntı yapılan alanların çeşitliliğini ölçer. Jargon ve başarı arasındaki ilişkinin alanlar arasında nasıl farklılık gösterebileceğini görmek için her alan için ayrı regresyon modelleri çalıştırdık. Jargon ve atıf oranları arasındaki ilişkinin yönü değişse de, jargon neredeyse her zaman disiplinler arası etki ile negatif ilişkilidir.³

Birleştirildiğinde, bulgularımız, bazı alanların jargon kullanımını genel amaçlı mekanlarda diğerleri kadar azaltmasa da, bu uygulamanın disiplinler arası iletişimi engelleyebileceğini göstermektedir. Bu, özellikle disiplinler arasında köprü kurmayı amaçlayan mekanlar için soyut yazı normlarının yeniden değerlendirilmesi için potansiyel bir fırsat açar.

[1] PLOS One'ın kuruluş mektubu ve Nature'ın Scientific Reports'u ilk lansmanı, genel amaçlı mekanların kökenlerine iki örnektir.

[2] Örneğin, Nature'ın “ Amaç ve Kapsam ” bölümüne bakın.

[3] Çalışmamız nedensel değildir, ancak jargonun disiplinler arası bağlantılar üzerindeki etkileri etrafında gelecekteki çalışmalar için ileriye dönük bir yol sağlar.

AI2'den çıkan haberler ve araştırmalardan haberdar olmak için Twitter'da @allen_ai ve @semanticscholar'ı takip edin ve AI2 Bültenine abone olun.