คำพูดในฐานะผู้เฝ้าประตู: การวัดข้อกำหนดและความหมายเฉพาะของระเบียบวินัยในสิ่งพิมพ์ทางวิชาการ

May 09 2023
ข้อความทางวิชาการมักเต็มไปด้วยศัพท์แสงหรือภาษาพิเศษที่สามารถอำนวยความสะดวกในการสื่อสารอย่างมีประสิทธิภาพภายในสาขา แต่ขัดขวางความเข้าใจสำหรับบุคคลภายนอก ศัพท์แสงมีวิวัฒนาการตามธรรมชาติเพื่อให้นักวิจัยและนักวิชาการสามารถสื่อความหมายอย่างรวบรัด แต่อาจเป็นอุปสรรคระหว่างสาขา และระหว่างนักวิทยาศาสตร์กับสาธารณชนทั่วไป
เราวัดศัพท์เฉพาะทางวิชาการซึ่งประกอบด้วยประเภทคำเฉพาะสาขาวิชา (สีน้ำเงิน) และประสาทสัมผัส (สีส้ม) ใน Semantic Scholar Open Research Corpus (S2ORC) ข้อความที่ตัดตอนมาด้านซ้ายบนมาจากกระดาษออปโตอิเล็กทรอนิกส์โดย Satishkumar et al (2543). เราเชื่อมโยงการวัดผลเหล่านี้กับนัยสำคัญทางสังคมสองประการที่เกี่ยวข้องกับการออกแบบผู้ชมและความสำเร็จทางวิทยาศาสตร์

ข้อความทางวิชาการมักเต็มไปด้วยศัพท์แสงหรือภาษาพิเศษที่สามารถอำนวยความสะดวกในการสื่อสารอย่างมีประสิทธิภาพภายในสาขา แต่ขัดขวางความเข้าใจสำหรับบุคคลภายนอก ศัพท์แสงมีวิวัฒนาการตามธรรมชาติเพื่อให้นักวิจัยและนักวิชาการสามารถสื่อความหมายอย่างรวบรัด แต่อาจเป็นอุปสรรคระหว่างสาขา และระหว่างนักวิทยาศาสตร์กับสาธารณชนทั่วไป

ตัวอย่างเช่น คำต่างๆ เช่นสนธิไดโอดและไบอัสเป็นคำเฉพาะสำหรับฟิลด์ของออปโตอิเล็กทรอนิกส์ ดังแสดงในรูปด้านบน โดยเฉพาะอย่างยิ่งความลำเอียงนั้นเต็มไปด้วยความหมายหรือความรู้สึก ที่แตกต่าง กันไปในทุกแขนง เนื่องจากมันสามารถอ้างถึงการเลือกปฏิบัติทางสังคม การประมาณค่าทางสถิติที่ไม่ถูกต้อง หรือกระแสไฟฟ้า ในบทความของเราเราใช้วิธีการประมวลผลภาษาธรรมชาติ (NLP) ที่เรียกว่าการเหนี่ยวนำความรู้สึกของคำเพื่อแยกประสาทสัมผัสของคำ และแสดงให้เห็นว่าพวกเขาสามารถเชี่ยวชาญได้พอๆ กับประเภทคำเฉพาะฟิลด์ เรากำหนดศัพท์แสงเป็นทั้งคำเฉพาะวินัยและความหมายเฉพาะวินัย ดูผลการวิจัย ACL 2023 ของเราสำหรับคำอธิบายโดยละเอียดเกี่ยวกับวิธีที่เราดำเนินการและตรวจสอบการวัดศัพท์แสงของเรา

ตัวอย่างประเภทคำเฉพาะสาขาวิชา (ด้านบน) และความหมายของคำเฉพาะสาขาวิชา (ด้านล่าง) คุณคิดออกไหมว่าคำว่า overloaded มีความหมายอย่างไรในครึ่งล่างของทั้งสองกลุ่ม ดูตารางทั้งหมดในเอกสารของเราเพื่อตรวจสอบว่าสัญชาตญาณของคุณถูกต้องหรือไม่!

เราวัดศัพท์แสงในบทคัดย่อภาษาอังกฤษในสาขาการศึกษาสามร้อยแห่งจากSemantic Scholar Open Research Corpus (S2ORC) เราพบว่าในขณะที่วิทยาศาสตร์ชีวภาพใช้ประเภทคำที่โดดเด่นมาก เช่น ชื่อของโมเลกุลและสารเคมี สาขาย่อยในคณิตศาสตร์ เทคโนโลยี ฟิสิกส์ และเศรษฐศาสตร์ มักจะนำคำที่มีอยู่แล้วมาใช้ใหม่โดยมีความหมายเฉพาะ ตัวอย่างเช่น นักคณิตศาสตร์นำคำทั่วไปมาใช้ใหม่ เช่นอำนาจ , ขั้ว , สหภาพ , พื้นผิวและต้นกำเนิด

เราเชื่อมโยงการวัดศัพท์แสงทางวิชาการเหล่านี้เข้ากับความหมายทางสังคมที่สำคัญสองประการ เพื่อแสดงประโยชน์ของเมตริกของเราสำหรับการวิจัย "ศาสตร์แห่งวิทยาศาสตร์" และภาษาศาสตร์สังคมเชิงคำนวณ ซึ่งเป็นการศึกษาว่าปัจจัยทางสังคมมีความสัมพันธ์กับภาษาอย่างไร

แกน x คือดัชนีหรือตำแหน่งที่เราอยู่ในนามธรรม จากจุดเริ่มต้นที่ 0 ถึงคำที่ 100 แกน y คือ "ศัพท์แสง-ness" สูงสุดโดยเฉลี่ยของคำที่ดัชนีนั้น ช่องว่างระหว่างวารสารประเภทต่างๆ นั้นกว้างกว่าสำหรับบทคัดย่อในสาขาวิศวกรรมศาสตร์และวิทยาการคอมพิวเตอร์มากกว่าวารสารทางการแพทย์และชีววิทยา

ขั้นแรก เราวัดการออกแบบผู้ชมหรือว่านักวิชาการลดการใช้ศัพท์เฉพาะขึ้นอยู่กับว่าพวกเขาเขียนถึงใคร เราพบว่าฟิลด์ส่วนใหญ่ลดศัพท์แสงลงเมื่อเผยแพร่ในวารสารสหสาขาวิชาชีพทั่วไป เช่นNatureแต่บางฟิลด์ทำมากกว่าฟิลด์อื่น ตัวอย่างเช่น ในรูปด้านบน วิทยาการคอมพิวเตอร์ปรับเนื้อหาที่เผยแพร่ตามสถานที่มากกว่าการแพทย์และชีววิทยา คำอธิบายที่เป็นไปได้สำหรับพฤติกรรมนี้ก็คือ สถานที่จัดงานทั่วไปมีประวัติว่าถูกครอบงำโดยวิทยาศาสตร์ชีวภาพและกายภาพ¹ ดังนั้น แม้ว่าสถานที่ "วัตถุประสงค์ทั่วไป" อาจตั้งใจให้เป็นสถานที่สำหรับวิทยาศาสตร์ทั้งหมด² คาดว่าจะมีบางสาขา เพื่อปรับภาษาของพวกเขาให้มากกว่าคนอื่น

คอลัมน์ "ประเภท" และ "ความรู้สึก" แสดงค่าสัมประสิทธิ์การถดถอยสำหรับเศษส่วนของคำหรือความรู้สึกที่เฉพาะเจาะจงในระเบียบวินัยในนามธรรม ตัวแปรตามคือจำนวนการอ้างอิงและผลกระทบสหวิทยาการ มีการเน้นค่าสัมประสิทธิ์เชิงลบที่มีนัยสำคัญ และ “# obv” คือจำนวนการสังเกต ขนาดของค่าสัมประสิทธิ์ไม่สามารถเปรียบเทียบกันได้ในทุกแถว เนื่องจากแต่ละค่ามีการถดถอยแยกกัน “การแก้ไข Bonferroni” หมายถึงประเภทของการแก้ไขทางสถิติเพื่ออธิบายการเปรียบเทียบหลายรายการ

ประการที่สอง เราตรวจสอบว่าภาษาเฉพาะสาขาวิชามี ความเกี่ยวข้องกับการวัดความสำเร็จทางวิทยาศาสตร์สองแบบที่แตกต่างกันอย่างไร: จำนวนการอ้างอิงและผลกระทบแบบสหวิทยาการ ผลกระทบสหวิทยาการวัดความหลากหลายของสาขาที่อ้างอิงบทความ เราเรียกใช้โมเดลการถดถอยแยกกันสำหรับแต่ละฟิลด์ เพื่อดูว่าความสัมพันธ์ระหว่างศัพท์เฉพาะและความสำเร็จอาจแตกต่างกันอย่างไร แม้ว่าทิศทางของความสัมพันธ์ระหว่างศัพท์เฉพาะและอัตราการอ้างอิงจะแตกต่างกันไป แต่ศัพท์เฉพาะมักมีความสัมพันธ์เชิงลบกับผลกระทบของสหวิทยาการอยู่เสมอ³

เมื่อรวมกันแล้ว การค้นพบของเราชี้ให้เห็นว่าแม้ว่าบางสาขาจะไม่ลดการใช้ศัพท์เฉพาะลงมากเท่ากับสาขาอื่นๆ ในสถานที่ทั่วไป แต่การปฏิบัตินี้อาจเป็นอุปสรรคต่อการสื่อสารแบบสหวิทยาการ สิ่งนี้เปิดโอกาสที่เป็นไปได้สำหรับการพิจารณาบรรทัดฐานการเขียนนามธรรมใหม่ โดยเฉพาะอย่างยิ่งสำหรับสถานที่ที่ตั้งใจที่จะเชื่อมโยงระเบียบวินัย

[1] จดหมายก่อตั้งของPLOS One และการเปิดตัว รายงานทางวิทยาศาสตร์ครั้งแรกของ Nature เป็นสองตัวอย่างที่มาของสถานที่จัดงานทั่วไป

[2] ตัวอย่างเช่น ดู “ จุดมุ่งหมายและขอบเขต ” ของธรรมชาติ

[3] การศึกษาของเราไม่ใช่การศึกษาเชิงสาเหตุ แต่เป็นเส้นทางไปข้างหน้าสำหรับการศึกษาในอนาคตเกี่ยวกับผลกระทบของศัพท์แสงที่มีต่อความสัมพันธ์แบบสหวิทยาการ

ติดตาม@allen_aiและ@semanticscholarบน Twitter และสมัครรับจดหมายข่าว AI2เพื่อติดตามข่าวสารล่าสุดและการวิจัยที่ออกมาจาก AI2