Les mots comme gardiens : mesurer les termes et les significations spécifiques à une discipline dans les publications savantes
Le texte savant est souvent chargé de jargon ou d'un langage spécialisé qui peut faciliter une communication efficace dans les domaines mais entraver la compréhension pour les étrangers. Le jargon évolue naturellement pour que les chercheurs et les universitaires puissent transmettre un sens succinct, mais il peut constituer une barrière entre les domaines, et entre les scientifiques et le grand public.
Par exemple, des mots tels que jonction , diode et polarisation sont spécifiques au domaine de l'optoélectronique, comme le montre la figure ci-dessus. En particulier, le biais est surchargé de significations ou de sens différents selon les domaines, car il peut faire référence à la discrimination sociale, à une mauvaise estimation statistique ou à des courants électriques. Dans notre article , nous utilisons une approche de traitement du langage naturel (TLN) appelée induction du sens des mots pour démêler les sens des mots et montrons qu'ils peuvent être aussi spécialisés que les types de mots spécifiques à un domaine. Nous définissons le jargon comme étant à la fois des mots spécifiques à une discipline et des significations spécifiques à une discipline. Voir notre article sur les conclusions de l'ACL 2023pour une description détaillée de la façon dont nous opérationnalisons et validons notre mesure du jargon.
Nous mesurons le jargon dans les résumés en anglais dans trois cents domaines d'études du Semantic Scholar Open Research Corpus (S2ORC). Nous constatons que si les sciences biologiques utilisent des types de mots très distinctifs, tels que les noms de molécules et de produits chimiques, les sous-domaines des mathématiques, de la technologie, de la physique et de l'économie ont tendance à réutiliser des mots existants avec des significations spécialisées. Par exemple, les mathématiciens réutilisent des mots courants tels que puissance , pôle , union , surface et origine .
Nous relions ces mesures du jargon savant à deux implications sociales clés, afin de mettre en valeur l'utilité de nos mesures pour la recherche en « science des sciences » et la sociolinguistique computationnelle, qui est l'étude de la relation entre les facteurs sociaux et le langage.
Tout d'abord, nous mesurons la conception de l'audience ou si les universitaires réduisent leur utilisation du jargon en fonction de la personne pour laquelle ils écrivent. Nous constatons que la plupart des domaines réduisent le jargon lorsqu'ils publient dans des revues multidisciplinaires à usage général telles que Nature , mais certains domaines le font plus que d'autres. Par exemple, dans la figure ci-dessus, l'informatique ajuste son contenu publié en fonction du lieu plus que ne le font la médecine et la biologie. Une explication possible de ce comportement est que les sites à usage général ont l'habitude d'être dirigés et dominés par les sciences biologiques et physiques. adapter leur langage plus que les autres.
Deuxièmement, nous examinons comment le langage spécifique à la discipline est associé à deux mesures distinctes du succès scientifique : le nombre de citations et l'impact interdisciplinaire . L'impact interdisciplinaire mesure la diversité des domaines qui citent un article. Nous avons exécuté des modèles de régression distincts pour chaque domaine, pour voir comment la relation entre le jargon et le succès peut différer d'un domaine à l'autre. Bien que la direction de la corrélation entre le jargon et les taux de citation varie, le jargon est presque toujours négativement corrélé avec l'impact interdisciplinaire.³
Combinés, nos résultats suggèrent que bien que certains domaines ne réduisent pas leur utilisation du jargon autant que d'autres dans les lieux à usage général, cette pratique peut entraver la communication interdisciplinaire. Cela ouvre une opportunité potentielle pour la reconsidération des normes d'écriture abstraite, en particulier pour les lieux qui ont l'intention de relier les disciplines.
[1] La lettre fondatrice de PLOS One et le lancement initial de Scientific Reports par Nature sont deux exemples d'origines de sites polyvalents.
[2] Par exemple, voir « But and Scope » de Nature .
[3] Notre étude n'est pas causale, mais ouvre la voie à de futures études sur les effets du jargon sur les connexions interdisciplinaires.
Suivez @allen_ai et @semanticscholar sur Twitter et abonnez-vous à la newsletter AI2 pour rester au courant des actualités et des recherches issues d'AI2.