Les mots comme gardiens : mesurer les termes et les significations spécifiques à une discipline dans les publications savantes

May 09 2023
Le texte savant est souvent chargé de jargon ou d'un langage spécialisé qui peut faciliter une communication efficace dans les domaines mais entraver la compréhension pour les étrangers. Le jargon évolue naturellement pour que les chercheurs et les universitaires puissent transmettre un sens succinct, mais il peut constituer une barrière entre les domaines, et entre les scientifiques et le grand public.
Nous mesurons le jargon scientifique, qui se compose de types de mots spécifiques à une discipline (bleu) et de sens (orange), dans le Semantic Scholar Open Research Corpus (S2ORC). L'extrait en haut à gauche provient d'un article sur l'optoélectronique de Satishkumar et al. (2000). Nous relions ces mesures à deux implications sociales clés impliquant la conception du public et le succès scientifique.

Le texte savant est souvent chargé de jargon ou d'un langage spécialisé qui peut faciliter une communication efficace dans les domaines mais entraver la compréhension pour les étrangers. Le jargon évolue naturellement pour que les chercheurs et les universitaires puissent transmettre un sens succinct, mais il peut constituer une barrière entre les domaines, et entre les scientifiques et le grand public.

Par exemple, des mots tels que jonction , diode et polarisation sont spécifiques au domaine de l'optoélectronique, comme le montre la figure ci-dessus. En particulier, le biais est surchargé de significations ou de sens différents selon les domaines, car il peut faire référence à la discrimination sociale, à une mauvaise estimation statistique ou à des courants électriques. Dans notre article , nous utilisons une approche de traitement du langage naturel (TLN) appelée induction du sens des mots pour démêler les sens des mots et montrons qu'ils peuvent être aussi spécialisés que les types de mots spécifiques à un domaine. Nous définissons le jargon comme étant à la fois des mots spécifiques à une discipline et des significations spécifiques à une discipline. Voir notre article sur les conclusions de l'ACL 2023pour une description détaillée de la façon dont nous opérationnalisons et validons notre mesure du jargon.

Exemples de types de mots spécifiques à une discipline (ci-dessus) et de sens de mots spécifiques à une discipline (ci-dessous). Pouvez-vous comprendre quelles significations surchargées les mots de la moitié inférieure ont dans leurs deux disciplines ? Consultez les tableaux complets de notre article pour vérifier si votre intuition est bonne !

Nous mesurons le jargon dans les résumés en anglais dans trois cents domaines d'études du Semantic Scholar Open Research Corpus (S2ORC). Nous constatons que si les sciences biologiques utilisent des types de mots très distinctifs, tels que les noms de molécules et de produits chimiques, les sous-domaines des mathématiques, de la technologie, de la physique et de l'économie ont tendance à réutiliser des mots existants avec des significations spécialisées. Par exemple, les mathématiciens réutilisent des mots courants tels que puissance , pôle , union , surface et origine .

Nous relions ces mesures du jargon savant à deux implications sociales clés, afin de mettre en valeur l'utilité de nos mesures pour la recherche en « science des sciences » et la sociolinguistique computationnelle, qui est l'étude de la relation entre les facteurs sociaux et le langage.

L'axe des abscisses est l'indice, ou l'endroit où nous sommes dans le résumé, du début à 0 au 100e mot. L'axe des ordonnées est la "jargonie" maximale moyenne du mot à cet indice. L'écart entre les différents types de revues est plus grand pour les résumés en ingénierie et en informatique que pour ceux en médecine et en biologie.

Tout d'abord, nous mesurons la conception de l'audience ou si les universitaires réduisent leur utilisation du jargon en fonction de la personne pour laquelle ils écrivent. Nous constatons que la plupart des domaines réduisent le jargon lorsqu'ils publient dans des revues multidisciplinaires à usage général telles que Nature , mais certains domaines le font plus que d'autres. Par exemple, dans la figure ci-dessus, l'informatique ajuste son contenu publié en fonction du lieu plus que ne le font la médecine et la biologie. Une explication possible de ce comportement est que les sites à usage général ont l'habitude d'être dirigés et dominés par les sciences biologiques et physiques. adapter leur langage plus que les autres.

Les colonnes « types » et « sens » affichent les coefficients de régression pour les fractions de mots ou de sens spécifiques à la discipline dans les résumés. Les variables dépendantes sont le nombre de citations et l'impact interdisciplinaire. Les coefficients significativement négatifs sont mis en évidence et "# obv." est le nombre d'observations. L'ampleur des coefficients n'est pas comparable d'une ligne à l'autre, car il s'agit de régressions distinctes. La « correction de Bonferroni » fait référence à un type de correction statistique pour tenir compte des comparaisons multiples.

Deuxièmement, nous examinons comment le langage spécifique à la discipline est associé à deux mesures distinctes du succès scientifique : le nombre de citations et l'impact interdisciplinaire . L'impact interdisciplinaire mesure la diversité des domaines qui citent un article. Nous avons exécuté des modèles de régression distincts pour chaque domaine, pour voir comment la relation entre le jargon et le succès peut différer d'un domaine à l'autre. Bien que la direction de la corrélation entre le jargon et les taux de citation varie, le jargon est presque toujours négativement corrélé avec l'impact interdisciplinaire.³

Combinés, nos résultats suggèrent que bien que certains domaines ne réduisent pas leur utilisation du jargon autant que d'autres dans les lieux à usage général, cette pratique peut entraver la communication interdisciplinaire. Cela ouvre une opportunité potentielle pour la reconsidération des normes d'écriture abstraite, en particulier pour les lieux qui ont l'intention de relier les disciplines.

[1] La lettre fondatrice de PLOS One et le lancement initial de Scientific Reports par Nature sont deux exemples d'origines de sites polyvalents.

[2] Par exemple, voir « But and Scope » de Nature .

[3] Notre étude n'est pas causale, mais ouvre la voie à de futures études sur les effets du jargon sur les connexions interdisciplinaires.

Suivez @allen_ai et @semanticscholar sur Twitter et abonnez-vous à la newsletter AI2 pour rester au courant des actualités et des recherches issues d'AI2.