Revisione della letteratura con NaimAI, open source!

Dec 08 2022
Introduzione Ho sviluppato NaimAI per aiutare i dottori di ricerca (e gli scienziati in generale) nella revisione della loro letteratura. Ho dettagliato le primissime versioni dell'algoritmo in articoli precedenti (qui e qui).

Introduzione

Ho sviluppato NaimAI per aiutare i dottori di ricerca (e gli scienziati in generale) con la revisione della loro letteratura. Ho dettagliato le primissime versioni dell'algoritmo in articoli precedenti ( qui e qui ). In questo articolo voglio condividere con voi le caratteristiche principali della versione attuale. Spiegherò prima la funzione di ricerca, la funzione di revisione, quindi gli elementi che vorrei migliorare con la comunità open source (che sembrano utili ma non ho potuto svilupparlo da solo a causa dei limiti di tempo).

E a proposito, NaimAI è open source . :)

Funzione di ricerca

In questa versione vengono utilizzati circa 10 milioni di abstract ad accesso aperto. NaimAI struttura automaticamente qualsiasi abstract in tre sezioni: Obiettivi, Metodi e Risultati.

Per cercare in NaimAI , si inizia scegliendo uno dei 10 campi, quindi si effettua la ricerca utilizzando parole chiave. È possibile utilizzare alcuni operatori di ricerca ( come spiegato sul sito Web ). Una volta effettuata la ricerca dell'utente, i risultati vengono estratti da ogni abstract e mostrati nella loro categoria (obiettivi, metodi o risultati del paper). Se vuoi accedere all'abstract strutturato, puoi cliccare sul risultato della scheda.

Puoi anche cercare nei tuoi articoli PDF. In tal caso, la stessa pipeline applicata ai 10 milioni di documenti viene applicata ai tuoi PDF quando vengono caricati nella scheda "Personalizzato". Quindi puoi cercare tra i tuoi documenti caricati di recente.

Funzionalità di revisione

Dopo i risultati della ricerca, l'utente può rivedere tutti i risultati (facendo clic su Genera una recensione) o selezionare solo alcuni documenti desiderati. Quello che succede qui è che la frase oggettiva dell'articolo viene riformulata in Discorso riportato (X et al. 2022 hanno mostrato che..) per ogni articolo. Inoltre viene generato l'elenco dei riferimenti. Il testo totale della recensione può quindi essere esportato in formato Word.

Nota qui che puoi rivedere anche i tuoi documenti (nella scheda Personalizzato) una volta caricati i tuoi documenti PDF.

Progetto opensource

Ho aperto NaimAI e i modelli sono disponibili su huggingface . In questo modo, possiamo tutti migliorare gli algoritmi per la comunità degli scienziati, una specie di "ricerca letteraria da scienziati a scienziati"!

Ci sono alcuni esempi di colab in modo che tu possa elaborare i tuoi documenti, cercarli e persino rivederli usando NaimAI, come spiegato inhttps://github.com/yassinekdi/naimai.

Molti oggetti devono ancora essere migliorati, quindi sarebbe fantastico se potessimo migliorare questi oggetti insieme!

Elementi da migliorare con la comunità open source

Ecco alcuni elementi utili che vorrei sviluppare e per i quali penso che la comunità potrebbe aiutare:

Recensione Generazione

Il metodo effettivo consiste solo nel riformulare la frase oggettiva di ciascun articolo. Ho qualche idea per andare oltre e migliorare la parte di generazione delle recensioni. Fammi sapere se sei interessato e lo faremo insieme!

Oltre al testo generato, la generazione dei riferimenti può ancora essere rispolverata per soddisfare molti stili di riferimento e anche per esportarla in altri formati (BibTeX..).

Ricerca semantica

La ricerca si basa principalmente su un algoritmo semantico v0 (utilizzando principalmente il modello TfIdf). In una versione precedente, ho messo a punto il modello Bert per ogni campo ei risultati sono stati piuttosto interessanti. Il problema è che, con 10 campi, ho finito per avere 10 modelli ottimizzati. Quindi l'utilizzo era piuttosto lento e i modelli erano pesanti (non la migliore esperienza utente). Se hai qualche idea e/o vuoi contribuire a questa parte, sarò felice di parlarti!

Documenti dati

Ho utilizzato circa 10 milioni di abstract ad accesso aperto che ho trovato qua e là su Internet. Se hai qualche fonte che potrebbe essere utile, o ancora meglio, se possiamo elaborare molti più documenti insieme per ottenere più informazioni per gli utenti, sarebbe fantastico!

Altro

Se vuoi contribuire in qualsiasi altro modo, sarò felice di sentirti :)

Rimani in contatto:

Reddit , Twitter , Facebook .