Métagénomique: identifier les séquences les plus courantes

Nov 27 2020

Je travaille sur un projet et j'ai utilisé la commande suivante:

vsearch --derep_fulllength filtered_merged.fa -sizeout -relabel Uniq -output dereplicated_filtered_merged.fa

et a obtenu la sortie suivante:

87373926 nt in 203453 seqs, min 310, max 480, avg 352
Sorting 100%
10981 unique sequences, avg cluster 2.0, median 1, max 1287
Writing output file 100% 

La sortie m'avait fourni les données que 10981 séquences uniques ont été identifiées. Mais je n'arrive pas à identifier le nombre de lectures de la séquence la plus courante présentes dans les données d'entrée.

Toutes les suggestions seront aimablement appréciées!

Réponses

1 MaximilianPress Nov 28 2020 at 03:53

Selon la documentation VSEARCH , depuis que vous avez spécifié --sizeoutvos abondances ont été écrites dans les en-têtes FASTA:

--sizeout

Tenez compte des annotations d'abondance présentes dans le fichier fasta d'entrée (recherchez le motif '[>;] size = integer [;]' dans les en-têtes de séquence). Cette option est active par défaut lors de la nouvelle réplication.

Ajoutez des annotations d'abondance au fichier fasta de sortie (ajoutez le modèle '; size = integer;' aux en-têtes de séquence). Si --sizein est spécifié, chaque séquence unique reçoit une nouvelle valeur d'abondance correspondant à son abondance totale (somme des abondances de ses occurrences). Si --sizein n'est pas spécifié, les abondances d'entrée sont définies sur 1 et chaque séquence unique reçoit une nouvelle valeur d'abondance correspondant à son nombre d'occurrences dans le fichier d'entrée.