Métagénomique: identifier les séquences les plus courantes
Je travaille sur un projet et j'ai utilisé la commande suivante:
vsearch --derep_fulllength filtered_merged.fa -sizeout -relabel Uniq -output dereplicated_filtered_merged.fa
et a obtenu la sortie suivante:
87373926 nt in 203453 seqs, min 310, max 480, avg 352
Sorting 100%
10981 unique sequences, avg cluster 2.0, median 1, max 1287
Writing output file 100%
La sortie m'avait fourni les données que 10981 séquences uniques ont été identifiées. Mais je n'arrive pas à identifier le nombre de lectures de la séquence la plus courante présentes dans les données d'entrée.
Toutes les suggestions seront aimablement appréciées!
Réponses
Selon la documentation VSEARCH , depuis que vous avez spécifié --sizeout
vos abondances ont été écrites dans les en-têtes FASTA:
--sizeout
Tenez compte des annotations d'abondance présentes dans le fichier fasta d'entrée (recherchez le motif '[>;] size = integer [;]' dans les en-têtes de séquence). Cette option est active par défaut lors de la nouvelle réplication.
Ajoutez des annotations d'abondance au fichier fasta de sortie (ajoutez le modèle '; size = integer;' aux en-têtes de séquence). Si --sizein est spécifié, chaque séquence unique reçoit une nouvelle valeur d'abondance correspondant à son abondance totale (somme des abondances de ses occurrences). Si --sizein n'est pas spécifié, les abondances d'entrée sont définies sur 1 et chaque séquence unique reçoit une nouvelle valeur d'abondance correspondant à son nombre d'occurrences dans le fichier d'entrée.