Metagenómica: identificación de secuencias más comunes

Nov 27 2020

Estoy trabajando en un proyecto y utilicé el siguiente comando:

vsearch --derep_fulllength filtered_merged.fa -sizeout -relabel Uniq -output dereplicated_filtered_merged.fa

y obtuve el siguiente resultado:

87373926 nt in 203453 seqs, min 310, max 480, avg 352
Sorting 100%
10981 unique sequences, avg cluster 2.0, median 1, max 1287
Writing output file 100% 

El resultado me había proporcionado los datos de que se han identificado 10981 secuencias únicas. Pero parece que no puedo identificar cuántas lecturas de la secuencia más común estaban presentes en los datos de entrada.

¡Cualquier sugerencia será muy apreciada!

Respuestas

1 MaximilianPress Nov 28 2020 at 03:53

De acuerdo con los documentos de VSEARCH , dado que ha especificado --sizeoutsus abundancias, se han escrito en los encabezados de FASTA:

--tamaño

Tenga en cuenta las anotaciones de abundancia presentes en el archivo fasta de entrada (busque el patrón '[>;] size = integer [;]' en los encabezados de secuencia). Esa opción está activa de forma predeterminada al volver a replicar.

Agregue anotaciones de abundancia al archivo fasta de salida (agregue el patrón '; size = integer;' a los encabezados de secuencia). Si se especifica --sizein, cada secuencia única recibe un nuevo valor de abundancia correspondiente a su abundancia total (suma de las abundancias de sus ocurrencias). Si no se especifica --sizein, las abundancias de entrada se establecen en 1 y cada secuencia única recibe un nuevo valor de abundancia correspondiente a su número de ocurrencias en el archivo de entrada.