Metagenômica: Identificando as sequências mais comuns
Estou trabalhando em um projeto e usei o seguinte comando:
vsearch --derep_fulllength filtered_merged.fa -sizeout -relabel Uniq -output dereplicated_filtered_merged.fa
e obteve o seguinte resultado:
87373926 nt in 203453 seqs, min 310, max 480, avg 352
Sorting 100%
10981 unique sequences, avg cluster 2.0, median 1, max 1287
Writing output file 100%
A saída me forneceu os dados de que 1.0981 sequências únicas foram identificadas. Mas não consigo identificar quantas leituras da sequência mais comum estavam presentes nos dados de entrada.
Todas as sugestões serão bem-vindas!
Respostas
De acordo com os documentos do VSEARCH , como você especificou --sizeout
suas abundâncias foram gravadas nos cabeçalhos FASTA:
--sizeout
Leve em consideração as anotações de abundância presentes no arquivo fasta de entrada (pesquise o padrão '[>;] tamanho = inteiro [;]' nos cabeçalhos de sequência). Essa opção está ativa por padrão ao replicar.
Adicione anotações de abundância ao arquivo fasta de saída (adicione o padrão '; size = integer;' aos cabeçalhos de sequência). Se --sizein for especificado, cada sequência única recebe um novo valor de abundância correspondente à sua abundância total (soma das abundâncias de suas ocorrências). Se --sizein não for especificado, as abundâncias de entrada são definidas como 1 e cada sequência única recebe um novo valor de abundância correspondente ao seu número de ocorrências no arquivo de entrada.