Metagenomics: Identyfikacja najczęściej występujących sekwencji

Nov 27 2020

Pracuję nad projektem i użyłem następującego polecenia:

vsearch --derep_fulllength filtered_merged.fa -sizeout -relabel Uniq -output dereplicated_filtered_merged.fa

i otrzymałem następujący wynik:

87373926 nt in 203453 seqs, min 310, max 480, avg 352
Sorting 100%
10981 unique sequences, avg cluster 2.0, median 1, max 1287
Writing output file 100% 

Wyniki dostarczyły mi danych, że zidentyfikowano 10981 unikalnych sekwencji. Ale wydaje mi się, że nie potrafię określić, ile odczytów najczęściej występującej sekwencji było obecnych w danych wejściowych.

Wszelkie sugestie będą mile widziane!

Odpowiedzi

1 MaximilianPress Nov 28 2020 at 03:53

Zgodnie z dokumentacją VSEARCH , ponieważ określiłeś --sizeoutswoje obfitości zostały zapisane w nagłówkach FASTA:

--rozmiar

Weź pod uwagę liczne adnotacje obecne w pliku wejściowym fasta (wyszukaj wzorzec „[>;] size = integer [;]” w nagłówkach sekwencji). Ta opcja jest domyślnie aktywna podczas ponownego wykonywania.

Dodaj adnotacje obfitości do wyjściowego pliku fasta (dodaj wzorzec '; size = integer;' do nagłówków sekwencji). Jeśli podano --sizein, każda unikalna sekwencja otrzymuje nową wartość obfitości, odpowiadającą jej całkowitej obfitości (sumie obfitości jej wystąpień). Jeśli --sizein nie jest określony, liczebności wejściowe są ustawiane na 1, a każda unikalna sekwencja otrzymuje nową wartość liczebności odpowiadającą liczbie wystąpień w pliku wejściowym.