メタゲノミクス:最も一般的なシーケンスの特定
Nov 27 2020
私はプロジェクトに取り組んでおり、次のコマンドを使用しました。
vsearch --derep_fulllength filtered_merged.fa -sizeout -relabel Uniq -output dereplicated_filtered_merged.fa
次の出力が得られました。
87373926 nt in 203453 seqs, min 310, max 480, avg 352
Sorting 100%
10981 unique sequences, avg cluster 2.0, median 1, max 1287
Writing output file 100%
出力は、10981の固有のシーケンスが識別されたというデータを私に提供しました。しかし、入力データに最も一般的なシーケンスの読み取りがいくつ存在したかを特定できないようです。
どんな提案でも親切に感謝されます!
回答
1 MaximilianPress Nov 28 2020 at 03:53
VSEARCHのドキュメントによると、指定した--sizeout
ので、存在量はFASTAヘッダーに書き込まれています。
--sizeout
入力fastaファイルに存在するアバンダンスアノテーションを考慮に入れてください(シーケンスヘッダーでパターン '[>;] size = integer [;]'を検索してください)。このオプションは、再複製時にデフォルトでアクティブになります。
出力fastaファイルにアバンダンスアノテーションを追加します(シーケンスヘッダーにパターン '; size = integer;'を追加します)。--sizeinが指定されている場合、各一意のシーケンスは、その合計アバンダンス(発生のアバンダンスの合計)に対応する新しいアバンダンス値を受け取ります。--sizeinが指定されていない場合、入力アバンダンスは1に設定され、一意の各シーケンスは、入力ファイルでの出現回数に対応する新しいアバンダンス値を受け取ります。