Metagenomics : 가장 일반적인 서열 식별
Nov 27 2020
프로젝트에서 작업 중이며 다음 명령을 사용했습니다.
vsearch --derep_fulllength filtered_merged.fa -sizeout -relabel Uniq -output dereplicated_filtered_merged.fa
다음 출력을 얻었습니다.
87373926 nt in 203453 seqs, min 310, max 480, avg 352
Sorting 100%
10981 unique sequences, avg cluster 2.0, median 1, max 1287
Writing output file 100%
출력은 10981 개의 고유 한 시퀀스가 식별되었다는 데이터를 제공했습니다. 그러나 입력 데이터에 가장 일반적인 시퀀스의 읽기 횟수를 식별 할 수없는 것 같습니다.
어떤 제안이라도 친절하게 감사하겠습니다!
답변
1 MaximilianPress Nov 28 2020 at 03:53
VSEARCH 문서 에 따르면 --sizeout
풍부함을 지정했기 때문에 FASTA 헤더에 기록되었습니다.
-크기
입력 fasta 파일에있는 풍부한 주석을 고려합니다 (시퀀스 헤더에서 '[>;] size = integer [;]'패턴 검색). 이 옵션은 복제 할 때 기본적으로 활성화됩니다.
출력 fasta 파일에 풍부한 주석을 추가합니다 (시퀀스 헤더에 '; size = integer;'패턴 추가). --sizein이 지정되면 각 고유 시퀀스는 총 풍부도 (발생 풍부도의 합)에 해당하는 새로운 풍부도 값을받습니다. --sizein이 지정되지 않은 경우 입력 풍부도는 1로 설정되고 각 고유 시퀀스는 입력 파일의 발생 횟수에 해당하는 새 풍부도 값을받습니다.