Biopython-인구 유전학

인구 유전학은 진화론에서 중요한 역할을합니다. 동일한 종에 속한 두 명 이상의 개체뿐만 아니라 종 간의 유전 적 차이를 분석합니다.

Biopython은 집단 유전학을위한 Bio.PopGen 모듈을 제공하며 주로 Michel Raymond와 Francois Rousset이 개발 한 인기있는 유전학 패키지 인`GenePop을 지원합니다.

간단한 파서

GenePop 형식을 구문 분석하고 개념을 이해하는 간단한 애플리케이션을 작성해 보겠습니다.

아래 링크에서 Biopython 팀이 제공하는 genePop 파일을 다운로드하십시오.https://raw.githubusercontent.com/biopython/biopython/master/Tests/PopGen/c3line.gen

아래 코드 스 니펫을 사용하여 GenePop 모듈을로드합니다.

from Bio.PopGen import GenePop

아래와 같이 GenePop.read 메서드를 사용하여 파일을 구문 분석합니다.

record = GenePop.read(open("c3line.gen"))

아래 주어진 위치와 인구 정보를 보여줍니다-

>>> record.loci_list 
['136255903', '136257048', '136257636'] 
>>> record.pop_list 
['4', 'b3', '5'] 
>>> record.populations 
[[('1', [(3, 3), (4, 4), (2, 2)]), ('2', [(3, 3), (3, 4), (2, 2)]), 
   ('3', [(3, 3), (4, 4), (2, 2)]), ('4', [(3, 3), (4, 3), (None, None)])], 
[('b1', [(None, None), (4, 4), (2, 2)]), ('b2', [(None, None), (4, 4), (2, 2)]), 
   ('b3', [(None, None), (4, 4), (2, 2)])], 
[('1', [(3, 3), (4, 4), (2, 2)]), ('2', [(3, 3), (1, 4), (2, 2)]), 
   ('3', [(3, 2), (1, 1), (2, 2)]), ('4', 
   [(None, None), (4, 4), (2, 2)]), ('5', [(3, 3), (4, 4), (2, 2)])]] 
>>>

여기에는 파일에서 사용할 수있는 세 개의 loci와 세 세트의 모집단이 있습니다. 첫 번째 모집단에는 4 개의 레코드가 있고, 두 번째 모집단에는 3 개의 레코드가 있으며, 세 번째 모집단에는 5 개의 레코드가 있습니다. record.populations는 각 유전자좌에 대한 대립 유전자 데이터가있는 모든 집단 집합을 보여줍니다.

GenePop 파일 조작

Biopython은 유전자좌 및 인구 데이터를 제거하는 옵션을 제공합니다.

Remove a population set by position,

>>> record.remove_population(0) 
>>> record.populations 
[[('b1', [(None, None), (4, 4), (2, 2)]), 
   ('b2', [(None, None), (4, 4), (2, 2)]), 
   ('b3', [(None, None), (4, 4), (2, 2)])], 
   [('1', [(3, 3), (4, 4), (2, 2)]), 
   ('2', [(3, 3), (1, 4), (2, 2)]), 
   ('3', [(3, 2), (1, 1), (2, 2)]), 
   ('4', [(None, None), (4, 4), (2, 2)]), 
   ('5', [(3, 3), (4, 4), (2, 2)])]]
>>>

Remove a locus by position,

>>> record.remove_locus_by_position(0) 
>>> record.loci_list 
['136257048', '136257636'] 
>>> record.populations 
[[('b1', [(4, 4), (2, 2)]), ('b2', [(4, 4), (2, 2)]), ('b3', [(4, 4), (2, 2)])], 
   [('1', [(4, 4), (2, 2)]), ('2', [(1, 4), (2, 2)]), 
   ('3', [(1, 1), (2, 2)]), ('4', [(4, 4), (2, 2)]), ('5', [(4, 4), (2, 2)])]]
>>>

Remove a locus by name,

>>> record.remove_locus_by_name('136257636') >>> record.loci_list 
['136257048'] 
>>> record.populations 
[[('b1', [(4, 4)]), ('b2', [(4, 4)]), ('b3', [(4, 4)])], 
   [('1', [(4, 4)]), ('2', [(1, 4)]), 
   ('3', [(1, 1)]), ('4', [(4, 4)]), ('5', [(4, 4)])]]
>>>

GenePop 소프트웨어와의 인터페이스

Biopython은 GenePop 소프트웨어와 상호 작용할 수있는 인터페이스를 제공하여 많은 기능을 제공합니다. 이를 위해 Bio.PopGen.GenePop 모듈이 사용됩니다. 사용하기 쉬운 인터페이스 중 하나가 EasyController입니다. GenePop 파일을 파싱하는 방법을 확인하고 EasyController를 사용하여 몇 가지 분석을 수행합니다.

먼저 GenePop 소프트웨어를 설치하고 시스템 경로에 설치 폴더를 배치합니다. GenePop 파일에 대한 기본 정보를 얻으려면 EasyController 개체를 만든 다음 아래 지정된대로 get_basic_info 메서드를 호출합니다.

>>> from Bio.PopGen.GenePop.EasyController import EasyController 
>>> ec = EasyController('c3line.gen') 
>>> print(ec.get_basic_info()) 
(['4', 'b3', '5'], ['136255903', '136257048', '136257636'])
>>>

여기서 첫 번째 항목은 인구 목록이고 두 번째 항목은 위치 목록입니다.

특정 유전자좌의 모든 대립 유전자 목록을 얻으려면 아래 지정된대로 유전자좌 이름을 전달하여 get_alleles_all_pops 메소드를 호출하십시오.

>>> allele_list = ec.get_alleles_all_pops("136255903") 
>>> print(allele_list) 
[2, 3]

특정 인구 및 유전자좌별로 대립 유전자 목록을 얻으려면 아래에 주어진대로 유전자좌 이름과 인구 위치를 전달하여 get_alleles를 호출하십시오.

>>> allele_list = ec.get_alleles(0, "136255903") 
>>> print(allele_list) 
[] 
>>> allele_list = ec.get_alleles(1, "136255903") 
>>> print(allele_list) 
[] 
>>> allele_list = ec.get_alleles(2, "136255903") 
>>> print(allele_list) 
[2, 3] 
>>>

마찬가지로 EasyController는 대립 유전자 빈도, 유전자형 빈도, 다중 위치 F 통계, Hardy-Weinberg 평형, Linkage Disequilibrium 등 많은 기능을 노출합니다.