Biopython-인구 유전학
인구 유전학은 진화론에서 중요한 역할을합니다. 동일한 종에 속한 두 명 이상의 개체뿐만 아니라 종 간의 유전 적 차이를 분석합니다.
Biopython은 집단 유전학을위한 Bio.PopGen 모듈을 제공하며 주로 Michel Raymond와 Francois Rousset이 개발 한 인기있는 유전학 패키지 인`GenePop을 지원합니다.
간단한 파서
GenePop 형식을 구문 분석하고 개념을 이해하는 간단한 애플리케이션을 작성해 보겠습니다.
아래 링크에서 Biopython 팀이 제공하는 genePop 파일을 다운로드하십시오.https://raw.githubusercontent.com/biopython/biopython/master/Tests/PopGen/c3line.gen
아래 코드 스 니펫을 사용하여 GenePop 모듈을로드합니다.
from Bio.PopGen import GenePop
아래와 같이 GenePop.read 메서드를 사용하여 파일을 구문 분석합니다.
record = GenePop.read(open("c3line.gen"))
아래 주어진 위치와 인구 정보를 보여줍니다-
>>> record.loci_list
['136255903', '136257048', '136257636']
>>> record.pop_list
['4', 'b3', '5']
>>> record.populations
[[('1', [(3, 3), (4, 4), (2, 2)]), ('2', [(3, 3), (3, 4), (2, 2)]),
('3', [(3, 3), (4, 4), (2, 2)]), ('4', [(3, 3), (4, 3), (None, None)])],
[('b1', [(None, None), (4, 4), (2, 2)]), ('b2', [(None, None), (4, 4), (2, 2)]),
('b3', [(None, None), (4, 4), (2, 2)])],
[('1', [(3, 3), (4, 4), (2, 2)]), ('2', [(3, 3), (1, 4), (2, 2)]),
('3', [(3, 2), (1, 1), (2, 2)]), ('4',
[(None, None), (4, 4), (2, 2)]), ('5', [(3, 3), (4, 4), (2, 2)])]]
>>>
여기에는 파일에서 사용할 수있는 세 개의 loci와 세 세트의 모집단이 있습니다. 첫 번째 모집단에는 4 개의 레코드가 있고, 두 번째 모집단에는 3 개의 레코드가 있으며, 세 번째 모집단에는 5 개의 레코드가 있습니다. record.populations는 각 유전자좌에 대한 대립 유전자 데이터가있는 모든 집단 집합을 보여줍니다.
GenePop 파일 조작
Biopython은 유전자좌 및 인구 데이터를 제거하는 옵션을 제공합니다.
Remove a population set by position,
>>> record.remove_population(0)
>>> record.populations
[[('b1', [(None, None), (4, 4), (2, 2)]),
('b2', [(None, None), (4, 4), (2, 2)]),
('b3', [(None, None), (4, 4), (2, 2)])],
[('1', [(3, 3), (4, 4), (2, 2)]),
('2', [(3, 3), (1, 4), (2, 2)]),
('3', [(3, 2), (1, 1), (2, 2)]),
('4', [(None, None), (4, 4), (2, 2)]),
('5', [(3, 3), (4, 4), (2, 2)])]]
>>>
Remove a locus by position,
>>> record.remove_locus_by_position(0)
>>> record.loci_list
['136257048', '136257636']
>>> record.populations
[[('b1', [(4, 4), (2, 2)]), ('b2', [(4, 4), (2, 2)]), ('b3', [(4, 4), (2, 2)])],
[('1', [(4, 4), (2, 2)]), ('2', [(1, 4), (2, 2)]),
('3', [(1, 1), (2, 2)]), ('4', [(4, 4), (2, 2)]), ('5', [(4, 4), (2, 2)])]]
>>>
Remove a locus by name,
>>> record.remove_locus_by_name('136257636') >>> record.loci_list
['136257048']
>>> record.populations
[[('b1', [(4, 4)]), ('b2', [(4, 4)]), ('b3', [(4, 4)])],
[('1', [(4, 4)]), ('2', [(1, 4)]),
('3', [(1, 1)]), ('4', [(4, 4)]), ('5', [(4, 4)])]]
>>>
GenePop 소프트웨어와의 인터페이스
Biopython은 GenePop 소프트웨어와 상호 작용할 수있는 인터페이스를 제공하여 많은 기능을 제공합니다. 이를 위해 Bio.PopGen.GenePop 모듈이 사용됩니다. 사용하기 쉬운 인터페이스 중 하나가 EasyController입니다. GenePop 파일을 파싱하는 방법을 확인하고 EasyController를 사용하여 몇 가지 분석을 수행합니다.
먼저 GenePop 소프트웨어를 설치하고 시스템 경로에 설치 폴더를 배치합니다. GenePop 파일에 대한 기본 정보를 얻으려면 EasyController 개체를 만든 다음 아래 지정된대로 get_basic_info 메서드를 호출합니다.
>>> from Bio.PopGen.GenePop.EasyController import EasyController
>>> ec = EasyController('c3line.gen')
>>> print(ec.get_basic_info())
(['4', 'b3', '5'], ['136255903', '136257048', '136257636'])
>>>
여기서 첫 번째 항목은 인구 목록이고 두 번째 항목은 위치 목록입니다.
특정 유전자좌의 모든 대립 유전자 목록을 얻으려면 아래 지정된대로 유전자좌 이름을 전달하여 get_alleles_all_pops 메소드를 호출하십시오.
>>> allele_list = ec.get_alleles_all_pops("136255903")
>>> print(allele_list)
[2, 3]
특정 인구 및 유전자좌별로 대립 유전자 목록을 얻으려면 아래에 주어진대로 유전자좌 이름과 인구 위치를 전달하여 get_alleles를 호출하십시오.
>>> allele_list = ec.get_alleles(0, "136255903")
>>> print(allele_list)
[]
>>> allele_list = ec.get_alleles(1, "136255903")
>>> print(allele_list)
[]
>>> allele_list = ec.get_alleles(2, "136255903")
>>> print(allele_list)
[2, 3]
>>>
마찬가지로 EasyController는 대립 유전자 빈도, 유전자형 빈도, 다중 위치 F 통계, Hardy-Weinberg 평형, Linkage Disequilibrium 등 많은 기능을 노출합니다.