Biopython - Génétique des populations

La génétique des populations joue un rôle important dans la théorie de l'évolution. Il analyse la différence génétique entre les espèces ainsi que deux ou plusieurs individus au sein de la même espèce.

Biopython fournit le module Bio.PopGen pour la génétique des populations et supporte principalement `GenePop, un progiciel de génétique populaire développé par Michel Raymond et François Rousset.

Un analyseur simple

Écrivons une application simple pour analyser le format GenePop et comprendre le concept.

Téléchargez le fichier genePop fourni par l'équipe Biopython dans le lien ci-dessous -https://raw.githubusercontent.com/biopython/biopython/master/Tests/PopGen/c3line.gen

Chargez le module GenePop en utilisant l'extrait de code ci-dessous -

from Bio.PopGen import GenePop

Analysez le fichier en utilisant la méthode GenePop.read comme ci-dessous -

record = GenePop.read(open("c3line.gen"))

Afficher les loci et les informations sur la population comme indiqué ci-dessous -

>>> record.loci_list 
['136255903', '136257048', '136257636'] 
>>> record.pop_list 
['4', 'b3', '5'] 
>>> record.populations 
[[('1', [(3, 3), (4, 4), (2, 2)]), ('2', [(3, 3), (3, 4), (2, 2)]), 
   ('3', [(3, 3), (4, 4), (2, 2)]), ('4', [(3, 3), (4, 3), (None, None)])], 
[('b1', [(None, None), (4, 4), (2, 2)]), ('b2', [(None, None), (4, 4), (2, 2)]), 
   ('b3', [(None, None), (4, 4), (2, 2)])], 
[('1', [(3, 3), (4, 4), (2, 2)]), ('2', [(3, 3), (1, 4), (2, 2)]), 
   ('3', [(3, 2), (1, 1), (2, 2)]), ('4', 
   [(None, None), (4, 4), (2, 2)]), ('5', [(3, 3), (4, 4), (2, 2)])]] 
>>>

Ici, il y a trois loci disponibles dans le fichier et trois ensembles de population: la première population a 4 enregistrements, la deuxième population a 3 enregistrements et la troisième population a 5 enregistrements. record.populations montre tous les ensembles de population avec des données d'allèles pour chaque locus.

Manipuler le fichier GenePop

Biopython fournit des options pour supprimer les données de locus et de population.

Remove a population set by position,

>>> record.remove_population(0) 
>>> record.populations 
[[('b1', [(None, None), (4, 4), (2, 2)]), 
   ('b2', [(None, None), (4, 4), (2, 2)]), 
   ('b3', [(None, None), (4, 4), (2, 2)])], 
   [('1', [(3, 3), (4, 4), (2, 2)]), 
   ('2', [(3, 3), (1, 4), (2, 2)]), 
   ('3', [(3, 2), (1, 1), (2, 2)]), 
   ('4', [(None, None), (4, 4), (2, 2)]), 
   ('5', [(3, 3), (4, 4), (2, 2)])]]
>>>

Remove a locus by position,

>>> record.remove_locus_by_position(0) 
>>> record.loci_list 
['136257048', '136257636'] 
>>> record.populations 
[[('b1', [(4, 4), (2, 2)]), ('b2', [(4, 4), (2, 2)]), ('b3', [(4, 4), (2, 2)])], 
   [('1', [(4, 4), (2, 2)]), ('2', [(1, 4), (2, 2)]), 
   ('3', [(1, 1), (2, 2)]), ('4', [(4, 4), (2, 2)]), ('5', [(4, 4), (2, 2)])]]
>>>

Remove a locus by name,

>>> record.remove_locus_by_name('136257636') >>> record.loci_list 
['136257048'] 
>>> record.populations 
[[('b1', [(4, 4)]), ('b2', [(4, 4)]), ('b3', [(4, 4)])], 
   [('1', [(4, 4)]), ('2', [(1, 4)]), 
   ('3', [(1, 1)]), ('4', [(4, 4)]), ('5', [(4, 4)])]]
>>>

Interface avec le logiciel GenePop

Biopython fournit des interfaces pour interagir avec le logiciel GenePop et en expose ainsi beaucoup de fonctionnalités. Le module Bio.PopGen.GenePop est utilisé à cet effet. Une de ces interfaces faciles à utiliser est EasyController. Laissez-nous vérifier comment analyser le fichier GenePop et faire des analyses à l'aide d'EasyController.

Tout d'abord, installez le logiciel GenePop et placez le dossier d'installation dans le chemin du système. Pour obtenir des informations de base sur le fichier GenePop, créez un objet EasyController puis appelez la méthode get_basic_info comme spécifié ci-dessous -

>>> from Bio.PopGen.GenePop.EasyController import EasyController 
>>> ec = EasyController('c3line.gen') 
>>> print(ec.get_basic_info()) 
(['4', 'b3', '5'], ['136255903', '136257048', '136257636'])
>>>

Ici, le premier élément est la liste de population et le deuxième élément est la liste des locus.

Pour obtenir toute la liste d'allèles d'un locus particulier, appelez la méthode get_alleles_all_pops en passant le nom du locus comme spécifié ci-dessous -

>>> allele_list = ec.get_alleles_all_pops("136255903") 
>>> print(allele_list) 
[2, 3]

Pour obtenir la liste des allèles par population et locus spécifiques, appelez get_alleles en passant le nom du locus et la position de la population comme indiqué ci-dessous -

>>> allele_list = ec.get_alleles(0, "136255903") 
>>> print(allele_list) 
[] 
>>> allele_list = ec.get_alleles(1, "136255903") 
>>> print(allele_list) 
[] 
>>> allele_list = ec.get_alleles(2, "136255903") 
>>> print(allele_list) 
[2, 3] 
>>>

De même, EasyController expose de nombreuses fonctionnalités: fréquence des allèles, fréquence du génotype, statistiques F multilocus, équilibre de Hardy-Weinberg, déséquilibre de liaison, etc.