Biopython - Microarray de phénotype

Le phénotype est défini comme un caractère ou un trait observable présenté par un organisme contre un produit chimique ou un environnement particulier. La micropuce phénotypique mesure simultanément la réaction d'un organisme contre un plus grand nombre de produits chimiques et d'environnement et analyse les données pour comprendre la mutation du gène, les caractères du gène, etc.

Biopython fournit un excellent module, Bio.Phenotype pour analyser les données phénotypiques. Apprenons à analyser, interpoler, extraire et analyser les données des microréseaux phénotypiques dans ce chapitre.

Analyse

Les données des micropuces de phénotype peuvent être dans deux formats: CSV et JSON. Biopython prend en charge les deux formats. L'analyseur Biopython analyse les données de la puce de phénotype et les renvoie sous la forme d'une collection d'objets PlateRecord. Chaque objet PlateRecord contient une collection d'objets WellRecord. Chaque objet WellRecord contient des données au format 8 lignes et 12 colonnes. Les huit lignes sont représentées par A à H et 12 colonnes sont représentées par 01 à 12. Par exemple, la 4 e ligne et la 6 e colonne sont représentées par D06.

Comprenons le format et le concept de l'analyse avec l'exemple suivant -

Step 1 - Téléchargez le fichier Plates.csv fourni par l'équipe Biopython - https://raw.githubusercontent.com/biopython/biopython/master/Doc/examples/Plates.csv

Step 2 - Chargez le module phenotpe comme ci-dessous -

>>> from Bio import phenotype

Step 3- Appelez la méthode phenotype.parse en passant le fichier de données et l'option de format («pm-csv»). Il renvoie le PlateRecord itérable comme ci-dessous,

>>> plates = list(phenotype.parse('Plates.csv', "pm-csv")) 
>>> plates 
[PlateRecord('WellRecord['A01'], WellRecord['A02'], WellRecord['A03'], ..., WellRecord['H12']'), 
PlateRecord('WellRecord['A01'], WellRecord['A02'], WellRecord['A03'], ..., WellRecord['H12']'), 
PlateRecord('WellRecord['A01'], WellRecord['A02'], WellRecord['A03'], ..., WellRecord['H12']'), 
PlateRecord('WellRecord['A01'], WellRecord['A02'],WellRecord['A03'], ..., WellRecord['H12']')] 
>>>

Step 4 - Accédez à la première plaque de la liste comme ci-dessous -

>>> plate = plates[0] 
>>> plate 
PlateRecord('WellRecord['A01'], WellRecord['A02'], WellRecord['A03'], ...,
WellRecord['H12']')
>>>

Step 5- Comme indiqué précédemment, une plaque contient 8 rangées contenant chacune 12 éléments. WellRecord peut être accessible de deux manières comme spécifié ci-dessous -

>>> well = plate["A04"] 
>>> well = plate[0, 4] 
>>> well WellRecord('(0.0, 0.0), (0.25, 0.0), (0.5, 0.0), (0.75, 0.0), 
   (1.0, 0.0), ..., (71.75, 388.0)')
>>>

Step 6 - Chaque puits aura une série de mesures à différents moments et il est accessible en utilisant la boucle for comme spécifié ci-dessous -

>>> for v1, v2 in well: 
... print(v1, v2) 
... 
0.0 0.0 
0.25 0.0 
0.5 0.0 
0.75 0.0 
1.0 0.0 
... 
71.25 388.0 
71.5 388.0 
71.75 388.0
>>>

Interpolation

L'interpolation donne plus d'informations sur les données. Biopython fournit des méthodes pour interpoler les données WellRecord pour obtenir des informations sur les points temporels intermédiaires. La syntaxe est similaire à l'indexation de liste et donc facile à apprendre.

Pour obtenir les données à 20,1 heures, passez simplement en tant que valeurs d'index comme spécifié ci-dessous -

>>> well[20.10] 
69.40000000000003
>>>

Nous pouvons passer le point de départ et le point de fin ainsi que spécifié ci-dessous -

>>> well[20:30] 
[67.0, 84.0, 102.0, 119.0, 135.0, 147.0, 158.0, 168.0, 179.0, 186.0]
>>>

La commande ci-dessus interpole les données de 20 heures à 30 heures avec un intervalle d'une heure. Par défaut, l'intervalle est de 1 heure et nous pouvons le changer en n'importe quelle valeur. Par exemple, donnons un intervalle de 15 minutes (0,25 heure) comme spécifié ci-dessous -

>>> well[20:21:0.25] 
[67.0, 73.0, 75.0, 81.0]
>>>

Analyser et extraire

Biopython fournit une méthode adaptée pour analyser les données WellRecord à l'aide des fonctions sigmoïdes Gompertz, Logistic et Richards. Par défaut, la méthode fit utilise la fonction Gompertz. Nous devons appeler la méthode fit de l'objet WellRecord pour terminer la tâche. Le codage est le suivant -

>>> well.fit() 
Traceback (most recent call last): 
... 
Bio.MissingPythonDependencyError: Install scipy to extract curve parameters. 
>>> well.model 
>>> getattr(well, 'min') 0.0 
>>> getattr(well, 'max') 388.0 
>>> getattr(well, 'average_height') 
205.42708333333334
>>>

Biopython dépend du module scipy pour effectuer des analyses avancées. Il calculera les détails min, max et average_height sans utiliser le module scipy.