Biopython - Analyse des clusters
En général, l'analyse de cluster regroupe un ensemble d'objets dans le même groupe. Ce concept est principalement utilisé dans l'exploration de données, l'analyse de données statistiques, l'apprentissage automatique, la reconnaissance de formes, l'analyse d'images, la bioinformatique, etc. Il peut être réalisé par divers algorithmes pour comprendre comment le cluster est largement utilisé dans différentes analyses.
Selon Bioinformatics, l'analyse de cluster est principalement utilisée dans l'analyse des données d'expression génique pour trouver des groupes de gènes avec une expression génique similaire.
Dans ce chapitre, nous allons vérifier les algorithmes importants de Biopython pour comprendre les principes de base du clustering sur un ensemble de données réel.
Biopython utilise le module Bio.Cluster pour implémenter tous les algorithmes. Il prend en charge les algorithmes suivants -
- Classification hiérarchique
- K - Regroupement
- Cartes auto-organisées
- Analyse des composants principaux
Laissez-nous avoir une brève introduction sur les algorithmes ci-dessus.
Classification hiérarchique
Le clustering hiérarchique est utilisé pour lier chaque nœud par une mesure de distance à son voisin le plus proche et créer un cluster. Le nœud Bio.Cluster a trois attributs: gauche, droite et distance. Créons un cluster simple comme indiqué ci-dessous -
>>> from Bio.Cluster import Node
>>> n = Node(1,10)
>>> n.left = 11
>>> n.right = 0
>>> n.distance = 1
>>> print(n)
(11, 0): 1
Si vous souhaitez créer un clustering basé sur une arborescence, utilisez la commande ci-dessous -
>>> n1 = [Node(1, 2, 0.2), Node(0, -1, 0.5)] >>> n1_tree = Tree(n1)
>>> print(n1_tree)
(1, 2): 0.2
(0, -1): 0.5
>>> print(n1_tree[0])
(1, 2): 0.2
Réalisons le clustering hiérarchique à l'aide du module Bio.Cluster.
Considérez que la distance est définie dans un tableau.
>>> import numpy as np
>>> distance = array([[1,2,3],[4,5,6],[3,5,7]])
Ajoutez maintenant le tableau de distance dans le cluster d'arbres.
>>> from Bio.Cluster import treecluster
>>> cluster = treecluster(distance)
>>> print(cluster)
(2, 1): 0.666667
(-1, 0): 9.66667
La fonction ci-dessus renvoie un objet de cluster Tree. Cet objet contient des nœuds où le nombre d'éléments est regroupé sous forme de lignes ou de colonnes.
K - Regroupement
Il s'agit d'un type d'algorithme de partitionnement et classé en k - moyennes, médianes et regroupement des médoïdes. Comprenons chacun des regroupements en bref.
Clustering K-means
Cette approche est populaire dans l'exploration de données. Le but de cet algorithme est de trouver des groupes dans les données, avec le nombre de groupes représenté par la variable K.
L'algorithme fonctionne de manière itérative pour affecter chaque point de données à l'un des K groupes en fonction des fonctionnalités fournies. Les points de données sont regroupés en fonction de la similitude des caractéristiques.
>>> from Bio.Cluster import kcluster
>>> from numpy import array
>>> data = array([[1, 2], [3, 4], [5, 6]])
>>> clusterid, error,found = kcluster(data)
>>> print(clusterid) [0 0 1]
>>> print(found)
1
Clustering K-médianes
C'est un autre type d'algorithme de clustering qui calcule la moyenne de chaque cluster pour déterminer son centre de gravité.
Clustering K-medoids
Cette approche est basée sur un ensemble donné d'éléments, en utilisant la matrice de distance et le nombre de clusters passés par l'utilisateur.
Considérez la matrice de distance telle que définie ci-dessous -
>>> distance = array([[1,2,3],[4,5,6],[3,5,7]])
Nous pouvons calculer le clustering k-medoids en utilisant la commande ci-dessous -
>>> from Bio.Cluster import kmedoids
>>> clusterid, error, found = kmedoids(distance)
Analysons un exemple.
La fonction kcluster prend une matrice de données en entrée et non des instances Seq. Vous devez convertir vos séquences en matrice et la fournir à la fonction kcluster.
Une façon de convertir les données en une matrice contenant uniquement des éléments numériques consiste à utiliser numpy.fromstringfonction. Il traduit essentiellement chaque lettre dans une séquence en son homologue ASCII.
Cela crée un tableau 2D de séquences codées que la fonction kcluster reconnaît et utilise pour regrouper vos séquences.
>>> from Bio.Cluster import kcluster
>>> import numpy as np
>>> sequence = [ 'AGCT','CGTA','AAGT','TCCG']
>>> matrix = np.asarray([np.fromstring(s, dtype=np.uint8) for s in sequence])
>>> clusterid,error,found = kcluster(matrix)
>>> print(clusterid) [1 0 0 1]
Cartes auto-organisées
Cette approche est un type de réseau neuronal artificiel. Il est développé par Kohonen et souvent appelé carte de Kohonen. Il organise les éléments en clusters basés sur une topologie rectangulaire.
Créons un cluster simple en utilisant la même distance de tableau que celle indiquée ci-dessous -
>>> from Bio.Cluster import somcluster
>>> from numpy import array
>>> data = array([[1, 2], [3, 4], [5, 6]])
>>> clusterid,map = somcluster(data)
>>> print(map)
[[[-1.36032469 0.38667395]]
[[-0.41170578 1.35295911]]]
>>> print(clusterid)
[[1 0]
[1 0]
[1 0]]
Ici, clusterid est un tableau à deux colonnes, où le nombre de lignes est égal au nombre d'éléments qui ont été regroupés, et data est un tableau dont les dimensions sont des lignes ou des colonnes.
Analyse des composants principaux
L'analyse en composantes principales est utile pour visualiser des données de grande dimension. C'est une méthode qui utilise des opérations matricielles simples à partir de l'algèbre linéaire et des statistiques pour calculer une projection des données d'origine dans le même nombre ou moins de dimensions.
L'analyse des composants principaux renvoie une valeur de colonne de tuple, des coordonnées, des composants et des valeurs propres. Examinons les bases de ce concept.
>>> from numpy import array
>>> from numpy import mean
>>> from numpy import cov
>>> from numpy.linalg import eig
# define a matrix
>>> A = array([[1, 2], [3, 4], [5, 6]])
>>> print(A)
[[1 2]
[3 4]
[5 6]]
# calculate the mean of each column
>>> M = mean(A.T, axis = 1)
>>> print(M)
[ 3. 4.]
# center columns by subtracting column means
>>> C = A - M
>>> print(C)
[[-2. -2.]
[ 0. 0.]
[ 2. 2.]]
# calculate covariance matrix of centered matrix
>>> V = cov(C.T)
>>> print(V)
[[ 4. 4.]
[ 4. 4.]]
# eigendecomposition of covariance matrix
>>> values, vectors = eig(V)
>>> print(vectors)
[[ 0.70710678 -0.70710678]
[ 0.70710678 0.70710678]]
>>> print(values)
[ 8. 0.]
Appliquons les mêmes données de matrice rectangulaire au module Bio.Cluster comme défini ci-dessous -
>>> from Bio.Cluster import pca
>>> from numpy import array
>>> data = array([[1, 2], [3, 4], [5, 6]])
>>> columnmean, coordinates, components, eigenvalues = pca(data)
>>> print(columnmean)
[ 3. 4.]
>>> print(coordinates)
[[-2.82842712 0. ]
[ 0. 0. ]
[ 2.82842712 0. ]]
>>> print(components)
[[ 0.70710678 0.70710678]
[ 0.70710678 -0.70710678]]
>>> print(eigenvalues)
[ 4. 0.]