Biopython - Apprentissage automatique
La bioinformatique est un excellent domaine pour appliquer des algorithmes d'apprentissage automatique. Ici, nous avons des informations génétiques d'un grand nombre d'organismes et il n'est pas possible d'analyser manuellement toutes ces informations. Si un algorithme d'apprentissage automatique approprié est utilisé, nous pouvons extraire de nombreuses informations utiles de ces données. Biopython fournit un ensemble d'algorithmes utiles pour effectuer un apprentissage automatique supervisé.
L'apprentissage supervisé est basé sur la variable d'entrée (X) et la variable de sortie (Y). Il utilise un algorithme pour apprendre la fonction de mappage de l'entrée à la sortie. Il est défini ci-dessous -
Y = f(X)
L'objectif principal de cette approche est d'approximer la fonction de mappage et lorsque vous avez de nouvelles données d'entrée (x), vous pouvez prédire les variables de sortie (Y) pour ces données.
Modèle de régression logistique
La régression logistique est un algorithme d'apprentissage automatique supervisé. Il est utilisé pour connaître la différence entre K classes en utilisant la somme pondérée des variables prédictives. Il calcule la probabilité d'occurrence d'un événement et peut être utilisé pour la détection du cancer.
Biopython fournit le module Bio.LogisticRegression pour prédire les variables basées sur l'algorithme de régression logistique. Actuellement, Biopython implémente un algorithme de régression logistique pour deux classes uniquement (K = 2).
k-Voisins les plus proches
k-Nearest voisins est également un algorithme d'apprentissage automatique supervisé. Cela fonctionne en catégorisant les données en fonction des voisins les plus proches. Biopython fournit le module Bio.KNN pour prédire les variables en fonction de l'algorithme des k voisins les plus proches.
Naive Bayes
Les classificateurs Naive Bayes sont une collection d'algorithmes de classification basés sur le théorème de Bayes. Ce n'est pas un algorithme unique mais une famille d'algorithmes où tous partagent un principe commun, c'est-à-dire que chaque paire de caractéristiques classées est indépendante l'une de l'autre. Biopython fournit le module Bio.NaiveBayes pour fonctionner avec l'algorithme Naive Bayes.
Modèle de Markov
Un modèle de Markov est un système mathématique défini comme un ensemble de variables aléatoires, qui subit une transition d'un état à un autre selon certaines règles probabilistes. Biopython fournitBio.MarkovModel and Bio.HMM.MarkovModel modules to work with Markov models.