Un récapitulatif rapide

Jun 17 2022
Dans une série d'articles, j'ai utilisé des schémas d'échantillonnage pour prétraiter de grandes séquences biologiques. En particulier les séquences SARS Cov2, principalement en raison de leur disponibilité sur le site de ressources NCBI SARS Cov2.
Photo de Jonathan Borba sur Unsplash

Dans une série d'articles, j'ai utilisé des schémas d'échantillonnage pour prétraiter de grandes séquences biologiques. En particulier les séquences SARS Cov2, principalement en raison de leur disponibilité sur le site de ressources NCBI SARS Cov2.

J'ai utilisé deux schémas de représentation, un schéma basé sur les fréquences et un schéma basé sur les graphes. Dans la base de fréquence, les séquences ont été divisées en fragments qui se chevauchent. Et la fréquence de ces fragments a été utilisée pour trouver une représentation de faible dimension des séquences. Comme les fragments qui se chevauchent ressemblaient à la construction d'un graphe de de Bruijn, j'ai simplement étendu l'idée en utilisant différents schémas de construction de graphes.

Les deux schémas créent une petite représentation de la séquence, mais au stade actuel, il n'est pas possible de recréer la séquence d'origine. Cependant, il est possible d'obtenir un aperçu général de la séquence avec des ressources de calcul limitées.

L'application d'une PCA ou d'un auto-encodeur variationnel VAE à ces schémas de représentation aboutit à une série de clusters à forte composante temporelle.
(Et à partir de ce moment et dans les articles suivants, je ferai référence aux encodages de séquences comme des représentations de séquences basées sur la fréquence ou sur des graphiques. La représentation apprise fera référence au goulot d'étranglement dans le VAE ou un autre réseau. Et la composition fera référence à la représentation basée sur la fréquence de la séquence. Cette distinction est faite car la fréquence de l'élément unique correspond au contenu des différents nucléotides de la séquence. Dans ce cas, la valeur a une signification physique bien définie. Bien que les valeurs restantes ne soient pas claires . )

Projection PCA basée sur la fréquence

Ainsi, les séquences SARS Cov2 contiennent une sorte d'horloge saisonnière à l'intérieur de la séquence. Bien que cette horloge saisonnière puisse être un effet secondaire du biais d'échantillonnage, le nombre d'isolats pour le séquençage est environ 10 à 20 fois plus élevé la deuxième année de la pandémie. La suppression de ce biais d'échantillonnage en sous-échantillonnant les séquences a montré des résultats similaires, des représentations à forte composante temporelle.

Représentation convolutive de la VAE apprise basée sur des graphes

Un VAE est construit par un encodeur et un réseau de décodeurs, l'encodeur donne la représentation apprise. Alors que le décodeur renvoie une approximation du point de données d'origine. Le réseau de décodeurs fonctionne également comme un modèle génératif et offre un moyen d'approximer les changements à l'intérieur de l'entrée. Ainsi, les changements ou les propriétés qui produisent la composante temporelle peuvent être retracés en analysant des points sélectionnés à l'intérieur de la représentation apprise plutôt que l'ensemble de données. Des modèles spécifiques peuvent être obtenus en analysant les caractéristiques de la marche latente de la VAE.

La marche spatiale latente basée sur la fréquence change de fréquence à différents intervalles de temps.

L'horloge à l'intérieur des séquences est codée par le changement de fréquence de différents fragments de 4 bases à l'intérieur du génome du SRAS Cov 2. De plus, les informations temporelles sont principalement codées dans les composants structurels du génome du SRAS Cov 2. Pourtant, cela ne signifie pas que les autres parties du génome viral ne peuvent pas changer. Mais plutôt ces régions "constantes" pourraient suivre un autre type de modèle. Soit le codage de la séquence est incapable de fournir suffisamment d'informations pour caractériser de telles régions.

La marche spatiale latente basée sur des graphiques change à différents intervalles de temps et à différents emplacements du génome

Le traçage de la fréquence de ces combinaisons à 4 bases dans le temps donne un motif semblable à une vague à l'intérieur des tracés.

La composition en 4-mères change dans le temps, regroupée par année

Cependant, lorsqu'au lieu de la date d'isolement comme mesure du temps, j'utilise la durée du jour ou la longueur du jour, ce comportement ondulatoire disparaît.

La composition en 4-mères change dans le temps, regroupée par durée de la journée

L'utilisation de la durée du jour comme mesure du temps est le résultat de plusieurs tentatives de fusion des informations environnementales et des représentations apprises. Les tentatives précédentes ont montré un accord entre les variables environnementales avec un motif en forme de vague.

L'utilisation de la durée du jour comme échelle temporelle plutôt que le calendrier julien a commencé à montrer certaines caractéristiques particulièrement utiles. La plupart des cas étaient confinés aux extrêmes, sur la durée minimale et maximale de la journée à un endroit particulier.

Il a également montré que le taux de variation de la durée de la journée entre des jours consécutifs offrait un moyen d'approcher le début et la fin d'une vague de COVID-19 à un endroit particulier. Cela peut être utilisé pour établir le risque relatif de transmission de la COVID-19. Rejoindre un changement environnemental à la transmissibilité virale, similaire aux changements brusques de température et à la grippe et à certaines autres maladies hivernales.

Pourquoi le virus SARS Cov2 suit-il une telle échelle ? est une question à laquelle je n'ai pas de réponse concrète. Néanmoins, le génome du SRAS Cov2 a une composition similaire à une série de gènes exprimés en raison de l'action du VDR ou du récepteur de la vitamine D. La vitamine D est produite en raison de l'exposition au rayonnement solaire. Pourtant, il est également similaire à une série d'autres gènes apparemment peu impliqués dans le rayonnement solaire. Néanmoins, la température est corrélée à la représentation apprise et également corrélée au rayonnement solaire. La durée du jour semble fonctionner comme une variable de contrôle en maintenant constante la composition de la séquence, et la durée du jour est corrélée au rayonnement solaire. Et certains gènes similaires au SRAS Cov2 sont régulés par le rayonnement solaire. Ainsi, je pense qu'il est prudent de supposer que le rayonnement solaire a un rôle dans l'adaptation temporelle du COVID-19.

Un index complet avec les différentes analyses de séquence et le code peut être trouvé ici . Alors que l'analyse des courbes épidémiques peut être trouvée ici et la prépublication peut être trouvée ici . Si vous avez atteint ce stade et que vous souhaitez m'aider à continuer à développer ces modèles open source, veuillez envisager de rejoindre l'une des différentes plateformes de support répertoriées dans le lien suivant . Évitez les changements brusques de rayonnement solaire et rendez-vous dans le prochain.