Génétique du cultivar Romanesco: un modèle mathématique fractal d'expression des gènes



Qu'ont en commun les flocons de neige, le chou romanesco, les étoiles de mer, la foudre et les arbres? Vous ne le direz pas immédiatement, mais d’un point de vue mathématique, tous ces objets ont une caractéristique commune - la fractalité. Aux yeux des mathématiques, tout dans notre monde obéit aux lois de la «Reine des sciences». Tout phénomène, processus ou objet peut être exprimé sous forme mathématique, ce qui permet de l'analyser sous un nouvel angle, pour ainsi dire. Depuis de nombreuses années, les scientifiques tentent de créer la représentation mathématique parfaite des gènes, de leurs relations et des processus dans lesquels ils sont impliqués. Aujourd'hui, nous allons parler de la façon dont les fractales ont aidé à jeter les bases d'un modèle mathématique complètement nouveau des gènes humains du point de vue du cancer. Qu'est-ce qu'une fractale, pourquoi est-elle si importante pour les généticiens et les mathématiciens, et comment un nouveau modèle mathématique peut-il aider la médecine moderne? Nous chercherons des réponses dans le rapport du groupe de recherche. Allons-y.

Retraite théorique

Pour commencer, il vaut la peine de comprendre brièvement ce qu'est une fractale et avec quoi elle est mangée.

Une fractale est un ensemble avec des propriétés d'auto-similitude. Autrement dit, lorsque quelque chose se compose de plusieurs mini-copies de lui-même.



Les fractales se retrouvent dans divers phénomènes physiques: de la diffusion à la turbulence. On peut appeler cela des manifestations naturelles de fractales. Les gens ont également découvert l'utilisation des fractales: en infographie, en ingénierie radio, en technologies de réseau, etc.

Les fractales sont très colorées dans le film «Doctor Strange» (2016), lorsque l'Ancien envoie le protagoniste en excursion le long de dimensions parallèles.


Vue un peu désagréable, mais démontrant clairement une fractalité.

Même sur les étagères du supermarché, vous pouvez trouver des manifestations de fractalité, à savoir l'exemple du chou Romanesco ou du chou-fleur.

Si nous prenons en compte qu'il existe de nombreux types d'ensembles avec des propriétés fractales, on peut affirmer que presque tout ce qui nous entoure est d'une manière ou d'une autre lié aux fractales. Et le corps humain, en particulier ses gènes, ne fait pas exception. Étant donné que les fractales peuvent être expliquées mathématiquement en triant les composants, l'utilisation d'un tel modèle sur les gènes humains peut considérablement aider à comprendre les divers processus qui se produisent dans notre corps, y compris diverses maladies, pathologies et autres choses désagréables.

L'un des processus les plus importants de notre corps est l'expression des gènes (image 1a ), lorsque les informations héréditaires des gènes sont transformées en un produit fonctionnel. En d'autres termes, nos cellules par l'expression des gènes contrôlent leur structure et leur fonction. Nos gènes sont une base de données à partir de laquelle toutes les cellules du corps dérivent des informations, remplissant les fonctions nécessaires par la suite. Par conséquent, notre bouche ne pousse pas les cheveux, le système immunitaire combat les infections, les cellules sanguines transportent l'oxygène, etc. Tous ces processus se produisent précisément en raison de la programmation des cellules pour effectuer des tâches spécifiques, qui à leur tour est possible grâce à la synthèse des protéines à partir de l'activation d'un gène particulier.


Image n ° 1

La régulation de l'expression des gènes indique quand, combien et combien de temps certaines protéines doivent être produites. Par conséquent, l'étude de ce processus est d'une grande importance pour une compréhension complète du fonctionnement de certains mécanismes de contrôle des organismes.

Ce processus complexe est important pour les scientifiques, car ayant la possibilité de le contrôler, ils seront en mesure de créer certaines cellules synthétiques dotées de fonctions claires, en particulier la délivrance de médicaments anticancéreux au cœur même de la maladie pour un traitement plus efficace.

Afin d'améliorer les méthodes de traitement de ces maladies, il est nécessaire d'apprendre plus en détail l'aspect génétique. Pour ce faire, les scientifiques proposent de présenter le corps humain sous la forme d'un programme, où les gènes agissent comme des lignes de code qui peuvent être modifiées si le programme fonctionne avec un dysfonctionnement. Pour réaliser cela, vous devez d'abord créer un modèle mathématique du gène. Pour le moment, de tels modèles existent déjà, mais ils ne peuvent pas être représentatifs car ils visaient à étudier la dynamique du réseau de gènes. Dans cette même étude, qui a appliqué le concept de fractales, les scientifiques ont décidé de se concentrer sur le processus d'expression d'un gène particulier, puis d'appliquer la corrélation croisée entre les paires gène- FT * ( 1b ).
Le facteur de transcription (FT) * est une protéine de contrôle de la synthèse d'ARNm qui contient des informations sur la structure primaire des protéines sur la matrice d'ADN en se liant à des sites d'ADN spécifiques.
En termes simples, les scientifiques ont décidé de creuser un peu plus profondément, après avoir examiné non pas le «mur» dans son ensemble, mais les «briques» individuelles.

RĂ©sultats de recherche

Les sujets de cette étude étaient le champignon Saccharomyces cerevisiae (levure de boulangerie) et la bactérie Escherichia coli (Escherichia coli).

En analysant les données statistiques de l'expression génétique des sujets expérimentaux, le coefficient Hurst * a été calculé.
Le coefficient de Hurst * est une mesure de l'analyse des séries chronologiques.
Séries temporelles * - un ensemble de données statistiques collectées à différents intervalles de temps sur un indicateur.


Image n ° 2

Les figures 2a (levure) et 2b (Escherichia coli) montrent des graphiques bilogarithmiques * des fluctuations en fonction de l'échelle des séries temporelles FT.
Le graphique bilogarithmique * est un graphique de données bidimensionnel utilisant une échelle logarithmique sur les deux axes (vertical et horizontal).
La pente de la courbe dans ces graphiques correspond au coefficient de Hurst. Il convient de noter que 95% (levure) et 98% (bacille) des séries chronologiques de gènes ont montré une dépendance à long terme * .
Dépendance à long terme * - un indicateur dans l'analyse des séries chronologiques, indiquant la lente atténuation de la dépendance statistique de deux points avec une augmentation de l'intervalle de temps entre eux. Il est déterminé par l'indicateur du coefficient de Hurst - de 0 à 1. Si l'indicateur est supérieur à 0,5, nous avons alors une relation à long terme solide, inférieure à 0,5 - l'effet inverse.
Le coefficient de dépendance à long terme de Hurst dans ce cas particulier était de 0,5, ce qui indique son absence, en théorie. Cependant, une analyse plus approfondie des données a montré que cet indicateur dépasse une valeur de 0,5, ce qui indique la présence d'une dépendance à long terme des séries chronologiques dans l'expression génétique ( 2c et 2e ). Cela suggère que la série temporelle du gène-FT ne peut pas être considérée comme quelque chose d'aléatoire, donc ils devraient être modélisés sur la base de la chaîne de Markov lorsqu'il y a une série d'événements, le caractère aléatoire de chacun d'eux dépend uniquement de l'événement précédent.

Comme les gènes, les facteurs de transcription ont également montré une relation à long terme: à 97% pour la levure et pour le bacille (graphiques 2d et 2f ).

Ajoutez maintenant une pincée d'analyse fractale au bol commun. Pour commencer, les scientifiques attirent notre attention sur la bimodalité de la distribution du coefficient de Hurst. Cela se voit mieux dans les graphiques 2c et 2e. Les scientifiques expliquent cette observation par le fait qu'il existe des processus de diffusion dans l'expression des gènes qui ont plusieurs potentiels de diffusion. Par conséquent, la bimodalité peut être expliquée par le mouvement brownien hors équilibre avec différents potentiels. Mais cette déclaration nécessite des preuves supplémentaires, que les scientifiques rechercheront dans les études suivantes.

Et maintenant, nous reviendrons à la multifractalité. Les scientifiques ont utilisé une analyse multifractale des fluctuations de tendance pour déterminer la présence / absence de caractéristiques multifractales dans les séries chronologiques d'expression des gènes. Cette analyse a montré la présence des deux gènes et FT.

Les scientifiques ont également appliqué la méthodologie bootstrap * pour déterminer avec précision (plus précisément, pour confirmer) la présence d'une dépendance à long terme, étant donné la durée limitée des séries chronologiques expérimentales.
Bootstrap * - une technique pour analyser les statistiques des distributions de probabilité.
Pour chaque série temporelle d'expression génique, 10 sous-intervalles aléatoires ont été préparés, chacun contenant 90% du fragment ordonné de la série temporelle initiale. De plus, pour toutes les options, le coefficient Hurst a été calculé. Ainsi, la différence a été obtenue entre les indicateurs de la série temporelle expérimentale et les versions aléatoires. Pour E. coli, la différence n'était que de 0,006% et pour la levure de boulangerie encore moins - 0,0001%. Ainsi, la présence d'une dépendance à long terme dans les deux échantillons a été confirmée.

Après avoir examiné séparément les caractéristiques du gène et du FT qui sont intéressantes, les scientifiques se sont mis à analyser les paires gène-FT comme un seul objet. Le calcul de l'indice de corrélation croisée a montré que 98% des paires gène-FT (dans les deux échantillons) possèdent les propriétés de dépendance à long terme ( 3a ).


Image n ° 3

Une analyse multifractale des fluctuations de tendance a confirmé la présence de caractéristiques multifractales dans les paires gène-FT (graphique 3b ).

Il convient de noter que, indépendamment du fait que des corrélations croisées fractales et à long terme ont été observées dans des paires de gènes et des facteurs de transcription dans les réseaux de régulation des gènes, la corrélation croisée n'était pas la même pour toutes les paires. Les graphiques 3c (levure) et 3d (Escherichia coli) montrent la corrélation croisée des paires gène-FT.

Les scientifiques ont utilisé ces graphiques pour mesurer l'entropie informationnelle et, par conséquent, le contenu informationnel du réseau de régulation des gènes pour divers types de cellules pour l'analyse quantitative et la spécification des réseaux de régulation des gènes. Les indicateurs d'entropie étaient: 4,18 - levure, 5,29 - E. coli. Et cela suggère que le réseau d'expression génique de la levure de boulangerie est beaucoup plus grand et présente une dynamique plus complexe que le réseau d'expression génique d'Escherichia coli.

Et maintenant, la chose la plus intéressante est la création d'un modèle mathématique. Les scientifiques ont choisi deux versions du modèle: l'ensemble de Mandelbrot et l'ensemble sous la forme d'arbres dyadiques en ondelettes.

En utilisant les indicateurs précédemment obtenus du coefficient de Hölder dans le spectre multifractal, les scientifiques ont découvert que seulement 0,04 de toutes les paires de gènes-FT dans le réseau de régulation des gènes de levure de boulanger peuvent être modélisées en utilisant l'ensemble de Mandelbrot. Et dans E. coli, pas une seule paire ne peut être modélisée par cette méthode.

Si nous considérons les paires qui ont pu simuler, il y avait alors une énorme différence dans les données entre le modèle et les observations expérimentales. En conclusion, la méthode de modélisation due à l'ensemble de Mandelbrot n'est pas adaptée.


Image n ° 4

Les résultats de l'utilisation du modèle basé sur l'ensemble de Mandelbrot sont présentés dans les graphiques ci-dessus. Le plus brillant est 4c , où nous pouvons voir à quel point les données divergent.

Les scientifiques ont également comparé la multifractalité observée des interdépendances dans le réseau de régulation des gènes et le modèle multifractal de cascades aléatoires sur des arbres ondelettes-dyadiques.

Les chercheurs ont décidé de vérifier si le modèle logarithmique de la cascade W est adapté à la représentation des paires gène-FT dans les réseaux de régulation des gènes. Sur la base du spectre empirique et du spectre des singularités, les paramètres de ce modèle ont été calculés. Ensuite, des calculs ont été effectués sur les zones d'intersection des spectres multifractaux calculés et empiriques, dont le rapport est devenu le principal critère d'acceptation ou de rejet de ce modèle mathématique multifractal.


Image n ° 5

Comme on peut le voir sur les graphiques ci-dessus, démontrant les spectres multifractaux simulés et empiriques, ce modèle est presque entièrement corrélé avec les données des observations et calculs effectués précédemment.

Pour une connaissance plus détaillée des nuances de l'étude, je vous recommande de consulter le rapport du groupe de recherche sur ce lien .

Épilogue

Cette étude, étant principalement théorique, a un grand potentiel d'utilisation pratique, car elle a aidé à modéliser mathématiquement le réseau de régulation de l'expression des gènes - l'un des processus les plus importants de tout organisme vivant. Les processus complexes sont difficiles à comprendre, même si cela semble étrange. Afin de faciliter la tâche, il est nécessaire de diviser le processus en composants, d'établir leurs «cartes» et de suivre l'itinéraire souhaité, en notant toutes les caractéristiques et caractéristiques importantes. La modélisation mathématique, comme rien d'autre, est idéale pour cela. Après avoir étudié le modèle mathématique d'un objet ou d'un processus, nous pouvons comprendre ce à quoi nous avons affaire avant de poursuivre l'étude de l'objet ou du processus réel.

Cette étude a une fois de plus confirmé que non seulement la physique et la chimie dominent le monde, mais que les mathématiques sont loin d'être la dernière place de l'Olympe des sciences.

Merci de votre attention, restez curieux et bonne semaine de travail, les gars.

Merci de rester avec nous. Aimez-vous nos articles? Vous voulez voir des matériaux plus intéressants? Soutenez-nous en passant une commande ou en le recommandant à vos amis, une réduction de 30% pour les utilisateurs Habr sur un analogue unique de serveurs d'entrée de gamme que nous avons inventés pour vous: Toute la vérité sur VPS (KVM) E5-2650 v4 (6 cœurs) 10 Go DDR4 240 Go SSD 1 Gbps à partir de 20 $ ou comment diviser le serveur? (les options sont disponibles avec RAID1 et RAID10, jusqu'à 24 cœurs et jusqu'à 40 Go de DDR4).

VPS (KVM) E5-2650 v4 (6 cœurs) 10 Go DDR4 240 Go SSD 1 Gbit / s jusqu'au 1er janvier gratuitement si payé pour une période de six mois, vous pouvez commander ici .

Dell R730xd 2 fois moins cher? Nous avons seulement 2 x Intel Dodeca-Core Xeon E5-2650v4 128 Go DDR4 6x480 Go SSD 1 Gbps 100 TV à partir de 249 $ aux Pays-Bas et aux États-Unis! Pour en savoir plus sur la création d'un bâtiment d'infrastructure. classe utilisant des serveurs Dell R730xd E5-2650 v4 coûtant 9 000 euros pour un sou?

Source: https://habr.com/ru/post/fr434174/


All Articles