Comment l'ADN est séquencé

Le séquençage de l'ADN au cours des dernières décennies est passé d'un domaine étroit, géré par un petit nombre de scientifiques, à l'une des technologies à la croissance la plus rapide. La croissance de la productivité et la baisse des coûts sont même en avance sur la loi de Moore et, en raison de la forte concurrence sur le marché et de la forte demande, le développement continuera à un rythme élevé. En outre, le développement du séquençage a conduit au même boom de la bioinformatique et de la biologie radicalement modifiée, et, progressivement, change également fondamentalement la médecine.



Par kat, je vous en dis plus sur la façon dont ils le font.

Qu'est-ce que l'ADN?
Pour commencer, pour comprendre le processus lui-même, un peu de théorie nécessaire.
L'ADN est une chaîne polymère composée de quatre types de monomères appelés nucléotides, dont la séquence code pour des informations sur le corps. En d'autres termes, l'ADN peut être représenté sous forme de texte écrit dans un alphabet à quatre lettres. L'ADN est une molécule constituée de deux chaînes, et bien que la séquence de nucléotides soit différente, la séquence d'une chaîne peut être restaurée sans ambiguïté si la séquence de l'autre est connue. Par conséquent, les chaînes sont dites complémentaires. (Complément d'ingénierie - supplément) Cette propriété est utilisée lors de la copie d'une cellule lorsque les brins d'ADN sont déroulés, et sur chacun, comme sur une matrice, la seconde est synthétisée, et chacune des deux cellules filles reçoit son ADN double brin. La séquence d'ADN entière d'un organisme s'appelle un génome. Par exemple, le génome humain se compose de 46 chromosomes.

Malgré le grand nombre de méthodes diverses, expérimentales et obsolètes, les méthodes commerciales traditionnelles sont assez similaires, et afin de ne pas faire de réserves à chaque fois, je dirai tout de suite qu'il s'agira de ces méthodes traditionnelles.

A quoi cela ressemble en général
Avant de décrire la technologie de séquençage, pour une compréhension intuitive, je vais tirer l'analogie suivante: ils font exploser une pile de journaux identiques pour qu'ils se séparent en petits morceaux avec des fragments de texte, puis chacun de ces morceaux est lu et, à partir de ces lectures, le texte est restauré journal original.

Pour séquencer l'ADN, il est d'abord isolé de l'échantillon à tester, puis coupé en petits fragments au hasard, les fragments sont appelés lectures. Une chaîne est laissée de chaque lecture, et la seconde est synthétisée sur cette chaîne, comme sur une matrice, et le type de chaque nucléotide suivant attaché est en quelque sorte détecté. Ainsi, en enregistrant la séquence de nucléotides joints, restaurez leur séquence à chaque lecture. Ensuite, le génome est reconstruit à partir de lectures informatiques à l'aide de programmes informatiques.

Un point important. La longueur totale des lectures doit être plusieurs fois supérieure à la longueur de l'ADN étudié. Cela est dû au fait que lorsque l'ADN est extrait de l'échantillon et lorsqu'il est coupé, une partie de celui-ci est perdue, donc personne ne garantit que chacune de ses sections tombera dans au moins une lecture. Par conséquent, pour garantir la lecture de chaque section, l'ADN est prélevé avec une grande marge. De plus, des erreurs peuvent survenir pendant le séquençage et pour lire l'ADN de manière plus fiable, chaque section de celui-ci doit être lue plusieurs fois.


L'ADN est coupé en lectures qui lisent, et à partir d'eux, restaure la séquence d'origine

Cette technique n'est pas utilisée pour une bonne vie. Cela ajoute beaucoup de difficultés, et si les chercheurs pouvaient prendre et lire toute la séquence du génome à la fois, ils seraient heureux, cependant, ce n'est pas possible pour le moment.
Il y a 2 raisons à cela. Le premier est les erreurs qui se produisent lors de la lecture de chaque nucléotide. Ils s'accumulent progressivement et chaque nucléotide suivant est moins bien lu que le précédent, et à un moment donné la qualité de la lecture est si réduite qu'il est inutile de continuer le processus. Pour différentes méthodes de séquençage, la longueur de la lecture, qu'ils peuvent bien lire, est de l'ordre de dizaines ou centaines de nucléotides. La seconde est que l'ADN est une molécule très longue et, avec une lecture scrupuleuse de chaque lettre après ami, le séquençage prendrait un temps indécent, et dans ce cas, ce processus est facilement parallélisé, et des millions et des milliards de lectures peuvent être lues en même temps.



Illumina
Un tel schéma décrit toutes les techniques de séquençage populaires. Ils ne diffèrent que par les méthodes de détection des nucléotides joints lors de la synthèse et par la méthode de préparation du matériel.

À ce jour, la méthode la plus courante est utilisée dans les séquenceurs Illumina. Dans cette méthode, tout d'abord, de nombreuses lectures différentes sont attachées à la plaque de verre. Ensuite, à partir de chaque lecture, de nombreuses copies sont faites sur la surface de la plaque de sorte que seules des copies identiques se trouvent sur chaque petite section de celle-ci. Ceci est fait de sorte que lors du séquençage ultérieur, il reçoive un signal non pas d'une seule molécule, mais d'un groupe de molécules identiques situées à proximité. Le signal est donc plus facile à lire et la fiabilité de la lecture augmente. Ces molécules sont de l'ADN simple brin et des chaînes complémentaires y sont synthétisées lors du séquençage. La réaction de synthèse est réalisée comme suit: Un nucléotide est attaché au début de chaque molécule. Ce nucléotide est chimiquement bloqué doncqu'après son ajout, la synthèse ne va pas plus loin. De plus, une étiquette y est attachée, qui sous l'action d'un laser luminescente. De plus, pour chaque type de nucléotides, la couleur de luminescence est différente. Une fois le nucléotide attaché, la plaque est éclairée par un laser et la caméra capture les couleurs avec lesquelles la plaque est luminescente. Après cela, le verrou est retiré, l'étiquette est également retirée et le nucléotide suivant est attaché de la même manière. La séquence de signaux lumineux à chaque section de la plaque dans l'ordinateur est traduite en une séquence de nucléotides et, à la sortie, un fichier contenant la séquence de lectures est obtenu.Une fois le nucléotide attaché, la plaque est éclairée par un laser et la caméra capture les couleurs avec lesquelles la plaque est luminescente. Après cela, le verrou est retiré, l'étiquette est également retirée et le nucléotide suivant est attaché de la même manière. La séquence de signaux lumineux à chaque section de la plaque dans l'ordinateur est traduite en une séquence de nucléotides et, à la sortie, un fichier contenant la séquence de lectures est obtenu.Une fois le nucléotide attaché, la plaque est éclairée par un laser et la caméra capture les couleurs avec lesquelles la plaque est luminescente. Après cela, le verrou est retiré, l'étiquette est également retirée et le nucléotide suivant est attaché de la même manière. La séquence de signaux lumineux à chaque section de la plaque dans l'ordinateur est traduite en une séquence de nucléotides et, à la sortie, un fichier contenant la séquence de lectures est obtenu.


Illumina
1 — 2 — 3 — , 4 — 5 — 6 — 7 —



Si les génomes d'organismes proches n'ont pas été séquencés auparavant, alors à partir des lectures, puis, à l'aide de programmes, ils essaient d'assembler une seule séquence nucléotidique. Les anches se chevauchent partiellement et, en utilisant ces chevauchements, elles essaient de construire une seule séquence. De nombreux points compliquent considérablement la question. Par exemple, vous pouvez contaminer un échantillon et le programme essaiera de construire une séquence à partir de l'ADN de différents organismes. Le séquenceur peut faire une erreur lors de la lecture de la lecture, ou lier incorrectement les deux endroits dans le génome, car ils sont très similaires. En fait, il y a tellement de difficultés que vous ne listerez pas tout le monde ici. Et, certains d'entre eux sont si difficiles à éliminer que même le génome humain, le génome le plus important et le plus étudié, n'est toujours pas séquencé jusqu'à la fin.


lit et au-dessous de la séquence du génome, qui est reconstruite à partir d'eux.

Lorsque la séquence du génome est assemblée, vous devez comprendre ce que cela signifie. On y trouve des zones qui ressemblent à des gènes. Cela se fait comme suit: Au début et à la fin des gènes, il y a certains «marqueurs» de nucléotides, et si l'ADN contient de telles séquences à une distance telle qu'un gène peut s'adapter entre elles, alors cet endroit est inscrit dans la liste des gènes potentiels. Ensuite, ce demandeur est comparé à une base de données de gènes déjà connus d'autres organismes, et si l'on y trouve un gène assez similaire à ce site, alors on lui attribue la fonction de ce gène.

Si le génome d'un autre organisme de cette espèce a déjà été séquencé, il est utilisé pour l'assemblage. Comme les génomes de différents organismes de la même espèce ne diffèrent que légèrement, pour chaque lecture ils trouvent une place sur le génome séquencé dont il est le plus proche, et un nouveau est assemblé sur la base de ce génome.

Source: https://habr.com/ru/post/fr385865/


All Articles