Les technologies de séquençage du génome humain - 1

Publié le 25 juillet 2012 et mis à jour le 28 août 2012 - 13 commentaires -
PDF Afficher une version imprimable de cet article
   

Depuis quelques années, je pro­fite de l’été pour creu­ser un sujet un peu hors des sen­tiers bat­tus. En 2009, c’était sur la cap­ture d’images d’Apollo 11 à l’occasion du qua­ran­tième anni­ver­saire des pre­miers pas de l’homme sur la Lune. L’année der­nière, c’était sur les racines anciennes du retard fran­çais dans l’adoption des tech­no­lo­gies de la com­mu­ni­ca­tion. Cette année, chan­ge­ment de bra­quet. On passe à la géné­tique ! Ce sont un peu mes “devoirs de vacances”. Cha­cun son truc… !

Dans le Rap­port du Consu­mer Elec­tro­nics Show de Las Vegas de 2012, j’avais rapi­de­ment évoqué le cas d’une machine per­met­tant le séquen­çage du génome humain de manière rela­ti­ve­ment abor­dable et en une journée :

“Enfin, on pou­vait voir ce Pro­ton de la société Ion Tor­rent,  un ana­ly­seur d’ADN (semi­con­duc­tor sequen­cer) sur le stand de Scien­ti­fic Ame­ri­can. Ce séquen­ceur ADN décode votre génome en une jour­née et pour $1000 avec tout cela com­porte comme impli­ca­tion dans la détec­tion de patho­lo­gies et ter­rain géné­tique favo­rable ou pas. Il fonc­tionne avec un cap­teur CMOS voi­sin de celui d’un appa­reil photo capable de déco­der 660 mil­lions de génomes en une jour­née. Com­ment ça marche ? Assez com­pli­qué à com­prendre et à expli­quer. Ces cap­teurs CMOS ont des tran­sis­tors à effet de champs qui détectent la quan­tité d’ions d’hydrogènes géné­rés par la poly­mé­ri­sa­tion de l’ADN. On peut mettre un peu plus d’un mil­lion de ces tran­sis­tors sur ces cap­teurs CMOS. La machine est ven­due $150K. Comme l’impression 3D, encore un truc qui va deve­nir mains­tream dans peu de temps ! Lit­té­ra­ture sur la ques­tion ici et . Avec les tech­no­lo­gies de big data, ce n’est rien de moins que la gué­ri­son des can­cers grâce à l’analyse géné­tique et à des trai­te­ments ciblés qui est anticipée”.

Proton Semidonductor Sequencer

J’ai voulu en savoir plus pour com­prendre com­ment ce genre d’engin pou­vait fonc­tion­ner. C’est bien le tout d’évoquer un cap­teur CMOS et ses mil­lions de pixels. Mais là, ce n’est pas de la photo. Il s’agit d’identifier les cen­taines de mil­lions de séquences de nucléo­bases qui s’enchainent dans l’ADN de nos chro­mo­somes. Concep­tuel­le­ment, c’est assez com­plexe, et bien plus que la méca­nique de détec­tion des fameux bosons de Higgs qui repose sur l’envoi les uns contre les autres de pro­tons ultra-énergisés dans l’énorme LHC du CERN de Genève.

Com­ment ces pixels de CMOS font-ils donc pour détec­ter les séquences d’ADN ? Com­ment la machine les met-elle dans l’ordre ? Quelle dif­fé­rence il y-a-t-il entre le séquen­çage géné­rique du génome humain et celui, per­son­na­lisé, de tout un cha­cun ? Quelles patho­lo­gies peut-on trai­ter grâce à un séquen­çage pour tous ? Com­ment ces tech­no­lo­gies vont-elles ou peuvent-elles se com­mo­di­ti­ser ? A quel prix ? Et avec quels types de machines ?

Quel est donc le lien avec la ligne édito­riale de ce blog ? La bio­lo­gie y est clai­re­ment hors-sujet. Elle pour­rait même nous emme­ner loin dans les méandres des débats entre évolu­tion­nistes et créa­tion­nistes. En effet, la bio­lo­gie molé­cu­laire est incroya­ble­ment com­plexe et riche de molé­cules et pro­ces­sus chi­miques divers. Quand on les décor­tique un par un, on leur trouve tous une cau­sa­lité scien­ti­fique et leur ori­gine peut sou­vent s’expliquer par des pro­ces­sus de nature évolu­tion­niste. Mais on peut faci­le­ment être fas­ciné par le génie du vivant et lui cher­cher un “créa­teur”. D’où les théo­ries du “design intel­li­gent” lar­ge­ment débat­tues aux USA.

On va tout de même reve­nir à la tech­no­lo­gie “de base” avec les cap­teurs CMOS et les trai­te­ments numé­riques de l’information. Il y aura même des mor­ceaux de big data dedans, même si ce n’est pas ma tasse de thé. Et on par­lera aussi d’initiatives d’IBM et de Google dans le domaine.

Alors, allons-y ! Cela néces­si­tera plu­sieurs par­ties : d’abord, un rap­pel des basiques de l’ADN façon cours de sciences natu­relles du secon­daire, puis sur les tech­niques de son séquen­ce­ment et enfin, un tour dans la par­tie numé­rique des opérations.

Décor­ti­quer l’ADN

L’ADN, tout le monde en a une idée géné­rale. On en a tous entendu par­ler à l’école. C’est une molé­cule qui contient le code géné­tique à l’origine de la vie ani­male et végé­tale, qui per­met la repro­duc­tion mais qui explique aussi cer­taines patho­lo­gies dites géné­ti­que­ment transmissibles.

Avant de voir com­ment on décode l’ADN, on va tout de même reprendre les basiques de la bio­lo­gie molé­cu­laire pour établir le voca­bu­laire, assez riche, du sujet. Nous allons pour ce faire emboi­ter une à une les pou­pées russes du vivant en allant du plus petit au plus grand, sachant que je me suis très lar­ge­ment appuyé sur Wiki­pe­dia pour recons­ti­tuer cette série, mais pas seule­ment, ayant trouvé pas mal de lit­té­ra­ture sur le sujet dont un article fon­da­men­tal publié en février 2001 dans Nature : “Ini­tial sequen­cing and ana­ly­sis of the human genome”. Je vous épargne tout de même l’échelle subatomique !

Quand j’en trouve la trace, j’indique la date et le ou les auteurs de la décou­verte de la struc­ture en ques­tion, qui sont très sou­vent deve­nus des prix Nobel de méde­cine. Je fais aussi le paral­lèle côté dimen­sions entre le code géné­tique et les micro-processeurs d’aujourd’hui, his­toire de com­prendre le défi qui se pose dans le déco­dage du génome. A vrai dire, l’écriture de cette série d’articles m’a fait décou­vrir un monde fas­ci­nant de connais­sances, qui se déve­loppe de manière expo­nen­tielle depuis des décen­nies. La connais­sance que l’on a des méca­nismes du vivant est incroya­ble­ment détaillée, et en même temps tou­jours insa­tis­fai­sante au vu de la dif­fi­culté à trou­ver des trai­te­ments adé­quats à cer­taines patho­lo­gies (myo­pa­thies, can­cers, dia­bète, mala­dies tro­pi­cales, etc).

Dans nous allons exa­mi­ner dans l’ordre crois­sant d’intégration les éléments sui­vants : nucléo­bases, nucléo­tides, ADN, codons, séquences codantes, gènes, nucléo­somes, nucléo­somes, nucléo­fi­la­ments, chro­ma­tine, chro­mo­some, nucléole avec un petit détour par les mito­chon­dries, noyau, génome et enfin cel­lule. C’est parti…

Nucléo­bases

Ce sont les molé­cules de base de la construc­tion de l’ADN et de l’ARN qui est créé à par­tir de l’ADN. Il y en a cinq dif­fé­rentes : l’adénine (A), la cyto­sine (C), la gua­nine (G), la thy­mine (T) et l’uracile (U). Les quatre pre­mières se trouvent dans l’ADN et la der­nière se trouve dans les dif­fé­rentes formes d’ARN, en lieu et place de la thy­mine. Ces molé­cules sont à base d’azote, d’hydrogène, d’oxygène et de car­bone. L’identification de ces molé­cules date de 1929 par le russo-américain Phoe­bus Aaron Levene.

Nucleobases

Nucléo­tides

Ce sont des molé­cules orga­niques qui consti­tuent les brins d’ADN. Elles s’appuient sur une des quatre nucléo­bases de l’ADN, un sucre (un pen­tose, soit une molé­cule mono­sac­ca­ride dotée de cinq atomes de car­bone) et des grou­pe­ments phos­pha­tés (mono, di ou triphosphates).

Plus pré­ci­sé­ment, l’ADN s’appuie sur des nucléo­tides mono­phos­pha­tées : le dAMP (désoxy­adé­no­sine mono­phos­phate), le dTMP (désoxy­thy­mi­dine mono­phos­phate), le dGMP (désoxy­gua­no­sine mono­phos­phate) et le dCMP (désoxy­cy­to­sine mono­phos­phate). Mais lorsque l’on parle du déco­dage de l’ADN, on uti­lise comme sys­tème de nota­tion celui des nucléo­bases (A, C, G et T) que contiennent ces nucléo­tides (dAMP, dCMP, dGMP et dTMP). Les chro­mo­somes humains com­prennent près de 6 mil­liards de nucléotides.

Nucleotides

ADN

Acide désoxy­ri­bo­nu­cléique, c’est la longue chaine qui contient le code géné­tique dans les chro­mo­somes de nos cel­lules. Sa struc­ture molé­cu­laire de base est en double hélice qui com­prend une suite de paires de bases entou­rées de leur sucre-phosphate qui sont reliés entre elles par des liai­sons sucre-phosphate.

Côté bases, chaque côté de l’hélice est le miroir de l’autre : une base A est tou­jours asso­ciée à une base T  (via deux liai­sons hydro­gène) et une base G à une C (via trois liai­sons hydro­gène). Cet agen­ce­ment a été décou­vert grâce à une tech­nique de dif­frac­tion aux rayons X mise en œuvre en pre­mier sur l’ADN par Rosa­lind Frank­lin en 1952. Il s’appuyait sur la décou­verte anté­rieure, de Char­gaff, en 1949, de la pro­por­tion équi­va­lente des bases A et T puis G et C dans les cel­lules, et constante pour chaque espèce vivante. Les liai­sons hydro­gène - qui relient les paires de bases dans l’ADN - sont de faible éner­gie, ce qui faci­lite la sépa­ra­tion des brins d’ADN et leur répli­ca­tion. On peut ainsi sépa­rer les deux brins d’un ADN par simple réchauf­fe­ment alors que celui-ci ne sépa­rera pas les nucléo­tides les uns des autres car ils sont reliés par une liai­son de forte éner­gie (oxygène-phosphate).

Les deux hélices de l’ADN ne sont pas espa­cées de manière égalée : le grand sillon fait 2,2 nm de haut et le petit, 1,2 nm. Comme tout s’explique, cela vient de l’angle des liai­sons hydro­gène qui asso­cient les paires de bases. Un peu comme si on tirait vers le haut ou vers le bas une des hélices de l’ADN.

C’est en 1958 que Mesel­son et Stahl découvrent le pro­ces­sus de répli­ca­tions dite semi-conservative de l’ADN qui voit chaque bras de l’hélice répli­qué pour créer une molé­cule d’ADN iden­tique à celle d’origine. Sachant néan­moins que l’on dis­tingue tou­jours un bras “ori­gi­nal” et un bras conte­nant une sorte de néga­tif, un peu comme dans la photo argen­tique. Le bras ori­gi­nal est iden­ti­fié par le sens des liai­sons phosphate-sucre entre les nucléotides.

Agencement ADN

Il y a envi­ron deux mètres linéaires d’ADN dans chaque cel­lule humaine sachant que l’ADN y est très dense comme nous allons le voir plus loin. La décou­verte de L’existence de l’ADN et de son fonc­tion­ne­ment a pris plus d’un siècle avec pour com­men­cer son iden­ti­fi­ca­tion en 1869 par Mies­cher et la modé­li­sa­tion de sa struc­ture en hélice et paires de bases par Wat­son et Crick en 1953. Le fonc­tion­ne­ment de la machi­ne­rie de la repro­duc­tion des cel­lules ainsi que celle de la créa­tion des pro­téines ont été décou­vertes dans les décen­nies sui­vant 1953.

Codons

Iden­ti­fiés par Bren­ner et Crick en 1960 puis Niren­berg et Mat­thaei en 1961, il s’agit du niveau d’intégration sui­vant dans l’ADN et la chaine du vivant. Ce sont des séquences de trois nucléo­tides spé­ci­fiant l’un des 22 acides ami­nés qui sont eux-mêmes les pri­mi­tives de consti­tu­tion des pro­téines qui servent de base au fonc­tion­ne­ment interne des cel­lules vivantes. Les acides ami­nés ont été décou­verts entre le début et la fin du 19ième siècle. D’où viennent-ils dans le corps humain ? 12 sont syn­thé­ti­sés par le pro­ces­sus méta­bo­lique par décou­page des pro­téines de notre ali­men­ta­tion et 9 sont d’origine externe.

Ces séquences de codons se trouvent dans l’ADN. Elles sont trans­mises à de l’ARNm (acide ribo­nu­cléique mes­sa­ger) lors de la trans­crip­tion des gènes de l’ADN qui s’appuie sur de l’ARN poly­mé­rase. L’ARNm sort du noyau des cel­lules pour atteindre le cyto­plasme où il est trans­formé en pro­téines grâce à l’action de ribo­somes, des pro­téines com­plexes et de l’ARNt (ARN de transfert).

 

Transcription ADN

La com­po­si­tion de l’ARN a été décou­verte par Vol­kin et Astra­chan en 1956. Le rôle de l’ARNm a été iden­ti­fié en 1961 par les fran­çais Monod et Jacob. Autre manière de décrire cette belle méca­nique : l’ARNm est un code qui est exploité par les outils que sont les ribo­somes et l’ARNt pour créer les protéines.

La suc­ces­sion des codons sur l’ARNm déter­mine la struc­ture pri­maire de la pro­téine qui sera syn­thé­ti­sée, soit l’enchainement linéaire des molé­cules. La “struc­ture secon­daire” décrit son orga­ni­sa­tion tri­di­men­sion­nelle et la “struc­ture ter­tiaire” décrit la manière dont la molé­cule se replie sur elle-même, ce qui donne à la pro­téine sa fonc­tion­na­lité. Ces replie­ments sont la consé­quence phy­sique et chi­mique de la com­po­si­tion en acides ami­nés des pro­téines. Dans cer­tains cas se créent des sites actifs que l’on appelle les enzymes.

Les ARN mes­sa­gers créés par trans­crip­tion de l’ADN sont consti­tués d’une suc­ces­sion de plu­sieurs dizaines à cen­taines de nucléo­tides. Nous avons vu que dans l’ARN, quatre bases nucléiques déter­minent la séquence d’un codon : adé­nine, gua­nine, ura­cile et cyto­sine. Ce qui donne 43 = 64 codons dif­fé­rents, ser­vant au codage de 22 acides ami­nés dif­fé­rents (for­mules chi­miques ci-dessous ).

Acides amines

La table de cor­res­pon­dance ci-dessous a été iden­ti­fiée en 1961 par Niren­berg. Un codon “start” (ATG en nota­tion ADN ou AUG en nota­tion ARN) com­mande le départ de la syn­thèse des pro­téines et trois codons “stop” en com­mandent l’arrêt. Mais il existe une séquence préa­lable au codon start qui annonce les gènes : le “pro­mo­teur”. C’est sur lui que se fixe l’ARN poly­mé­rase qui va déclen­cher la copie de l’ADN en ARNm. Un peu comme le début d’une fer­me­ture éclair.

Mais d’où viennent ces ribo­somes qui uti­lisent l’ARNm et les acides ami­nés pour construire les pro­téines ? Pour résoudre le pro­blème de la poule et de l’œuf, les molé­cules de ribo­somes sont elles-mêmes construites à par­tir d’ARNr (ARN ribo­so­mique) obtenu par trans­fert de gènes de l’ADN. Mais le pro­ces­sus de leur créa­tion est assez com­plexe car l’ARNr est obtenu via une pré-ARNr qui est décou­pée en trois ARNr.

Les 52 pro­téines consti­tu­tives des ribo­somes sont quant à elles pro­duites par le cycle nor­mal via de l’ARNm et d’autres ribo­somes. Ce sont ces pro­téines qui sont asso­ciées avec les les ARN ribo­so­miques pour créer des pré-ribosomes. Enfin, cela se ter­mine par un pro­ces­sus de matu­ra­tion. Le tout dans dif­fé­rentes par­ties des cel­lules. Bon, et les 52 pro­téines consti­tu­tives des ribo­somes, elles viennent d’où ? Elles aussi de la trans­crip­tion d’ADN en ARNm et de leur uti­li­sa­tion pour l’assemblage d’acides ami­nés… par d’autres ribosomes !

Correspondance codons et acides amines

Séquence codante (CDS ou Coding DNA Sequence, aussi sim­pli­fié en cDNA)

Par­tie d’un gène qui, après avoir été trans­crite en ARNm dans le noyau des cel­lules, est tra­duite en pro­téines. Les gènes sont en effet consti­tués dans l’ADN de suites alter­nant des séquences codantes (exons) et des séquences non codantes (introns, décou­verts en 1993). Les exons com­mencent par le codon ATG (trois nucléo­tides à bases adénine-thymine-guanine) et se ter­minent par un codon stop (TAA, TAG, ou TGA). Le pro­ces­sus de créa­tion des pro­téines via l’ARNm implique une méca­nique d’élimination des introns qui ne servent à rien que l’on dénomme l’épissage et qui est lui-même un méca­nisme très compliqué. Les gènes occupent envi­ron 0,5% de l’ADN humain et  les séquences codantes des gènes n’en repré­sentent qu’environ 5%, soit 0,025% de nos chro­mo­somes. Ce qui ne veut pas dire pour autant que le reste ne sert à rien, mais le niveau de connais­sance est moins bon sur la par­tie “hors gènes” de l’ADN que dans les gènes.

ADN a proteines

Gène

C’est l’unité de base d’information géné­tique qui se pré­sente sous la forme d’une séquence d’ADN qui spé­ci­fie la syn­thèse de chaînes de poly­pep­tides (chaînes de 10 à 100 acides ami­nés reliés par des liai­sons pep­ti­diques) qui servent elles-mêmes à la géné­ra­tion de pro­téines, qui sont des poly­pep­tides “longs” (1941, Beadle et Tatum puis 1944-1946, Avery). Mais leur acti­va­tion (“expres­sion”) dépend du type des cel­lules. L’identification de la série de bases qui démarrent et ter­minent un gène date des années 1970. L’ADN humain com­pren­drait envi­ron 23000 gènes selon les connais­sances à ce jour. Les esti­ma­tions du nombre de gènes ont été très variables ces 50 der­nières années. Elle allaient jusqu’à 100000 mais leur nombre s’est ensuite réduit après le séquen­çage com­plet de l’ADN humain ter­miné au début des années 2000. Ce n’est pas le tout de séquen­cer le génome, il faut com­prendre à quoi servent les séquences d’ADN !

Gene

Dans chaque cel­lule humaine, il y a envi­ron 10000 gènes qui sont expri­més et repré­sentent les fonc­tions com­munes de vie des cel­lules. Et envi­ron 1000 gènes sont expri­més qui sont liés au type de la cel­lule : mus­cu­laire, ner­veuse, osseuse, san­guine, etc.

Nucléo­somes

C’est un com­plexe d’ADN et de pro­téines qui consti­tue une unité de base de la chro­ma­tine que nous ver­rons plus loin. C’est le pre­mier niveau de com­pac­tion de l’ADN dans les chro­mo­somes. Le nucléo­some est un enrou­le­ment d’environ 140 paires de bases d’ADN autour de pro­téines com­plexes dont les his­tones (en cou­leur ci-dessous) qui sont très riches en acides ami­nés basiques. Il y a deux sortes d’histones, les 2A, 2B 3 et 4 autour des­quelles l’ADN s’enroule et l’histone 1 qui se place à l’extérieur de l’ensemble, comme un verrou.

Un nucléo­some fait envi­ron 11nm de dia­mètre. Mais la par­tie de l’ADN qui est ainsi conden­sée n’est pas trans­crip­tion­nelle, à savoir qu’elle ne sert pas à la créa­tion d’ARNm et de pro­téines. C’est l’ADN située entre les nucléo­somes qui sert à la trans­crip­tion en ARNm pour créer des pro­téines. Par contre, lors de la divi­sion cel­lu­laire, l’ensemble de l’ADN y com­pris la “non trans­crip­tion­nelle” est copiée à l’identique.

Nucleosome

Nucléo­fi­la­ment

C’est le niveau de com­pac­tion sui­vant de la chro­ma­tine qui voit la suite d’ADN ponc­tu­rée de nucléo­somes s’enrouler elle-même sous forme de solé­noïdes. On a un nucléo­some toutes les 200 paires d’ADN ce qui veut dire qu’ils sont les uns contre les autres. Ces nucléo­fi­la­ments font envi­ron 30 nm de dia­mètre. Eux-mêmes sont ensuite com­pac­tés au sein des chro­mo­somes mais leur com­pac­tage n’est pas le même pen­dant le cycle de vie de la cel­lule. La forme la plus com­pac­tée se mani­feste lors du pro­ces­sus de divi­sion cel­lu­laire au moment de la pro­phase. Mais la répli­ca­tion de l’ADN dite semi-conservative (ou la moi­tié du brin est conser­vée et chaque moi­tié com­plé­tée par un répli­cat en néga­tif) a lieu pen­dant l’interphase, soit la vie “nor­male” de la cel­lule. En temps nor­mal pen­dant l’interphase, les nucléo­fi­la­ments s’étalent de manière libre au sein du noyau des cellules.

Poupee russe ADN

Chro­ma­tine

C’est la forme sous laquelle se pré­sente l’ADN dans le noyau des cel­lules et les chro­mo­somes. Cette sub­stance de base des chro­mo­somes asso­cie un brin d’ADN, de l’ARN et des pro­téines. Dans la chro­ma­tine, on dis­tingue  l’euchromatine qui contient la par­tie active de l’ADN, uti­li­sée lors de la trans­crip­tion en ARNm et en pro­téines et se situe géné­ra­le­ment entre les nucléo­somes. Elle repré­sente 10% de l’ADN chez l’homme et com­prend de 23000 à 25000 gènes (27% du code), de l’ADN non codant répété (50%), de l’ADN non codant non répété (4%), de l’ADN codant dupli­qué (7%) et des séquences indé­ter­mi­nées qui sont inclas­si­fiables à ce stade des connais­sances (5%). Il y a ensuite l’hétérochromatine qui est de l’ADN condensé sous forme de fibres de 20nm à 30nm de dia­mètre mais qui ne sert pas à la trans­crip­tion de l’ADN en ARNm et en protéines.

Chromosome size

Niveaux condensation ADN

Chro­mo­somes

Ce sont les longues molé­cules de chro­ma­tine inté­grant de l’ADN. Leur forme évolue lors du pro­ces­sus de repro­duc­tion des cel­lules comme indi­qué ci-dessus. En temps nor­mal, en fait, pen­dant la période dite G1 de l’interphase, un chro­mo­some humain est un fil qui s’étend de part et d’autre d’un cen­tro­mère, une longue chaine d’ADN, de plu­sieurs mil­liers de paires de bases d’ADN chez l’humain, et dont la chro­ma­tine uti­lise une his­tone par­ti­cu­lière. Le  cen­tro­mère fait le lien entre les chro­ma­tines d’ADN qui se dupliquent lors de la divi­sion cellulaire.

La forme en X bien connue n’a lieu que lors de la repro­duc­tion des cel­lules dans une période par­ti­cu­lière de cette divi­sion qui s’appelle la méta­phase et qui dure envi­ron 10 minutes. L’une des rai­sons pour les­quelles c’est la manière dont on repré­sente le plus fré­quem­ment les chro­mo­somes comme ci-dessous est que c’est la plus facile à pho­to­gra­phier ! Les autres ? Je ne sais pas…

Chromosomes humains

A l’extrémité des chro­mo­somes se trouvent les télo­mères (décou­verts en 1984 par les amé­ri­cains Black­burn, Grei­der et Szos­tak), des séquences non codantes d’ADN qui sont répé­tées plu­sieurs fois. Ces télo­mères se rac­cour­cissent à chaque divi­sion cel­lu­laire pour la plu­part des cel­lules humaines. Elles sont ainsi un mar­queur de l’âge de l’organisme vivant. Elles com­portent jusqu’à 12000 paires de base d’ADN chez le nou­veau né et tombent à moins de 6000 paires pour l’octogénaire en bonne santé. Mais les glo­bules blancs ainsi que les cel­lules can­cé­reuses quoi se dupliquent fré­quem­ment et rapi­de­ment béné­fi­cient d’une enzyme par­ti­cu­lière qui conservent leurs télomères. Des recherches visant à limi­ter le phé­no­mène de rac­cour­cis­se­ment pour les cel­lules saines pour­raient abou­tir à la créa­tion d’élixirs de jou­vence, à base de télo­mé­rase ! Ques­tion taille, le pre­mier chro­mo­some humain mesure  245 mil­lions de bases x 0,34 nm (nano­mètre), soient envi­ron 8 cm, une fois déroulé ! En pra­tique, un chro­mo­some humain fait 1400nm (1,4 micron) de dia­mètre pour envi­ron 10 microns de long.

Génome

Décrit le patri­moine géné­rique d’une cel­lule qui se maté­ria­lise sous la forme de l’ensemble des gènes que l’on trouve à la fois dans le noyau de la cel­lule avec ses chro­mo­somes mais aussi, pour une part négli­geable, dans ses mitochondries.

Nucléole

Par­tie du noyau des cel­lules où se pro­duit la trans­crip­tion des ARN ribo­so­miques (ARNr, issues de la trans­po­si­tion de l’ADN), qui consti­tuent avec des pro­téines, les deux sous-unités des ribo­somes (exemple ci-dessous), les molé­cules com­plexes qui servent elles-mêmes à syn­thé­ti­ser les pro­téines à par­tir du code com­pris dans l’ARNm.

Exemple ribosome

Noyau de la cellule

Il contient les 23 chro­mo­somes avec l’essentiel du génome humain, qui sont sous forme de paires de chro­mo­somes entre la phase S1 de l’interphase et la méta­phase. C’est au sein du noyau que l’ADN est à la fois dupli­quée pen­dant la divi­sion cel­lu­laire et aussi, qu’il donne lieu à la créa­tion des dif­fé­rentes formes d’ARN, et notam­ment l’ARNm qui contient un double du code des gènes et ser­vira ensuite dans le cyto­plasme (le reste de la cel­lule) à géné­rer les pro­téines, aidé par les ribo­somes et les ARN de transfert.

Noyau

Mito­chon­dries

Com­po­santes des cel­lules, elles contiennent aussi un petit bout du code ADN des cel­lules avec 16 kilo­bases orga­ni­sées dans un génome cir­cu­laire et 37 gènes qui “codent” 13 pro­téines, 22 ARN de trans­fert et 2 ARN ribo­so­miques. Le déco­dage de cette par­tie du génome per­met de véri­fier les filia­tions mère-enfants et de dater les lignées car chez l’homme, ces gènes sont trans­mis uni­que­ment par la mère.

Cel­lule dites “Eucaryotes”

Que l’on trouve dans les espèces ani­males et végé­tales qui com­prennent entre autres un noyau et des mito­chon­dries. Et toute une artille­rie de domaines spé­cia­li­sés. Ce sont de véri­tables usines chi­miques qui trans­forment l’énergie, dans un sens pour l’emmagasiner et dans l’autre pour la res­ti­tuer de manière chi­mique ou méca­nique, comme dans les muscles.

Cellule animale

Dimen­sion temps

Les cel­lules humaines ne suivent pas toutes le même méta­bo­lisme. Cer­taines se repro­duisent par divi­sion cel­lu­laires mais d’autres non, comme les glo­bules rouges, les cel­lules mus­cu­laires du cœur ainsi que les nerfs. La durée de vie des cel­lules qui se repro­duisent va de quelques jour­nées (dans la peau ou le sys­tème diges­tif) à plu­sieurs mois voire années (dans le pan­créas ou les os). On verra dans un pro­chain article à quel stade de déve­lop­pe­ment des cel­lules humaines on pré­lève leur ADN pour leur séquençage.

Cycle vie cellule

Com­pa­rai­son de tailles

Chaque paire de bases de l’ADN est espa­cée de 0,34 nm et l’hélice de l’ADN fait 2 nm de dia­mètre. Un tour com­plet de l’hélice d’ADN se fait en 10 paires de bases. Com­ment cela se compare-t-il avec les micro­pro­ces­seurs les plus récents en termes d’intégration ?

Si on prend comme réfé­rence la der­nière géné­ra­tion de pro­ces­seurs 22nm de la série de pro­ces­seurs Core “Ivy Bridge” d’Intel, chaque tran­sis­tor est espacé de 44 nm sur son sub­strat en sili­cium, le niveau d’intégration “22nm” cor­res­pon­dant au demi-espacement entre tran­sis­tors. En fai­sant un petit cal­cul simple, on constate que cet espa­ce­ment cor­res­pond à l’enfilement linéaire de 129 paires de bases d’ADN.

Mais l’ADN s’enroule de manière com­plexe autour d’histones, elle-même com­pac­tées dans des fibres de chro­ma­tine ce qui fait que la den­sité du code géné­tique est encore plus forte que dans cette vue linéaire. Ainsi l’espace entre tran­sis­tors dans ces pro­ces­seurs (44nm) est-il voi­sin du dia­mètre (33nm) des fibres de chromatine.

En termes de conden­sa­tion d’information, l’ADN est donc bien plus dense que ces micro­pro­ces­seurs ou les mémoires qui uti­lisent des tech­no­lo­gies simi­laires à base de sili­cium. Ainsi, le petit bout de fibre de chro­ma­tine dans le schéma ci-dessous qui s’insèrerait entre deux tran­sis­tors 22nm comprend-il 12 nucléo­somes avec 140 paires de bases d’ADN cha­cun, soit en tout 1680 paires. Chaque paire de base est en équi­va­lent infor­ma­tique un code à 2 bits (puisqu’il y a quatre pos­si­bi­li­tés), ce qui donne 3 Kbits en tout.

Comparaison Intel Ivy Bridge et ADN

A vrai dire, c’est avec la den­sité d’un disque dur qu’il fau­drait faire cette com­pa­rai­son plu­tôt qu’avec un pro­ces­seur. Faisons-là donc. Dans les disques durs actuels de 2 To de 3,5 pouces uti­li­sant la tech­no­lo­gie de sto­ckage per­pen­di­cu­laire magné­tique (PMR) co-inventée par le prix Nobel fran­çais Albert Fert, la dis­tance entre chaque bit sur les pla­teaux magné­tiques est d’environ 32 nm – sans rap­port avec les tech­no­lo­gies d’intégration de sili­cium en 32 nm.

Elle va des­cendre à court terme à 25nm et en des­sous grâce à la tech­no­lo­gie Heat-Assisted Magne­tic Recor­ding (HAMR) qui s’appuie sur l’usage d’un laser. Mais cette tech­no­lo­gie pour­rait en théo­rie faire des­cendre la dis­tance entre bits à 3,6 nm, soit l’ordre de gran­deur de l’épaisseur d’un brin d’ADN. Sachant qu’en paral­lèle, l’espace entre tran­sis­tors dans les cir­cuits inté­grés pour­rait des­cendre à 20 nm (en tech­no­lo­gie 10 nm).

Le défi du séquençage

Reste à déco­der tout cela… ce n’était que l’apéritif pour com­prendre la suite des événe­ments. Alors, qu’est-ce que le séquen­çage du génome humain ?

Il s’agit de déco­der l’ADN de nos chro­mo­somes, soit plu­sieurs mil­liards de paires de bases notées A, G, C et T sachant on l’a vu qu’elles sont inté­grées dans des chro­mo­somes qui ne se pré­sentent pas linéai­re­ment mais en fibres elles-mêmes consti­tuées de nucléo­somes. Et puis, ces chro­mo­somes sont dans le noyau de nos cel­lules. Il faut les en extraire !

DNA sequence

Au départ, l’objectif était de se concen­trer sur le déco­dage des gènes, la petite par­tie de l’ADN qui code la créa­tion des pro­téines, le reste de l’ADN ayant une fonc­tion autre, essen­tiel­le­ment de “sup­port” au sein de la chro­ma­tine et des chro­mo­somes. Mais le séquen­çage du génome humain est tout de même allé au delà et a cou­vert l’ensemble de l’ADN de nos chro­mo­somes. La rai­son est que les séquences non codantes qui sont par­fois redon­dantes et répé­ti­tives pré­sentent aussi un grand inté­rêt scientifique.

Pre­mière uti­lité, iden­ti­fier les séquences dites régu­la­trices qui influencent l’expression des gènes et notam­ment dans les mala­dies d’origine géné­tiques. On a encore beau­coup à apprendre et décou­vrir de ce côté-là. Ce d’autant plus que les séquences régu­la­trices d’un gène peuvent se trou­ver n’importe où dans le génome et pas sim­ple­ment à proxi­mité des gènes en question.

Autre uti­lité : appré­hen­der l’origine de muta­tions dans les espèces et retra­cer tout sim­ple­ment l’histoire de la vie sur terre. Cela sera d’une plus grande uti­lité pra­tique lorsque l’on se sera atta­qué à un séquen­çage du génome de nom­breuses espèces ani­males et végé­tales car aujourd’hui seules quelques dizaines ont été trai­tées et plu­tôt pour des bac­té­ries et autres orga­nismes mono­cel­lu­laires. Mais le séquen­çage du génome du pou­let, d’une espèce de cochon domes­tique et du bœuf ont déjà été réa­li­sés dans les années 2000. Un séquen­çage qui per­met de s’attaquer aux dizaines de mil­liers d’agents patho­gènes de ces ani­maux domes­ti­qués afin de mieux trai­ter les épidé­mies les frap­pant. Avec des consé­quences macro-économiques et socié­tales majeures. Mais la com­pa­rai­son de l’ADN des espèces ani­males avec l’ADN humaine per­met aussi d’en savoir plus sur les séquences régulatrices.

En guise de tea­sing pour la suite, pour faire simple, le pro­cédé du séquen­çage consiste à d’abord à débar­ras­ser l’ADN des pro­téines qui l’entourent par trai­te­ment chi­mique puis à la décou­per en mor­ceaux. Chaque mor­ceau est à son tour découpé en mor­ceaux de taille variable, à une base près. Et un pro­cédé à base de cap­teurs de fluo­res­cence per­met d’identifier le nombre de mor­ceaux de chaque taille et la nature de la base à son bout. On en déduit un grand nombre de séquences d’ADN redon­dantes qui se recouvrent. C’est alors par logi­ciel que l’on ras­semble toutes ces séquences pour recons­ti­tuer pas à pas le génome humain. Le volume de don­nées est rai­son­nable (3 mil­liards de bases au plus), mais c’est ce trai­te­ment de recom­bi­nai­son des séquences qui est très lourd. Et ensuite, son exploitation.

Ça, c’est l’explication rapide. On en détaillera le fonc­tion­ne­ment dans l’article sui­vant de cette série. Et on exa­mi­nera les machines qui réa­lisent ce séquen­çage du génome très rapi­de­ment en s’appuyant sur des tech­niques de séquen­çage mas­si­ve­ment parallèles.

Publié le 25 juillet 2012 et mis à jour le 28 août 2012 Post de | Santé | 16305 lectures

PDF Afficher une version imprimable de cet article          

Les 13 commentaires et tweets sur “Les technologies de séquençage du génome humain - 1” :

  • [1] - Herve Kabla a écrit le 25 juillet 2012 :

    Superbe idée de série d’articles! j’adore quand on relie deux grands domaines scien­ti­fiques, c’est comme cela que se créent les grandes vocations.

    L’idée de com­pa­rer la den­sité à celle d’un disque dur est ori­gi­nale. Tu devrais t’intéresser à l’épigénétique, c’est un bon sujet à la péri­phé­rie de celui que tu abordes.

    Sinon, atten­tion, le C de la cyto­sine est devenu un C de copyright

    • [1.1] - Olivier Ezratty a répondu le 25 juillet 2012 :

      Bon­jour Hervé,

      Merci pour l’encouragement car c’est un domaine assez par­ti­cu­lier à appré­hen­der. On est vite noyé sous les concepts. La bio­lo­gie molé­cu­laire est d’une richesse incroyable !

      L’épigénétique ? Je vais voir cela dans les phases sui­vantes, peut-être au niveau des appli­ca­tions du séquençage.

      Pour le (c), cor­rigé : c’était une fonc­tion à désac­ti­ver dans un plug-in !

  • [2] - (@HerveKabla) (@HerveKabla) a écrit sur Twitter le 25 juillet 2012 :

    Excel­lente série à lire cet été: “Les tech­no­lo­gies du séquen­çage du génome humain - 1″ de @olivez sur http://t.co/GNoQrqG2

  • [3] - Stratidev a écrit le 26 juillet 2012 :

    Sur ce sujet, il va for­ce­ment fal­loir pas­ser par les tech­no­lo­gies de séquen­çage de dif­fé­rentes génération.

    Ce n’est pas vrai­ment évident à com­prendre, sur­tout les appa­reils de secondes géné­ra­tions qui font du reséquençage.

    Si vous avez besoin, j’ai un docu­ment sur le sujet que j’avais pré­paré pour un labo­ra­toire d’analyse. Je ne suis pas sur qu’il soit for­ce­ment super com­plet, mais ça fait une bonne base pour recherche de l’information.

    J’avais contac­ter à l’époque les dif­fé­rents pro­duc­teurs. N’hésitez pas à me contac­ter si vous en avez besoin. Je regar­de­rais si je l’ai encore.

    • [3.1] - Olivier Ezratty a répondu le 26 juillet 2012 :

      Bon­jour, oui je suis pre­neur de toute lit­té­ra­ture pour débrous­sailler le sujet ! Merci !

  • [4] - Vicnent a écrit le 26 juillet 2012 :

    excellent et beau travail

    (et je viens enfin de com­prendre le rap­port entre ADN et Chro­mo­some, dont le lien a été pour ainsi dire flou jusqu’ici !!!). La chro­ma­tine nous a sauvé !

  • [5] - Pierre a écrit le 4 août 2012 :

    Et bam, je viens de ten­ter de me refaire tout le pro­gramme de Ter­mi­nale S en 15 min de lec­ture. Bon rafrai­chis­se­ment et des com­plé­ments inté­res­sants.
    En revanche cette lec­ture ne me suf­fit pas à ancrer les infor­ma­tions assez pro­fon­dé­ment quand bien même les sillons existent déjà quelques parts dans mon cer­veau. Pour bien faire il fau­drait en pas­ser par la même pra­tique que vous: lire, assi­mi­ler, enri­chir et reformuler.

    Vous êtes vous tou­jours plié à ce genre d’exercice ou avez vous com­mencé avec votre Blog ?

    • [5.1] - Olivier Ezratty a répondu le 4 août 2012 :

      Je fais cela assez régu­liè­re­ment, mais habi­tuel­le­ment sur les sujets qui sont dans mon coeur de métier (médias numé­riques). Ici, c’est une digres­sion d’été qui m’est venue car je sou­hai­tais com­prendre com­ment on séquen­çait le génome. La variété des tech­no­lo­gies mises en oeuvre est assez fascinante.

  • [6] - Portable Genomics (@portablegenomic) a écrit sur Twitter le 14 août 2012 :

    “Les tech­no­lo­gies de séquen­çage du génome humain - 1″ de @olivez sur http://t.co/GfxSC83X

  • [7] - eddddd (@eddddd) a écrit sur Twitter le 19 août 2012 :

    Allez un peu de cou­rage et on pro­fite de ce pas­sion­nant résumé didac­tique d’@olivez sur le séquen­çage du génome humain: http://t.co/Pw0uyfi8

  • [8] - Claude a écrit le 21 août 2012 :

    Pour aller plus loin sur la com­pa­rai­son processeur/stockage: l’ADN comme sup­port de sto­ckage: http://hms.harvard.edu/content/writing-book-dna




Ajouter un commentaire

Vous pouvez utiliser ces tags dans vos commentaires :<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> , sachant qu'une prévisualisation de votre commentaire est disponible en bas de page après le captcha.

Captcha

Pour valider votre commentaire, veuillez saisir les lettres ci-dessus et cliquer sur le bouton Publier le commentaire ci-dessus.


16,305 views

Derniers articles

Tout, tout, tout sur la high-tech

Le Rapport du CES 2013 est disponible sous forme de livre, publié aux Editions Kawa dans la collection "Tout, tout" dirigée par Henri Kaufman ! Utilisez le code promo OLIVIER pour bénéficier de 10% de réduction !
image

Quelques Femmes du Numérique

Avec Marie-Anne Magnac, j'ai lancé #QFDN, l'exposition photo des femmes du numérique. Installée depuis le 16 octobre 2012 à l'espace Soleilles Cowork de Paris, elle a aussi été présentée et sera présentée dans différentes manifestations. Et je continue régulièrement à enrichir les 200 portraits initiaux de l'opération !
image

Cocktail Orange France lors de la Conférence LeWeb 2012 le 8 décembre 2012. Conférence annuelle des anciennes de l'ESCP organisée au siège du MEDEF le 17 janvier 2013. Conférence La journée de la femme Digitale organisée par Catherine Barba et Delphine Rémy-Boutang le 8 mars 2013. Conférence Osons la France le 5 avril 2013, à l’Espace Cardin. MipTV au Palais des Festivals de Cannes des 8 au 11 avril 2013. Au Web2Day, organisé à Nantes les 16 et 17 mai 2013. A Futur en Seine, organisé en Ile de France par le pôle de compétitivité Cap Digital, dans le cadre du Village des Innovations au 104 à Paris, du 13 au 16 juin 2013. Dans la conférence USIevents, organisée par la SSII Octo et destinée aux DSI, les 24 et 25 juin 2013 au Palais Brongniard.

Derniers commentaires

“Il parait que les bonnes entreprises innovantes sont toujours sur le fil rouge....”
“Je lis ce guide depuis 2011, c'est LA mine d'or des startuper en herbe, et des plus aguerris ! Un grand merci à Olivier Ezratty et tous les experts qui ont contribué à cette 17 ème édition ! A bientôt, Yanis K....”
“Non, position différente des acteurs. Apple est un "problème" dans le rapport. Un grand américain qu'il faut juguler/réguler et qui pourrait/devrait contribuer au financement de la culture, même si les yeux sont plu...”
“Merci de ces éclarcissements à travers cet article très bien rédigé et qui résume les grandes lignes du rapport Lescure notamment. Oui Michel Nizon, votre constat met en lumière la french -don't- touch !...”
“Blog très didactique de @olivez sur les composants optoélectroniques @BellLabs @Alcatel_Lucent...”


Abonnement email

Pour recevoir par email les alertes de parution de nouveaux articles :


 


Téléchargements gratuits

Ces documents sont diffusés gratuitement (sous Creative Commons) et en PDF. Le Guide des Startups, mis à jour environ deux fois par an :
image

Le Rapport du Consummer Electronic Show de Las Vegas, publié chaque année en janvier depuis 2006 :
CouvertureRapportCES

Les clivages de la présidentielle 2012 sur le numérique :
CouvertureClivagesNumeriques

Voir aussi la liste complète des publications de ce blog.

Catégories

Tags


Evénements

image

Les articles sur toutes les éditions de LeWeb depuis 2006.

Voyages

Voici les compte-rendu de divers voyages d'études où j'ai notamment pu découvrir les écosystèmes d'innovation dans le numérique de ces différents pays : Chine (2010) à Shanghai et Beijing Corée du Sud (2009) à Séoul Israël (2010) à Tel Aviv Japon (2009) à Tokyo Japon (2011) au CEATEC de Tokyo Japon (2012) au CEATEC de Tokyo Silicon Valley (2007) Silicon Valley (2011)