{"id":7244,"date":"2012-08-20T13:25:13","date_gmt":"2012-08-20T11:25:13","guid":{"rendered":"http:\/\/www.oezratty.net\/wordpress\/?p=7244"},"modified":"2013-02-07T15:53:46","modified_gmt":"2013-02-07T13:53:46","slug":"technologies-sequencage-genome-humain-5","status":"publish","type":"post","link":"https:\/\/www.oezratty.net\/wordpress\/2012\/technologies-sequencage-genome-humain-5\/","title":{"rendered":"Les technologies de s\u00e9quen\u00e7age du g\u00e9nome humain &#8211; 5"},"content":{"rendered":"<p>Dans les quatre parties pr\u00e9c\u00e9dentes de cette <a href=\"https:\/\/www.oezratty.net\/wordpress\/2012\/technologies-sequencage-genome-humain-1\/\">s\u00e9rie estivale<\/a>, nous avons \u00e9tudi\u00e9 les diff\u00e9rentes techniques de s\u00e9quen\u00e7age de l\u2019ADN humain (ou pas).<\/p>\n<p>Nous allons maintenant passer \u00e0 la partie num\u00e9rique de la question en faisant le tour des outils informatiques qui exploitent les donn\u00e9es brutes du s\u00e9quen\u00e7age pour reconstituer l\u2019ADN, et les applications qui en r\u00e9sultent car c\u2019est l\u00e0 l\u2019essentiel. La discipline de la bio-informatique qui se d\u00e9veloppe \u00e0 tr\u00e8s grande vitesse est immense et ne sera que tr\u00e8s partiellement couverte dans ces articles. On verra comment des acteurs tels que Google ou nVidia sont impliqu\u00e9s dans ces sujets.<\/p>\n<p><strong>Un peu de vocabulaire avant la route du num\u00e9rique<\/strong><\/p>\n<p>Pour m\u00e9moire, le s\u00e9quen\u00e7age complet du g\u00e9nome humain a \u00e9t\u00e9 r\u00e9alis\u00e9 en 2003 par le consortium international \u201cHuman Genome Project\u201d. Le projet avait d\u00e9marr\u00e9 en 1989 et \u00e9tait financ\u00e9 par le Department of Healthcare US et aussi par le Department of Energy. Ce dernier est int\u00e9ress\u00e9 par la question pour ses applications dans la production d\u2019<a href=\"http:\/\/www.jgi.doe.gov\/whoweare\/17784_Tour_Brochure_CR_singles.pdf\">\u00e9nergies vertes<\/a> comme les biofuels. Le projet HGP devait durer 15 ans mais un s\u00e9quen\u00e7age brut complet \u00e0 lus de 90% avait \u00e9t\u00e9 termin\u00e9 fin 2000 et publi\u00e9 d\u00e9but 2001. C\u2019est seulement en 2004 qu\u2019a \u00e9t\u00e9 publi\u00e9 un s\u00e9quen\u00e7age complet du g\u00e9nome humain qui s\u2019appuie sur la compilation de s\u00e9quences d\u2019ADN de plusieurs personnes distinctes (en bonne sant\u00e9). L\u2019histoire et l\u2019\u00e9tendue de la dimension technique du Human Genome Project est tr\u00e8s bien expliqu\u00e9e dans ce <a href=\"http:\/\/www.nature.com\/nature\/journal\/v409\/n6822\/full\/409860a0.html\">long papier de 62 pages<\/a> publi\u00e9 en 2001 dans la revue Nature.<\/p>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/WindowsLiveWriter\/Les-dessous-techniques-du-squenage-du-gn_82A7\/Genes-par-especes.jpg\"><img loading=\"lazy\" decoding=\"async\" style=\"background-image: none; margin: 10px 0px 10px 10px; padding-left: 0px; padding-right: 0px; display: inline; padding-top: 0px; border-width: 0px;\" title=\"Genes par especes\" alt=\"Genes par especes\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/WindowsLiveWriter\/Les-dessous-techniques-du-squenage-du-gn_82A7\/Genes-par-especes_thumb.jpg\" width=\"417\" height=\"254\" border=\"0\" \/><\/a><\/p>\n<p>C\u2019est seulement en 2007 que les s\u00e9quenceurs de seconde g\u00e9n\u00e9ration ont permis \u00e0 un cout plus raisonnable de r\u00e9aliser le s\u00e9quen\u00e7age d\u2019une seule personne. Cela a permis de d\u00e9terminer que la diff\u00e9rence entre deux ADN humains \u00e9tait d\u2019environ une base pour mille. On appelle cela les \u201cSNP\u201d ou Single Nucleotide Polymorphisms, les variations de l\u2019ADN par rapport \u00e0 une r\u00e9f\u00e9rence qui est celle du Human Genome Project. Ce taux de variation est diff\u00e9rent selon les esp\u00e8ces vivantes.<\/p>\n<p>Ce qui m\u2019am\u00e8ne \u00e0 \u00e9voquer quelques termes et domaines de recherche de g\u00e9n\u00e9tique et de biochimie qui seront cit\u00e9s par la suite :<\/p>\n<ul>\n<li><strong>Phenotype<\/strong> : caract\u00e9rise les variations au niveau des membres d\u2019une m\u00eame esp\u00e8ce. Dans l\u2019esp\u00e8ce humaine, cela correspond \u00e0 la couleur de la peau, \u00e0 la taille, \u00e0 la forme, \u00e0 la couleur des yeux et aux maladies. Chaque personne a en moyenne 200 \u00e0 300 d\u00e9ficiences dans son g\u00e9nome et qui sont observables dans son ph\u00e9notype !<\/li>\n<li><strong>G\u00e9notype <\/strong>: c\u2019est l\u2019ADN et les g\u00e8nes qu\u2019elle contient. Pour m\u00e9moire, 3 milliards de paires de bases dans l\u2019ADN humain (certains disent 6 milliards, qui correspondent \u00e0 l\u2019ADN apr\u00e8s la duplication des brins qui pr\u00e9c\u00e8de la division cellulaire, on parle alors d\u2019ADN diplo\u00efde par opposition \u00e0 l\u2019ADN haplo\u00efde, non r\u00e9pliqu\u00e9e). A noter que l\u2019on ne connait pas encore tous les g\u00e8nes de l\u2019esp\u00e8ce humaine. Le nombre de g\u00e8nes a pas mal vari\u00e9 dans le temps pour monter jusqu\u2019\u00e0 100000 avant le Human Genome Project. Il est maintenant estim\u00e9 aux alentours de 32000 sachant qu\u2019un peu plus de 20000 g\u00e8nes ont \u00e9t\u00e9 identifi\u00e9s et d\u00e9cod\u00e9s \u00e0 ce jour.\u00a0 Il en reste 10000 \u00e0 trouver dans le flot d\u2019ADN de nos 3 milliards de bases ! Ci-dessous, la r\u00e9partition des bases et g\u00e8nes par chromosome (source : <a href=\"http:\/\/en.wikipedia.org\/wiki\/Chromosome\">Wikipedia<\/a>).<\/li>\n<\/ul>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/WindowsLiveWriter\/Les-dessous-techniques-du-squenage-du-gn_82A7\/Chromosomes-bases-et-genes.jpg\"><img loading=\"lazy\" decoding=\"async\" style=\"background-image: none; margin: 10px 0px 10px 10px; padding-left: 0px; padding-right: 0px; display: inline; padding-top: 0px; border: 0px;\" title=\"Chromosomes bases et genes\" alt=\"Chromosomes bases et genes\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/WindowsLiveWriter\/Les-dessous-techniques-du-squenage-du-gn_82A7\/Chromosomes-bases-et-genes_thumb.jpg\" width=\"521\" height=\"263\" border=\"0\" \/><\/a><\/p>\n<ul>\n<li><strong>Polymorphisme <\/strong>: ce sont les l\u00e9g\u00e8res variations dans l\u2019ADN des individus, de l\u2019ordre de 1 pour 1000 bases, soit environ 3 millions de bases, et qui sont d\u00e9tect\u00e9es lors du s\u00e9quen\u00e7age complet d\u2019un g\u00e9nome humain ou, le plus souvent, avec des techniques \u00e0 base de marqueurs et bio-puces (DNA Array). La r\u00e9f\u00e9rence utilis\u00e9e est celle du Human Genome Project. Un nouveau vaste projet a \u00e9t\u00e9 lanc\u00e9 en 2008 : le <a href=\"http:\/\/www.1000genomes.org\/about\">1000 Genome Project<\/a> pour identifier les polymorphismes que l\u2019on trouve dans au moins 1% de la population des 2500 individus qui fait l\u2019objet de l\u2019\u00e9tude. La population \u00e9tudi\u00e9e couvre toute la diversit\u00e9 de l\u2019esp\u00e8ce humaine (tous continents, tous \u00e2ges, et les deux sexes). Les donn\u00e9es g\u00e9n\u00e9r\u00e9es par ce projet sont publiques et exploitables par tous les laboratoires de recherche.<\/li>\n<li><strong>Epig\u00e9nome <\/strong>: facteurs externes \u00e0 l\u2019ADN qui expliquent les variations dans l\u2019expression des g\u00e8nes au sein d\u2019une esp\u00e8ce vivante. Ces facteurs sont d\u2019origine chimique : l\u2019alimentation, les m\u00e9dicaments, la pollution. L\u2019\u00e9pig\u00e9nome est en quelque sorte la caract\u00e9risation de l\u2019environnement sur le fonctionnement chimique des cellules. Au niveau de la mol\u00e9cule d\u2019ADN, les marqueurs \u00e9pig\u00e9n\u00e9tiques principaux rel\u00e8vent de la m\u00e9thylation de l\u2019ADN, une transformation chimique des bases qui va affecter la mani\u00e8re dont les parties codantes de l\u2019ADN vont pouvoir s\u2019exprimer, notamment avec la m\u00e9canique cellulaire de fabrication des prot\u00e9ines comme les ARN de transfert ou les ribosomes. Il y a aussi les modifications qui peuvent intervenir au niveau des histones, ces mol\u00e9cules autour desquelles les doubles brins d\u2019ADN s\u2019enroulent. Ces modifications vont affecter la mani\u00e8re dont l\u2019ADN va s\u2019enrouler autour des histones et par l\u00e0, modifier l\u2019expression des g\u00e8nes qui correspond \u00e0 la partie de l\u2019ADN qui n\u2019est pas enroul\u00e9e autour d\u2019histones (revoir le <a href=\"https:\/\/www.oezratty.net\/wordpress\/2012\/technologies-sequencage-genome-humain-1\/\">premier article<\/a> pour mieux comprendre). L\u2019\u00e9pig\u00e9n\u00e9tique est la science d\u2019\u00e9tude de l\u2019\u00e9pig\u00e9nome. On peut \u00e9valuer les parties de l\u2019ADN qui sont sur ou sous-m\u00e9thyl\u00e9es avec des syst\u00e8mes tels que <a href=\"http:\/\/www.halogenomics.com\/images\/stories\/sureselect\/sureselect-xt-human-methyl-seq-datasheet.pdf\">Methyl-Seq<\/a> d\u2019Agilent qui traitent chimiquement l\u2019ADN avant son s\u00e9quen\u00e7age. Cela sert notamment aux recherches sur la propagation des cancers. On peut aussi \u00e9tudier la mani\u00e8re dont les chromosomes sont repli\u00e9s sur eux-m\u00eames et les liaisons qui peuvent se cr\u00e9er entre plusieurs morceaux d\u2019ADN. C\u2019est l\u2019objet de la m\u00e9thode de pr\u00e9paration de s\u00e9quen\u00e7age par ligase appel\u00e9e <a href=\"http:\/\/www.jove.com\/video\/1869\/hi-c-a-method-to-study-the-three-dimensional-architecture-of-genomes\">Hi-C Seq<\/a>. Elle sert \u00e0 identifier les liens entre les zones des chromosomes.<\/li>\n<\/ul>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/WindowsLiveWriter\/Les-dessous-techniques-du-squenage-du-gn_82A7\/Epigenetique.jpg\"><img loading=\"lazy\" decoding=\"async\" style=\"background-image: none; margin: 10px 0px 10px 10px; padding-left: 0px; padding-right: 0px; display: inline; padding-top: 0px; border-width: 0px;\" title=\"Epigenetique\" alt=\"Epigenetique\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/WindowsLiveWriter\/Les-dessous-techniques-du-squenage-du-gn_82A7\/Epigenetique_thumb.jpg\" width=\"554\" height=\"339\" border=\"0\" \/><\/a><\/p>\n<ul>\n<li><strong>Transcriptome<\/strong> : c\u2019est la partie de l\u2019ADN qui est transcrite en s\u00e9quences codantes (cDNA) puis dans les diff\u00e9rents ARN. Le transcriptome caract\u00e9rise une partie de l\u2019expression des g\u00e8nes sachant que celle-ci d\u00e9pend aussi de facteur \u00e9pig\u00e9n\u00e9tiques que nous venons de voir.<\/li>\n<li><strong>Prot\u00e9ome <\/strong>: prot\u00e9ines g\u00e9n\u00e9r\u00e9es par les cellules, qui varient \u00e0 la fois en fonction de l\u2019expression des g\u00e8nes (transcriptome) mais aussi de ph\u00e9nom\u00e8nes externe (\u00e9pig\u00e9nome). Un m\u00eame g\u00e8ne donn\u00e9 peut coder plusieurs variantes d\u2019une m\u00eame prot\u00e9ine du fait de modifications des ARN messagers lors de leur processus de maturation avant la cr\u00e9ation des prot\u00e9ines via les ribosomes, mais aussi \u00e0 des modifications des prot\u00e9ines suite \u00e0 leur production (phosphorylations, glycosylations).<\/li>\n<li><strong>Bact\u00e9rome<\/strong> : d\u00e9crit l\u2019\u00e9cosyst\u00e8me de bact\u00e9ries d\u2019une esp\u00e8ce vivante. Pour l\u2019homme, il s\u2019agit des bact\u00e9ries internes, dans dans la flore intestinale (l\u2019essentiel), les cavit\u00e9s bucales et nasales, les organes g\u00e9nitaux ainsi qu\u2019externes, sur la peau. A noter le <a href=\"http:\/\/www.ncbi.nlm.nih.gov\/pmc\/articles\/PMC2792171\/pdf\/2317.pdf\">Human Microbiome Project<\/a>, financ\u00e9 \u00e0 hauteur de $150 sur 5 ans (2009-2014) par l&#8217;\u00e9quivalent am\u00e9ricain de l&#8217;INSERM (le National Institute of Health, ou NIH), qui vise \u00e0 s\u00e9quencer le bact\u00e9rome humain complet en s\u2019appuyant sur des \u00e9chantillons pr\u00e9lev\u00e9s sur 250 personnes diff\u00e9rentes. Cela repr\u00e9sente plus de 10000 bact\u00e9ries diff\u00e9rentes et plus d\u2019une centaine de fois le nombre de bases du g\u00e9nome humain. C\u2019est un autre projet gigantesque qui vise \u00e0 identifier la corr\u00e9lation entre le bact\u00e9rome et les diff\u00e9rentes pathologies qui nous affectent et notamment l\u2019ob\u00e9sit\u00e9 ou le psoriasis.<\/li>\n<\/ul>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/WindowsLiveWriter\/Les-dessous-techniques-du-squenage-du-gn_82A7\/Grands-projets-et-bases-de-donnees-genetique-et-epigenetique.jpg\"><img loading=\"lazy\" decoding=\"async\" style=\"background-image: none; margin: 10px 0px 10px 10px; padding-left: 0px; padding-right: 0px; display: inline; padding-top: 0px; border: 0px;\" title=\"Grands projets et bases de donnees genetique et epigenetique\" alt=\"Grands projets et bases de donnees genetique et epigenetique\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/WindowsLiveWriter\/Les-dessous-techniques-du-squenage-du-gn_82A7\/Grands-projets-et-bases-de-donnees-genetique-et-epigenetique_thumb.jpg\" width=\"643\" height=\"359\" border=\"0\" \/><\/a><\/p>\n<p><strong>Les \u00e9tapes num\u00e9riques du s\u00e9quen\u00e7age<\/strong><\/p>\n<p>Le cout \u201cphysique\u201d du s\u00e9quen\u00e7age du g\u00e9nome humain, et de l\u2019ADN et de l\u2019ARN en g\u00e9n\u00e9ral, a baiss\u00e9 plus rapidement que ne le permet la loi de Moore ces derni\u00e8res ann\u00e9es. Ainsi, il \u00e9tait de $500m il y a une douzaine d\u2019ann\u00e9e, de quelques centaines de milliers de dollars au milieu des ann\u00e9es 2000 et il est aujourd\u2019hui inf\u00e9rieur \u00e0 $1000 et s\u2019appr\u00eate \u00e0 descendre en dessous de $100. Je vous recommande au passage la lecture du document <a href=\"http:\/\/www.fas.org\/irp\/agency\/dod\/jason\/hundred.pdf\">$100 genome implications for the DoD<\/a> (d\u00e9cembre 2010) qui couvre cette question ainsi que les implications pratiques de la baisse du co\u00fbt du s\u00e9quen\u00e7age du g\u00e9nome humain.<\/p>\n<p>$100, oui. Mais \u00e0 un d\u00e9tail pr\u00e8s : le traitement num\u00e9rique des donn\u00e9es du s\u00e9quen\u00e7age ! Et celui-ci est en train de devenir sup\u00e9rieur \u00e0 celui du s\u00e9quen\u00e7age proprement dit car il est extr\u00eamement complexe. Sa complexit\u00e9 va d\u00e9pendre de la connaissance pr\u00e9alable que l\u2019on de l\u2019ADN s\u00e9quenc\u00e9 : s\u2019il s\u2019agit d\u2019un ADN humain, on pourra s\u2019appuyer sur les donn\u00e9es du s\u00e9quen\u00e7age r\u00e9alis\u00e9 dans le cadre du Human Genome Project, ce qui sera tr\u00e8s utile pour simplifier les calculs. S\u2019il s\u2019agit par contre d\u2019un ADN compl\u00e8tement nouveau comme celui d\u2019une esp\u00e8ce vivante ou animale ou d\u2019une bact\u00e9rie encore non \u00e9tudi\u00e9e, on partira alors de z\u00e9ro (s\u00e9quen\u00e7age \u201cdi novo\u201d) et la t\u00e2che sera plus lourde.<\/p>\n<p>Parcourons maintenant les diff\u00e9rentes \u00e9tapes de ce traitement num\u00e9rique :<\/p>\n<ul>\n<li>G\u00e9n\u00e9ration des s\u00e9quences d\u2019ADN dans les s\u00e9quenceurs<\/li>\n<\/ul>\n<p>Les s\u00e9quenceurs g\u00e9n\u00e8rent d\u2019abord une donn\u00e9e brute qui est souvent une suite d\u2019images li\u00e9es aux capteurs optiques (SOLID, Illumina, Roche 454, Pacific Bioscience) ou non optiques (Ion Torrent, GeniaChip, Stratos Genomics, Oxford Nanopore). Elles correspondent \u00e0 une base d\u2019ADN d\u00e9tect\u00e9e dans plusieurs zones (microcuves, nanopores, plaque, etc) qui sont li\u00e9es chacune \u00e0 un brin d\u2019ADN.<\/p>\n<p>Ces images sont g\u00e9n\u00e9ralement stock\u00e9es au format TIFF ce qui repr\u00e9senterait 30 To de donn\u00e9es pour un g\u00e9nome humain. C\u2019est dans le PC du s\u00e9quenceur qu\u2019est effectu\u00e9e la conversion \u00e0 la vol\u00e9e de ces images en s\u00e9quences d\u2019ADN (\u201cbase call\u201d), ce qui g\u00e9n\u00e8re 100 Go de donn\u00e9es, ce qui est d\u00e9j\u00e0 plus abordable et permet d\u2019\u00e9viter de stocker 30 To ! Pourquoi 100 Go ? A cause du taux de couverture du s\u00e9quen\u00e7age qui voit l\u2019ADN explos\u00e9 (shotgun) en petits morceaux de taille et positionnement al\u00e9atoires &#8211; de 100 \u00e0 1000 bases en g\u00e9n\u00e9ral &#8211; et avec une redondance d\u2019un facteur qui va jusqu\u2019\u00e0 40. 100 Go revient \u00e0 un taux de couverture de x33. Ce taux peut baisser quand la taille moyenne des brins s\u00e9quenc\u00e9s augmente. Ce qui r\u00e9duira d\u2019ailleurs aussi la charge de calcul par la suite. Les 100 Go comprennent aussi des donn\u00e9es sur la qualit\u00e9 du s\u00e9quen\u00e7age (probabilit\u00e9 d\u2019erreur pour chaque base). Le format de stockage exploite 1 octet par base (qui tient en th\u00e9orie sur 2 bits et non 8 puisqu\u2019il n\u2019y a que quatre bases diff\u00e9rentes). Il d\u00e9pend des constructeurs. Chez Illumina, il s\u2019agit d\u2019un format binaire d\u2019extension .bcl.<\/p>\n<ul>\n<li>Alignement des s\u00e9quences<\/li>\n<\/ul>\n<p>Ce qui sort du s\u00e9quenceur sont des s\u00e9quences d\u2019ADN de quelques centaines de base dont on ne sait rien : ni comment elles sont ordonn\u00e9es, dans quel sens elles ont \u00e9t\u00e9 s\u00e9quenc\u00e9es (pour faire simple, dans le sens montant ou descendant de l\u2019ADN\u2026), d\u2019autant plus qu\u2019elles se recouvrent les unes avec les autres, ni o\u00f9 elles sont positionn\u00e9es dans l\u2019ADN et encore moins \u00e0 quel chromosome elles correspondent. De plus, la t\u00e2che est compliqu\u00e9e par les 1% \u00e0 2% d\u2019erreurs g\u00e9n\u00e9r\u00e9s par les s\u00e9quenceurs. Sans compter le fait que dans les s\u00e9quences dites &#8220;non codantes&#8221; qui constituent l&#8217;essentiel de l&#8217;ADN, il existe une foison de grands blocs d&#8217;ADN dupliqu\u00e9s.<\/p>\n<p>L\u2019alignement va \u00eatre la premi\u00e8re \u00e9tape de reconstitution du puzzle : il consiste \u00e0 trouver comment les brins s\u00e9quenc\u00e9s s\u2019alignent les uns par rapport aux autres, en exploitant leurs recouvrements. Si le s\u00e9quen\u00e7age est \u201cdi novo\u201d, le travail est tr\u00e8s lourd. Si l\u2019on peut exploiter un g\u00e9nome de r\u00e9f\u00e9rence, l\u2019alignement sera plus facile.<\/p>\n<p>L\u2019alignement cr\u00e9\u00e9 ce que l\u2019on appelle des \u201ccontig\u201d, des s\u00e9quences continues de bases. Il va manipuler beaucoup de donn\u00e9es (100 Go !) et n\u00e9cessiter \u00e9norm\u00e9ment de calculs. Ceux-ci sont r\u00e9alis\u00e9s soit en local, soit, ce qui est de plus en plus courant \u201cdans le cloud\u201d. Mais il faut du tr\u00e8s haut d\u00e9bit pour uploader le r\u00e9sultat du s\u00e9quen\u00e7age dans le cloud. D\u2019o\u00f9 le fait que les laboratoires de recherche sont souvent connect\u00e9s \u00e0 Internet par des liaisons sp\u00e9cialis\u00e9es tr\u00e8s haut d\u00e9bit (plus de 1 Gbits\/s). Dans certains cas, on va jusqu\u2019\u00e0 envoyer un disque dur aux services de cloud ! Cela reste encore un peu artisanal (<a href=\"Source: http:\/\/bioinformatics.igm.jhmi.edu\/salzberg\/docs\/Cloud-Computing-NatureBiotech-reprint.pdf\">source<\/a>).<\/p>\n<p>Le principal logiciel pour l\u2019alignement des s\u00e9quences est <a href=\"http:\/\/blast.ncbi.nlm.nih.gov\/\">BLAST<\/a> (Basic Local Alignment Tool), cr\u00e9\u00e9 en 1990 et qui utilise aussi l\u2019algorithme de Smith-Waterman de \u201cprogrammation dynamique\u201d. Son \u00e9quivalent dans le cloud est \u2026 CloudBLAST. On peut aussi citer <a href=\"http:\/\/bowtie-bio.sourceforge.net\/index.shtml\">Bowtie<\/a>(Ultrafast Short Read Aligner, tr\u00e8s \u00e9conome en m\u00e9moire, et est lui-m\u00eame utilis\u00e9 dans un <a href=\"http:\/\/bowtie-bio.sourceforge.net\/other_tools.shtml\">tas d\u2019autres logiciels<\/a>), <strong>MAQ <\/strong>(qui est plus lent et donc bien moins int\u00e9ressant que Bowtie), <strong>Mosaik <\/strong>(qui utilise l\u2019algorithme de Smith-Waterman) et <a href=\"http:\/\/www.novocraft.com\/wiki\/tiki-index.php?page=Novoalign+NGS+Quick+Start+Tutorial\">Novoalign<\/a> (pour Linux et MacOS). Ces logiciels sont soit open source, soit gratuits \u00e0 l\u2019usage pour les activit\u00e9s non lucratives et de recherche. Il y en a en fait <a href=\"http:\/\/en.wikipedia.org\/wiki\/List_of_sequence_alignment_software\">des dizaines<\/a>.<\/p>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/WindowsLiveWriter\/Les-dessous-techniques-du-squenage-du-gn_82A7\/nvidia-cuda.jpg\"><img loading=\"lazy\" decoding=\"async\" style=\"background-image: none; margin: 10px 0px 10px 10px; padding-left: 0px; padding-right: 0px; display: inline; padding-top: 0px; border: 0px;\" title=\"nvidia-cuda\" alt=\"nvidia-cuda\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/WindowsLiveWriter\/Les-dessous-techniques-du-squenage-du-gn_82A7\/nvidia-cuda_thumb.jpg\" width=\"174\" height=\"105\" border=\"0\" \/><\/a><\/p>\n<p>Ces logiciels s\u2019appuient sur des briques techniques comme <strong>MapReduce<\/strong>, un framework distribu\u00e9 cr\u00e9\u00e9 par Google qui permet de parall\u00e9liser les traitements, le framework Java <strong>Hadoop <\/strong>qui fait partie des travaux de l\u2019Apache Foundation, OSS version, le <strong>HDFS <\/strong>(Hadoop Distributed File System), <strong>CloudBurst<\/strong> qui permet de cr\u00e9er un index de k-mer (suites de bases) pour identifier leur alignement et qui utilise lui-m\u00eame MapReduce ou encore <strong>MUMerGPU, <\/strong>qui parall\u00e9lise le calcul sur des GPU comme ceux de nVidia. Sachant que l\u2019outil date de 2007 et les GPU ont fait d\u2019\u00e9normes progr\u00e8s depuis et peuvent maintenant int\u00e9grer plus d\u2019un millier de c\u0153urs.\u00a0 Voici une <a href=\"http:\/\/schatzlab.cshl.edu\/presentations\/2010-05-18.BioHPCStoneRidge.pdf\">pr\u00e9sentation<\/a> qui d\u00e9crit les algorithmes utilis\u00e9s pour l\u2019alignement.<\/p>\n<ul>\n<li>Cartographie<\/li>\n<\/ul>\n<p>Cette \u00e9tape va r\u00e9partir les s\u00e9quences align\u00e9es par r\u00e9gion (le plus souvent, les g\u00e8nes) et par chromosome. Elle va faire appel aux nombreuses bases de donn\u00e9es de g\u00e8nes, cf la partie qui concerne les bases de donn\u00e9es un peu plus loin. Techniquement, cette cartographie repose aussi sur des logiciels d\u2019alignement. Au lieu d\u2019aligner les s\u00e9quences d\u2019ADN sorties d\u2019un s\u00e9quenceur, on aligne les \u201ccontigs\u201d (r\u00e9sultat d\u2019alignement de s\u00e9quen\u00e7age) avec des s\u00e9quences de r\u00e9f\u00e9rence stock\u00e9es dans des bases de donn\u00e9es. L\u00e0 encore, les algorithmes associ\u00e9s ont besoin de pas mal de puissance de calcul.<\/p>\n<ul>\n<li>R\u00e9duction<\/li>\n<\/ul>\n<p>Il s\u2019agit de la phase d\u2019identification des erreurs de s\u00e9quen\u00e7age et des zones de polymorphisme (SNP). Le sch\u00e9ma ci-dessous illustre ce travail de mani\u00e8re visuelle : en haut nous avons un g\u00e9nome de r\u00e9f\u00e9rence de l\u2019ADN \u00e9tudi\u00e9 et en dessous une trentaine de s\u00e9quences r\u00e9assembl\u00e9es par le logiciel. Cela permet d\u2019identifier ici deux polymorphismes, une base modifi\u00e9e par rapport \u00e0 l\u2019ADN de r\u00e9f\u00e9rence, et une erreur de s\u00e9quen\u00e7age, facilement \u00e9limin\u00e9e statistiquement.<\/p>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/WindowsLiveWriter\/Les-dessous-techniques-du-squenage-du-gn_82A7\/ADN-Polymorphisme.jpg\"><img loading=\"lazy\" decoding=\"async\" style=\"background-image: none; margin: 10px 0px 10px 10px; padding-left: 0px; padding-right: 0px; display: inline; padding-top: 0px; border-width: 0px;\" title=\"ADN Polymorphisme\" alt=\"ADN Polymorphisme\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/WindowsLiveWriter\/Les-dessous-techniques-du-squenage-du-gn_82A7\/ADN-Polymorphisme_thumb.jpg\" width=\"531\" height=\"290\" border=\"0\" \/><\/a><\/p>\n<p>L\u2019offre logicielle associ\u00e9e \u00e0 ces quatre \u00e9tapes est \u00e9norme, avec principalement de l\u2019open source, ce qui s\u2019explique par le fait qu\u2019ils sont avant tout utilis\u00e9s par des laboratoires de recherche. On trouve \u00e0 la fois des logiciels traitant des briques de base comme l\u2019alignement ou des logiciels int\u00e9grant plusieurs briques et simplifiant le processus pour les utilisateurs.<\/p>\n<p>Dans le cloud, il y a notamment <strong>CrossBow <\/strong>qui permet d\u2019identifier des SNPs. Il exploite une impl\u00e9mentation <strong>Hadoop <\/strong>du logiciel <strong>MapReduce <\/strong>pour ex\u00e9cuter en parall\u00e8le plusieurs instances du logiciel d\u2019alignement Bowtie (je l\u2019avais survol\u00e9 dans un <a href=\"https:\/\/www.oezratty.net\/wordpress\/2006\/inside-google-labs\/\">article sur les Googles Labs<\/a> en 2006). Il utilise par ailleurs plusieurs instances du logiciel d\u2019identification de polymorphismes <strong>SOAPsnp <\/strong>qui fonctionne avec un algorithme bay\u00e9sien. Crossbow est capable de traiter l\u2019ADN complet d\u2019une personne en quatre heures, ceci comprenant le temps d\u2019upload. Et pour $85. La recherche de SNPs coutait $100 en 2009 <a href=\"http:\/\/genomebiology.com\/content\/pdf\/gb-2009-10-11-r134.pdf\">sur Amazon EC2<\/a>. Il y a aussi <a href=\"http:\/\/soap.genomics.org.cn\/soapdenovo.html\">SOAPdenovo<\/a>, qui est capable d\u2019assembler un g\u00e9nome humain complet \u201cde novo\u201d avec des donn\u00e9es issues d\u2019un s\u00e9quenceur Illumina avec un taux de couverture de 52. Il faut toutefois 1500 heures de CPU sur un machine \u00e0 32 c\u0153urs (soient 2 jours) et la bagatelle de 512 Go de RAM. On peut enfin citer <a href=\"https:\/\/dnanexus.com\/\">DNAnexus<\/a>, une startup dans laquelle a investi Google Ventures qui fournit des services de traitement de donn\u00e9es de s\u00e9quen\u00e7age en cloud.<\/p>\n<ul>\n<li>Visualisation et analyse<\/li>\n<\/ul>\n<p>Une fois les basiques r\u00e9alis\u00e9s, la visualisation des r\u00e9sultats et leur croisement avec des bases diverses, notamment de g\u00e8nes, donne lieu \u00e0 beaucoup de cr\u00e9ativit\u00e9 et d\u2019am\u00e9lioration de la productivit\u00e9 pour les chercheurs. Les outils de navigation dans les g\u00e9nomes fonctionnent soit en ligne soit dans des applications locales. Dans ce dernier cas, il s\u2019agit souvent d\u2019applications \u00e9crites en Java, ce qui permet d\u2019en avoir une version \u201cen ligne\u201d \u2013 en fait, fonctionnant dans un navigateur mais cela reste du \u201cclient lourd\u201d &#8211; avec le m\u00eame code. Voici par exemple l\u2019<a href=\"http:\/\/bib.oxfordjournals.org\/content\/early\/2012\/04\/18\/bib.bbs017.full.pdf+html\">Integrated Genomic Viewer<\/a> (<em>ci-dessous<\/em>).<\/p>\n<h3>\u00a0<a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/WindowsLiveWriter\/Les-dessous-techniques-du-squenage-du-gn_82A7\/Integrated-Genomic-Viewer-screen-map-chromosome.jpg\"><img loading=\"lazy\" decoding=\"async\" style=\"background-image: none; margin: 10px 0px 10px 10px; padding-left: 0px; padding-right: 0px; display: inline; padding-top: 0px; border-width: 0px;\" title=\"Integrated Genomic Viewer screen map chromosome\" alt=\"Integrated Genomic Viewer screen map chromosome\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/WindowsLiveWriter\/Les-dessous-techniques-du-squenage-du-gn_82A7\/Integrated-Genomic-Viewer-screen-map-chromosome_thumb.jpg\" width=\"656\" height=\"473\" border=\"0\" \/><\/a><\/h3>\n<p>Citons le projet <a href=\"http:\/\/www.opengenomicsengine.org\/\">Open Genomics Engine<\/a>, sponsoris\u00e9 par <a href=\"http:\/\/www.nvidia.com\/object\/gcr-genomics-research.html\">nVidia<\/a> qui rappelle l\u2019utilit\u00e9 d\u2019aller vite dans le s\u00e9quen\u00e7age du g\u00e9nome en \u00e9voquant comme exemple l\u2019\u00e9pid\u00e9mie d\u2019Escherichia Coli g\u00e9n\u00e9ratrice de toxine qui avait s\u00e9vi en Allemagne pendant l\u2019\u00e9t\u00e9 2011 et qui avait tu\u00e9 17 personnes. Le g\u00e8ne responsable avait \u00e9t\u00e9 s\u00e9quenc\u00e9 en trois heures avec une machine Ion Torrent (d\u00e9crite dans l\u2019<a href=\"https:\/\/www.oezratty.net\/wordpress\/2012\/technologies-sequencage-gnome-humain-4\/\">article pr\u00e9c\u00e9dent<\/a> de cette s\u00e9rie) ce qui permis d\u2019en d\u00e9tecter l\u2019origine avec pr\u00e9cision (une production de graines germ\u00e9es en Allemagne) et puis de la stopper.<\/p>\n<p>Les logiciels ne manquent pas dans cette cat\u00e9gorie. On peut aussi \u00e9voquer <a href=\"http:\/\/bioinformatics.oxfordjournals.org\/content\/27\/14\/1889.full.pdf+html\">GenPlay<\/a>, qui est \u00e9crit en Java et exploite les donn\u00e9es de s\u00e9quen\u00e7age de toutes sortes (ADN, ARN, ChIP-Seq, TimEX-Seq, SNP), <a href=\"http:\/\/bioinformatics.oxfordjournals.org\/content\/26\/16\/1938.full.pdf+html\">Savant Genome Browser<\/a>, <a href=\"http:\/\/nar.oxfordjournals.org\/content\/38\/suppl_2\/W732.full-text-lowres.pdf\">Magic Viewer<\/a>, GenomeView ou encore <a href=\"http:\/\/download.cnet.com\/ZOOM-Lite\/3000-2054_4-75069431.html\">Zoom Lite<\/a> qui se t\u00e9l\u00e9charge sur CNET (<em>ci-dessous<\/em>) !<\/p>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/WindowsLiveWriter\/Les-dessous-techniques-du-squenage-du-gn_82A7\/Zoom-Lite.jpg\"><img loading=\"lazy\" decoding=\"async\" style=\"background-image: none; margin: 10px 0px 10px 10px; padding-left: 0px; padding-right: 0px; display: inline; padding-top: 0px; border-width: 0px;\" title=\"Zoom Lite\" alt=\"Zoom Lite\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/WindowsLiveWriter\/Les-dessous-techniques-du-squenage-du-gn_82A7\/Zoom-Lite_thumb.jpg\" width=\"609\" height=\"458\" border=\"0\" \/><\/a><\/p>\n<p>Comment faire son march\u00e9 ? Il faut tester une bonne douzaine d\u2019outils pour faire son choix, et probablement s\u2019abonner \u00e0 la litt\u00e9rature technique du domaine.<\/p>\n<p><strong>Bases de donn\u00e9es<\/strong><\/p>\n<p>Quid du format des s\u00e9quences d\u2019ADN g\u00e9n\u00e9r\u00e9es par les s\u00e9quenceurs et enregistr\u00e9s dans les bases de donn\u00e9es ? Il existe tout un <a href=\"http:\/\/www.genomatix.de\/online_help\/help\/sequence_formats.html\">tas de formats<\/a> qui vont des formats bruts de d\u00e9coffrage \u00e0 des formats contenant des annotations et tags divers. Il y a par exemple le format texte FASTA qui occupe un octet par base et n\u00e9cessite donc 3 Go par g\u00e9nome humain ou 6 Go dans sa forme diplo\u00efde (chromosomes doubles s\u00e9quenc\u00e9s). Il existe aussi un format dense qui code les bases sur 2 bits. Il est exploit\u00e9 par certains logiciels de visualisation d\u2019ADN. Vous pouvez m\u00eame par exemple <a href=\"http:\/\/genplay.einstein.yu.edu\/library\/Human\/hg18\/DNA_Sequence\">t\u00e9l\u00e9charger<\/a> les 700 Mo de l\u2019ADN du chromosome 18 humain si cela vous chante. Et vous vous demanderez comme moi pourquoi les 76 millions de bases de ce chromosome occupent chacune pr\u00e8s de 9 octets dans ce format qui pourtant ne contient pas d\u2019annotations<\/p>\n<p>C\u00f4t\u00e9 bases de donn\u00e9es, il y a l\u2019embarras du choix selon les besoins. On trouve des bases sur les g\u00e9nomes d\u2019esp\u00e8ces diverses, sur les transcriptomes (ADN codantes), sur les prot\u00e9ines (y compris leur mod\u00e8le 3D), sur l\u2019ADN des bact\u00e9ries, sur les <a href=\"http:\/\/atlasgeneticsoncology.org\/Indexbyalpha\/idxa_B.html\">g\u00e8nes du cancer<\/a>, sur les prot\u00e9ines, sur les <a href=\"http:\/\/rdp.cme.msu.edu\/\">ribosomes<\/a>, sur l\u2019effet des m\u00e9dicaments, etc. Et ces bases sont de plus en plus crois\u00e9es.<\/p>\n<p>Les bases de donn\u00e9es dans le domaine sont tr\u00e8s ouvertes et accessibles \u00e0 tous. Il faut bien entendu avoir un minimum de comp\u00e9tences (que je n\u2019ai pas) pour pouvoir exploiter tous ces outils. Mais le fait est que la bio-informatique est une discipline o\u00f9 le data-mining est librement accessible. Cela vient du fait que le vivant ne peut pas se breveter, notamment depuis que l\u2019ADN fait partie du patrimoine de l\u2019humanit\u00e9 selon la d\u00e9claration de l\u2019UNESCO du 11 novembre 1997. Un g\u00e8ne n\u2019est pas brevetable non plus en Europe\u2026 mais peut l\u2019\u00eatre aux USA. Les th\u00e9rapies ou des modifications du vivant peuvent aussi l\u2019\u00eatre, comme l\u2019invention d\u2019un proc\u00e9d\u00e9 de fabrication d\u2019une prot\u00e9ine. En tout cas, les s\u00e9quences d\u2019ADN \u201cnaturel\u201d des bases de donn\u00e9es sont librement accessibles et exploitables (cf cet <a href=\"http:\/\/www.eurasante.com\/fileadmin\/web\/pdf-publications\/La_Protection_Juridique_des_Inventions_Biotechnologiques.pdf\">excellent document<\/a> sur la brevetabilit\u00e9 du vivant). Nous sommes ici dans un environnement \u201c<em>d\u2019open data<\/em>\u201d.<\/p>\n<p>La base de r\u00e9f\u00e9rence sur le g\u00e9nome humain est la <strong>Genbank<\/strong>, du <a href=\"http:\/\/www.ncbi.nlm.nih.gov\/\">National Center for Biotechnology Information<\/a>, encore une fois, financ\u00e9e par le NIH am\u00e9ricain. La base est mise \u00e0 jour tous les deux mois. En aout 2012, elle comportait 143 milliards de bases d\u2019une quinzaine d\u2019esp\u00e8ces diff\u00e9rentes, dont 16 sur nous, les homo sapiens. La Genbank am\u00e9ricaine a son pendant europ\u00e9en, l\u2019<a href=\"http:\/\/www.ebi.ac.uk\/ena\/\">European Nucleotide Archive<\/a> (ENA) et japonais, la <a href=\"http:\/\/www.ddbj.nig.ac.jp\/\">DNA Data Bank of Japan<\/a>, les trois mutualisant leurs bases et collaborant au sein de la <a href=\"http:\/\/www.insdc.org\/\">International Nucleotide Sequence Database Collaboration<\/a> (INSDC) sur la standardisation des formats de donn\u00e9es. A noter le r\u00f4le dans l\u2019histoire de l\u2019EMBL, l\u2019<a href=\"http:\/\/www.embl.fr\/aboutus\/contact\/index.html\">European Molecular Biology Laboratory<\/a> qui est bas\u00e9 \u00e0 Grenoble et qui se focalise sur des projets de recherche en \u00e9pig\u00e9n\u00e9tique et s\u2019appuie sur des moyens d\u2019investigation de pointe (diffraction par rayons X, etc).<\/p>\n<p>Les donn\u00e9es de Genbank sont accessibles via l\u2019outil <a href=\"http:\/\/blast.ncbi.nlm.nih.gov\/Blast.cgi\">BLAST<\/a> qui contient des s\u00e9quences de nucl\u00e9otides qui ont \u00e9t\u00e9 assembl\u00e9es avec l\u2019outil du m\u00eame nom. Les bases de nucl\u00e9otides se focalisent sur le cDNA (coding DNA), soit l\u2019ADN codante des g\u00e8nes et non l\u2019ADN non codante qui l\u2019entoure et qui rel\u00e8ve de plus de 99% de l\u2019ADN du g\u00e9nome humain. BLAST permet \u00e9galement d\u2019acc\u00e9der \u00e0 des bases de prot\u00e9ines.<\/p>\n<p>Il faut aussi citer la base <a href=\"http:\/\/www.ensembl.org\/index.html\">Ensembl<\/a><strong>, <\/strong>qui permet de naviguer dans les g\u00e9nomes de nombreux organismes. La base est non seulement librement accessible mais \u00e9galement expos\u00e9e sous forme d\u2019APIs. Et puis l\u2019<a href=\"http:\/\/genome.ucsc.edu\/\">UCSC Genome Browser<\/a><strong>. <\/strong>Ces outils visualisent aussi les annotations r\u00e9alis\u00e9es par tous les chercheurs \u00e0 l\u2019\u00e9chelle mondiale, qui les sont publi\u00e9es de mani\u00e8re ouverte. Cela permet de bien mutualiser le savoir sur les g\u00e8nes et leur expression. Le lien crois\u00e9 entre les bases semble r\u00e9alis\u00e9 au coup par coup, mais il semble que les outils de derni\u00e8re g\u00e9n\u00e9ration rel\u00e8vent de plus en plus du data-mining multi-bases et soient de plus en plus puissants pour exploiter et croiser des sources de donn\u00e9es diverses. Les bases sont aussi de plus en plus crois\u00e9es avec les bases de donn\u00e9es r\u00e9f\u00e9ren\u00e7ant les publications scientifiques comme <strong><a href=\"http:\/\/www.ncbi.nlm.nih.gov\/pubmed\">PubMed<\/a><\/strong> &#8211; encore une autre branche du NIH &#8211; sachant que certains articles sont d\u2019acc\u00e8s payant.<\/p>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/WindowsLiveWriter\/Les-dessous-techniques-du-squenage-du-gn_82A7\/UCSC-genome-browser-3.jpg\"><img loading=\"lazy\" decoding=\"async\" style=\"background-image: none; margin: 10px 0px 10px 10px; padding-left: 0px; padding-right: 0px; display: inline; padding-top: 0px; border: 0px;\" title=\"UCSC genome browser 3\" alt=\"UCSC genome browser 3\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/WindowsLiveWriter\/Les-dessous-techniques-du-squenage-du-gn_82A7\/UCSC-genome-browser-3_thumb.jpg\" width=\"620\" height=\"363\" border=\"0\" \/><\/a><\/p>\n<p>Petit parcours rapide avec le Genome Browser : on peut visualiser \u00e0 haut niveau la cartographie d\u2019un chromosome \u00e0 l\u2019endroit d\u2019un g\u00e8ne que l\u2019on veut \u00e9tudier. D\u2019un coup d\u2019\u0153il (<em>ci-dessus<\/em>), on peut identifier la position du g\u00e8ne (en utilisant son code) et en zoomant, les s\u00e9quences d\u2019ADN correspondantes (<em>ci-dessous<\/em>) non seulement pour l\u2019homme mais pour un tas d\u2019esp\u00e8ces animales ainsi que les polymorphismes identifi\u00e9s.<\/p>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/WindowsLiveWriter\/Les-dessous-techniques-du-squenage-du-gn_82A7\/UCSC-genome-browser-4.jpg\"><img loading=\"lazy\" decoding=\"async\" style=\"background-image: none; margin: 10px 0px 10px 10px; padding-left: 0px; padding-right: 0px; display: inline; padding-top: 0px; border: 0px;\" title=\"UCSC genome browser 4\" alt=\"UCSC genome browser 4\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/WindowsLiveWriter\/Les-dessous-techniques-du-squenage-du-gn_82A7\/UCSC-genome-browser-4_thumb.jpg\" width=\"622\" height=\"365\" border=\"0\" \/><\/a><\/p>\n<p>Faisons maintenant un tour dans le <strong>Genome Explorer <\/strong>qui avait donn\u00e9 lieu \u00e0 une impressionnante <a href=\"https:\/\/developers.google.com\/compute\/io\">d\u00e9monstration<\/a> lors de la derni\u00e8re conf\u00e9rence d\u00e9veloppeur Google I\/O (juin 2012, <a href=\"http:\/\/www.youtube.com\/watch?v=ZzBCvmV-6p4\">vid\u00e9o<\/a> de 4 minutes). La d\u00e9monstration s\u2019appuyait sur <strong>Google Compute Engine <\/strong>et une application de l\u2019<a href=\"https:\/\/www.systemsbiology.org\/\">Institute for Systems Biology<\/a> qui tournait sur 10000 c\u0153urs et 1024 serveurs octoc\u0153urs. Le processus s\u2019ex\u00e9cute en une heure. La d\u00e9monstration \u00e9tait ensuite \u00e9tendue \u00e0 600000 c\u0153urs (sur 771000 disponibles) pour s\u2019ex\u00e9cuter plus rapidement&#8230; en quelques secondes et sous les yeux z\u00e9bahis de l\u2019assistance. Le logiciel exploitait le <a href=\"http:\/\/code.google.com\/p\/rf-ace\/\">RF-ACE code<\/a>, un algorithme d\u2019auto-apprentissage qui identifie les associations entre caract\u00e9ristiques g\u00e9nomiques. L\u2019ISB est un laboratoire de recherche priv\u00e9 \u00e0 but non lucratif bas\u00e9 \u00e0 Seattle qui est notamment tr\u00e8s pointu en exploitation de techniques de bio-informatique (sp\u00e9cialit\u00e9 de 10 de ses 23 <a href=\"https:\/\/www.systemsbiology.org\/senior-research-scientists-view\">top chercheurs<\/a>). Google permet \u00e0 une douzaine de laboratoires dans le monde d\u2019exploiter \u00e0 cette \u00e9chelle la puissance de son Compute Engine dans le cloud.<\/p>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/WindowsLiveWriter\/Les-dessous-techniques-du-squenage-du-gn_82A7\/genome_explorer_thumb2.png\"><img loading=\"lazy\" decoding=\"async\" style=\"background-image: none; padding-left: 0px; padding-right: 0px; display: inline; padding-top: 0px; border-width: 0px;\" title=\"genome_explorer_thumb2\" alt=\"genome_explorer_thumb2\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/WindowsLiveWriter\/Les-dessous-techniques-du-squenage-du-gn_82A7\/genome_explorer_thumb2_thumb.png\" width=\"623\" height=\"504\" border=\"0\" \/><\/a><\/p>\n<p>L\u2019application scientifique ? Il s\u2019agissait d\u2019une visualisation du Cancer Regulome cr\u00e9\u00e9 dans le cadre du projet <a href=\"http:\/\/cancergenome.nih.gov\/\">The Cancer Genome Atlas<\/a> qui vise \u00e0 cartographier les g\u00e8nes du cancer ainsi que les facteurs externes provocant leur expression. La cartographie pr\u00e9sentait relevait d\u2019une analyse multivariante faisant la corr\u00e9lation entre les g\u00e8nes, les mutations des g\u00e8nes et les donn\u00e9es cliniques (personnes affect\u00e9es ou non de cancers de types vari\u00e9s). Ce type d\u2019analyse a notamment permis d\u2019identifier des g\u00e8nes <a href=\"http:\/\/cancergenome.nih.gov\/newsevents\/newsannouncements\/colorectaljulypressrelease\">co-responsables de cancers colo-rectaux<\/a>, avec \u00e0 la cl\u00e9, la cr\u00e9ation de th\u00e9rapies cibl\u00e9es pour combattre ces cancers \u00e0 la source.<\/p>\n<p>Bas\u00e9e sur les m\u00eames technologies de Google, la cartographie ci-dessous obtenue dans le <a href=\"http:\/\/explorer.cancerregulome.org\/crc_agg\/\">Cancer Regulome<\/a> consolide quant \u00e0 elle les informations sur les g\u00e8nes du cancer et les facteurs \u00e9pig\u00e9n\u00e9tiques d\u2019expression des g\u00e8nes comme la m\u00e9thylation de l\u2019ADN ainsi que les mutations d\u2019origines diverses.<\/p>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/WindowsLiveWriter\/Les-dessous-techniques-du-squenage-du-gn_82A7\/Cancer-Genome-Atlas_thumb7.jpg\"><img loading=\"lazy\" decoding=\"async\" style=\"background-image: none; padding-left: 0px; padding-right: 0px; display: inline; padding-top: 0px; border: 0px;\" title=\"Cancer-Genome-Atlas_thumb7\" alt=\"Cancer-Genome-Atlas_thumb7\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/WindowsLiveWriter\/Les-dessous-techniques-du-squenage-du-gn_82A7\/Cancer-Genome-Atlas_thumb7_thumb.jpg\" width=\"598\" height=\"474\" border=\"0\" \/><\/a><\/p>\n<p>Dans ce second \u00e9cran, on peut visualiser d\u2019un coup d\u2019\u0153il les relations entre g\u00e8nes de l\u2019ensemble des chromosomes (ne m\u2019en demandez pas plus\u2026).<\/p>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/WindowsLiveWriter\/Les-dessous-techniques-du-squenage-du-gn_82A7\/Cancer-Genome-Atlas-3_thumb2.jpg\"><img loading=\"lazy\" decoding=\"async\" style=\"background-image: none; padding-left: 0px; padding-right: 0px; display: inline; padding-top: 0px; border: 0px;\" title=\"Cancer-Genome-Atlas-3_thumb2\" alt=\"Cancer-Genome-Atlas-3_thumb2\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/WindowsLiveWriter\/Les-dessous-techniques-du-squenage-du-gn_82A7\/Cancer-Genome-Atlas-3_thumb2_thumb.jpg\" width=\"601\" height=\"437\" border=\"0\" \/><\/a><\/p>\n<p>Pourquoi Google s\u2019int\u00e9resse-t-il \u00e0 la g\u00e9n\u00e9tique ? Certains patrons du CAC 40 s\u2019int\u00e9ressent \u00e0 l\u2019art (Pinault), \u00e0 la voile, ou \u00e0 d\u2019autres passions. Ici, la motivation est aussi tr\u00e8s personnelle \u00e0 la source. Tout d\u2019abord la femme de Sergei Brin, Anne Wojcicki, est cofondatrice de la startup <strong>23andMe <\/strong>(Mountain View, $52m de lev\u00e9s), dans laquelle Google Ventures et Sergei Brin ont investit. Secundo, Sergei Brin a appris par la seconde qu\u2019il \u00e9tait atteint d\u2019une mutation g\u00e9n\u00e9tique g\u00e9n\u00e9ratrice de la maladie de Parkinson. Pour couronner le tout, Lucy Page n\u00e9e Southworth, la femme de Larry Page, l\u2019autre cofondateur de Google, est docteur en bio-informatique de Stanford. Ceci explique pourquoi Google finance le XPrize dont nous avons d\u00e9j\u00e0 parl\u00e9 !<\/p>\n<p><a href=\"https:\/\/www.23andme.com\/howitworks2\/\">23andMe<\/a> permet au grand public d\u2019analyser son g\u00e9nome pour identifier ses origines, ses anc\u00eatres et ses potentialit\u00e9s de pathologies d\u2019origine g\u00e9n\u00e9tique (diab\u00e8te type 2, maladie de Parkinson, etc) mais aussi certaines de vos allergies alimentaires et les effets ind\u00e9sirables de certains m\u00e9dicaments. Il propose aussi aux utilisateurs de cr\u00e9er leur propre r\u00e9seau social avec leurs parents et cousins plus ou moins \u00e9loign\u00e9s, pour identifier les traits qu\u2019ils ont en commun. Des donn\u00e9es que Google se ferait un plaisir d\u2019indexer ! En bonus, on vous indiquera votre variante du g\u00e8ne ACTN3 qui produit la prot\u00e9ine Alpha-actinie-3, celle qui conditionne la performance athl\u00e9tique, au sprint ou \u00e0 l\u2019endurance (mais pas les deux \u00e0 la fois). Le tout pour $300 ! Le processus : ils envoient un petit kit permettant de leur envoyer un \u00e9chantillon de salive et en trois semaines, on obtient le r\u00e9sultat dans un mail s\u00e9curis\u00e9. Est-ce une lubie d\u2019hypochondriaque ? Comme tous les outils un peu g\u00e9n\u00e9riques, on peut en faire n\u2019importe quoi, du meilleur au pire. Mais il semble qu\u2019il sera difficile d\u2019arr\u00eater cette tendance tout du moins aux USA.<\/p>\n<p>Ce genre de service s\u2019appuie sur une technologie qui n\u2019est pas celle du s\u00e9quen\u00e7age. 23andme utilise le syst\u00e8me <a href=\"http:\/\/www.illumina.com\/documents\/products\/datasheets\/datasheet_infiniumhd.pdf\">Illumina OmniExpress Plus Genotyping BeadChip<\/a> qui sert \u00e0 identifier les variations de notre ADN (\u201cSNP\u201d : single nucleotide polymorphisms) avec des biopuces. Dans la machines d\u2019Illumina, ce sont des centaines de milliers de variations qui sont tout de m\u00eame identifiables et le traitement est r\u00e9alis\u00e9 en quelques minutes. C\u2019est bien plus rapide qu\u2019un s\u00e9quen\u00e7age d\u2019ADN. Il se trouve que le logiciel d\u2019analyse d\u2019Illumina (Genome Studio) dispose d\u2019API ouvertes exploitables par des tiers. C\u2019est peut-\u00eatre ce que 23andMe utilise pour alimenter ses propres bases et son service en ligne pour ses clients.<\/p>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/WindowsLiveWriter\/Les-dessous-techniques-du-squenage-du-gn_82A7\/23andme-howitworks.jpg\"><img loading=\"lazy\" decoding=\"async\" style=\"background-image: none; margin: 10px 0px 10px 10px; padding-left: 0px; padding-right: 0px; display: inline; padding-top: 0px; border: 0px;\" title=\"23andme howitworks\" alt=\"23andme howitworks\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/WindowsLiveWriter\/Les-dessous-techniques-du-squenage-du-gn_82A7\/23andme-howitworks_thumb.jpg\" width=\"596\" height=\"384\" border=\"0\" \/><\/a><\/p>\n<p>Pour terminer ici, un petit mot sur une technologie d\u00e9riv\u00e9e de celle du s\u00e9quen\u00e7age : la technique inverse consistant \u00e0 stocker de l\u2019information dans de l\u2019ADN. Une \u00e9quipe de Harvard a <a href=\"http:\/\/www.extremetech.com\/extreme\/134672-harvard-cracks-dna-storage-crams-700-terabytes-of-data-into-a-single-gram\">r\u00e9ussi \u00e0 le faire<\/a>. L\u2019\u00e9quipe de <a href=\"http:\/\/hms.harvard.edu\/content\/writing-book-dna\">George Church and Sri Kosuri<\/a> du Wyss Institute aurait r\u00e9ussi \u00e0 stocker 700 To de donn\u00e9es dans un gramme d\u2019ADN. Le tout avec des machines de laboratoire du march\u00e9.<\/p>\n<p>Le syst\u00e8me encode les donn\u00e9es sur des brins d\u2019ADN courts de 96 bases, chaque base repr\u00e9sentant un bit (1 pour une paire T-G et 0 pour une paire A-C, quelle que soit l\u2019orientation du couple, T-G ou G-T sur le double brin d\u2019ADN). Chaque bloc de 96 bases comprend un bloc d\u2019adressage de 19 bits. Vous me direz que cela ne fait que 2 puissance 19 combinaisons, soit 524288. C\u2019\u00e9tait suffisant pour le test des chercheurs qui ont utilis\u00e9 54898 blocs de 96 bits pour stocker un bouquin (\u00e0 eux) de 528 Ko. Ils ont reproduit le test plusieurs fois, ce qui leur a permis de g\u00e9n\u00e9rer 700 To de donn\u00e9es. Mais avec beaucoup de redondance. Pour ne pas avoir de limites, il serait bon de partir tout de suite avec un bloc d\u2019adresse de 128 bits, comme pour TCP\/IP V6. Et l\u00e0, il faudrait donc avoir des blocs d\u2019ADN d\u2019au moins 256 bases voire plus. Ce qui compliquerait un peu la t\u00e2che du s\u00e9quen\u00e7age.<\/p>\n<p>L\u2019avantage de l\u2019ADN dans tout \u00e7a ? Il peut se conserver <strong>tr\u00e8s<\/strong> durablement, tout du moins dans l\u2019Ethanol, et bien plus durablement qu\u2019un disque magn\u00e9tique ou m\u00eame qu\u2019un DVD qui s\u2019use par \u00e9rosion chimique \u00e0 l\u2019\u00e9chelle d\u2019une ou deux d\u00e9cennies, bien que l\u2019on manque encore de recul. Les inconv\u00e9nients ? Cela reste du stockage de long terme et dont le temps d\u2019acc\u00e8s restera encore longtemps tr\u00e8s insatisfaisant.<\/p>\n<p>Les chercheurs pr\u00e9cisent bien que l\u2019ADN g\u00e9n\u00e9r\u00e9 pour stocker l\u2019information n\u2019est pas plac\u00e9 dans des cellules vivantes. Celles-ci auraient vite fait de faire \u00e9voluer l\u2019ADN par mutations et de modifier l\u2019information stock\u00e9e. Un inconv\u00e9nient bien pratique qui permet au passage d\u2019\u00e9vacuer les les risques \u201csanitaires\u201d que cela pourrait g\u00e9n\u00e9rer. Notamment au niveau de l\u2019infection de l\u2019ADN par des virus informatiques qui deviendraient des virus vivants.<\/p>\n<p>Bref, l\u2019ADN, ou plut\u00f4t ce que l\u2019homme en fait, n\u2019a pas fini de nous surprendre.<\/p>\n<p>Dans l\u2019<a href=\"https:\/\/www.oezratty.net\/wordpress\/2012\/technologies-sequencage-genome-humain-6\/\">\u00e9pisode suivant<\/a>, nous sortirons un peu du cadre purement technologique pour observer d\u2019o\u00f9 viennent toutes ces innovations. Pourquoi viennent-elles essentiellement des USA. Tr\u00e8s peu d\u2019Europe. Et aucune de France !<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Dans les quatre parties pr\u00e9c\u00e9dentes de cette s\u00e9rie estivale, nous avons \u00e9tudi\u00e9 les diff\u00e9rentes techniques de s\u00e9quen\u00e7age de l\u2019ADN humain (ou pas). Nous allons maintenant passer \u00e0 la partie num\u00e9rique de la question en faisant le tour des outils informatiques qui exploitent les donn\u00e9es brutes du s\u00e9quen\u00e7age pour reconstituer l\u2019ADN, et les applications qui en [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[19,215,23,1570,5],"tags":[1628,1629,1623,2470,1624,1630,1622,1632,1620,1631,1627,1621,1626,1625],"class_list":["post-7244","post","type-post","status-publish","format-standard","hentry","category-google","category-hautdebit","category-logiciels-libres","category-sante","category-technologie","tag-23andme","tag-bacterome","tag-doe","tag-google","tag-hgp","tag-igv","tag-lucy-southwork","tag-methylation","tag-nih","tag-open-genomics-engine","tag-polymorphisme","tag-sergei-brin","tag-snp","tag-transcriptome"],"views":61154,"_links":{"self":[{"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/posts\/7244","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/comments?post=7244"}],"version-history":[{"count":0,"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/posts\/7244\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/media?parent=7244"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/categories?post=7244"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/tags?post=7244"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}