{"id":17789,"date":"2019-08-27T09:11:33","date_gmt":"2019-08-27T08:11:33","guid":{"rendered":"https:\/\/www.oezratty.net\/wordpress\/?p=17789"},"modified":"2019-09-02T16:04:47","modified_gmt":"2019-09-02T15:04:47","slug":"plus-grand-processeur-ia","status":"publish","type":"post","link":"https:\/\/www.oezratty.net\/wordpress\/2019\/plus-grand-processeur-ia\/","title":{"rendered":"Le plus grand processeur d&#8217;IA"},"content":{"rendered":"<p>Apr\u00e8s avoir trait\u00e9 avec grande l\u00e9g\u00e8ret\u00e9 le sujet du <a href=\"https:\/\/www.oezratty.net\/wordpress\/2019\/ressources-management-quantique\/\">management quantique<\/a>, je reviens aux choses s\u00e9rieuses avec une actualit\u00e9 de l\u2019IA qui m\u00e9rite le d\u00e9tour, l\u2019annonce de Cerebras de cr\u00e9ation du plus grand processeur d\u2019IA (ou tout court) au monde.<\/p>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/Cerebras-Fab-at-TSMC.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\"\" style=\"background-image: none; padding-top: 0px; padding-left: 0px; display: inline; padding-right: 0px; border: 0px;\" title=\"Cerebras Fab at TSMC\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/Cerebras-Fab-at-TSMC_thumb.jpg\" alt=\"Cerebras Fab at TSMC\" width=\"480\" height=\"331\" border=\"0\" \/><\/a><\/p>\n<p>Il est d\u00e9di\u00e9 \u00e0 l\u2019entra\u00eenement et \u00e0 l\u2019inf\u00e9rence de solutions de machine learning et de deep learning. Pour comprendre cette annonce, il faut revenir aux basiques. Le machine learning et sa forme la plus avanc\u00e9e, le deep learning requi\u00e8rent des masses de calcul impressionnantes, surtout lors des phases d\u2019entra\u00eenement des mod\u00e8les. Ils sont \u00e0 la base d\u2019une bonne part actuelle des solutions de l\u2019intelligence artificielle, que ce soit en particulier pour le traitement de l\u2019image et celui du langage.<\/p>\n<p><strong>Fonctions math\u00e9matiques d\u2019un processeur d\u2019IA<\/strong><\/p>\n<p>La principale voie choisie pour g\u00e9rer ces calculs consiste \u00e0 cr\u00e9er des processeurs qui ex\u00e9cutent aussi nativement que possible les fonctions math\u00e9matiques qui servent \u00e0 g\u00e9rer les r\u00e9seaux de neurones du deep learning. Il faut d\u2019abord entra\u00eener ces r\u00e9seaux de neurones avec de gros jeux de donn\u00e9es comme des bases de millions d\u2019images ou des tombereaux de textes, ce qui constitue la charge la plus lourde, puis les ex\u00e9cuter avec les donn\u00e9es de production, ce qui consomme moins de ressources mais peut \u00e9ventuellement \u00eatre r\u00e9alis\u00e9 simultan\u00e9ment pour un tr\u00e8s grand nombre d\u2019utilisateurs.<\/p>\n<p>Plusieurs types de calculs doivent \u00eatre r\u00e9alis\u00e9s par ces processeurs :<\/p>\n<ul>\n<li>Des <b>multiplications de matrices et de vecteurs<\/b>, en particulier dans les r\u00e9seaux de neurones convolutionnels de reconnaissance d\u2019images. Ces calculs peuvent \u00eatre \u00e9ventuellement optimis\u00e9s pour des vecteurs et matrices qui sont parfois remplis d\u2019une grande quantit\u00e9 de z\u00e9ros.<\/li>\n<li>La capacit\u00e9 \u00e0 g\u00e9rer des <b>fonctions non lin\u00e9aires<\/b> comme les sigmo\u00efdes des fonctions de normalisation dans les neurones, et si possible avec une grande pr\u00e9cision, en nombres flottants, notamment lors de l\u2019entra\u00eenement des r\u00e9seaux de neurones.<\/li>\n<li>Le calcul de <b>fonctions d\u00e9riv\u00e9es<\/b> pour la gestion de la descente des gradients lors de l\u2019entra\u00eenement de r\u00e9seaux de neurones. L\u00e0 encore, une grande pr\u00e9cision est pr\u00e9f\u00e9rable pour les phases d\u2019entra\u00eenement.<\/li>\n<li>Ces calculs sont plut\u00f4t r\u00e9alis\u00e9s en <strong>nombres flottants <\/strong>sur serveurs avec une grande pr\u00e9cision pour l\u2019entra\u00eenement et ex\u00e9cut\u00e9s ensuite en nombres entiers dans les syst\u00e8mes embarqu\u00e9s, comme les smartphones, pour \u00e9conomiser de l\u2019\u00e9nergie.<\/li>\n<li>Le tout doit \u00eatre r\u00e9alis\u00e9 en faisant en sorte que l\u2019<b>acc\u00e8s \u00e0 la m\u00e9moire<\/b> qui contient les \u201c<em>hyperparam\u00e8tres<\/em>\u201d des r\u00e9seaux de neurones soit le plus rapide possible. Les architectures rivalisent donc pour rapprocher la m\u00e9moire des unit\u00e9s de calcul dans les chipsets du march\u00e9.<\/li>\n<\/ul>\n<p>Une alternative consiste \u00e0 g\u00e9rer des <b>neurones logiciels<\/b> avec leurs entr\u00e9es et sorties, fonctions de calcul et m\u00e9moire internes, ces neurones \u00e9tant organis\u00e9s en r\u00e9seaux maill\u00e9s interconnect\u00e9s. C\u2019est la forme la plus \u00ab pure \u00bb de chipset neuromorphique. Elle est notamment favoris\u00e9e pour les syst\u00e8mes fonctionnant par apprentissage par renforcement dans des syst\u00e8mes embarqu\u00e9s.<\/p>\n<p><strong>Les plus grands chipsets actuels<\/strong><\/p>\n<p>La diversit\u00e9 des architectures mat\u00e9rielles pour r\u00e9aliser tout ou partie de cela est de plus en plus grande. Le nombre de startups lanc\u00e9es sur ce march\u00e9 se compte en dizaines, en plus de grands acteurs tels que Nvidia et Intel. J\u2019aurais l\u2019occasion de faire le point dessus dans la prochaine \u00e9dition de mon ebook <a href=\"https:\/\/www.oezratty.net\/wordpress\/2018\/usages-intelligence-artificielle-2018\/\">Les usages de l\u2019intelligence artificielle<\/a>, \u00e9dition 2019 d\u2019ici la fin de l\u2019automne.<\/p>\n<p><strong>Intel<\/strong> mise notamment sur sa famille de chipsets Crest issue de l\u2019acquisition de Nervana. Ce sont des processeurs d\u00e9di\u00e9s \u00e0 l\u2019entra\u00eenement et\/ou \u00e0 l\u2019inf\u00e9rence de r\u00e9seaux de neurones selon les r\u00e9f\u00e9rences. Ils s\u2019appuient sur jusqu\u2019\u00e0 24 unit\u00e9s de traitement dites TPC (Tensor Processing Cores) qui chacune comprennent deux gestionnaires de matrices 32&#215;32.<\/p>\n<p>A ce jour, le plus grand processeur du march\u00e9 commercialis\u00e9 est le GPU <strong>Nvidia <\/strong>V100 avec ses 21 milliards de transistors et grav\u00e9 en technologie 12 nm. Lanc\u00e9 en 2017, il comprend 640 tenseurs qui sont des gestionnaires de matrices 4&#215;4. Chaque tenseur est capable de multiplier deux matrices 4&#215;4 et d\u2019additionner le r\u00e9sultat avec une troisi\u00e8me matrice 4&#215;4, pendant un cycle d\u2019horloge du processeur, le tout en nombres flottants. Son successeur qui ne devrait pas trop tarder doublera probablement son nombre de transistors gr\u00e2ce au passage \u00e0 une int\u00e9gration en 7 nm. Le GPU V100 comprend en pratique plusieurs chipsets : le GPU proprement dit qui fait une surface de 815 mm<sup>2 <\/sup>et est reli\u00e9 par des fils m\u00e9talliques \u00e0 des chipsets de m\u00e9moire RAM totalisant 32 Go de m\u00e9moire au standard HBM2 avec un d\u00e9bit de 900 Go\/s. Ces derniers sont m\u00eame empil\u00e9s les uns sur les autres.<\/p>\n<p>Plusieurs raisons techniques limitent la taille des chipsets de calcul. La principale est li\u00e9e \u00e0 l\u2019optique des syst\u00e8mes de lithogravure qui servent \u00e0 \u201cdessiner\u201d les chemins des circuits et transistors sur le silicium. L\u2019optique \u00e9claire un r\u00e9ticule qui comprend un masque agrandi des dessins \u00e0 graver. Il existe une limite de taille pour ces r\u00e9ticules. Je n\u2019en connais pas l\u2019origine pr\u00e9cise. On pourrait dire que c\u2019est comme \u00e7a et que toute la cha\u00eene de production est calibr\u00e9e comme cela. Mais \u00e7a peut aussi \u00eatre li\u00e9 \u00e0 des contraintes optiques de ces syst\u00e8mes qui fonctionnent dans l\u2019ultra-violet, et, plus r\u00e9cemment, dans l\u2019extr\u00eame ultra-violet (lumi\u00e8re UV \u00e0 plus grande fr\u00e9quence). Les illustrations ci-dessous issues du Hollandais <strong>ASML<\/strong>, le leader mondial de la lithogravure de semiconducteurs, permettent de comprendre cela.<\/p>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/image-37.png\"><img loading=\"lazy\" decoding=\"async\" style=\"background-image: none; padding-top: 0px; padding-left: 0px; display: inline; padding-right: 0px; border-width: 0px;\" title=\"image\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/image_thumb-35.png\" alt=\"image\" width=\"216\" height=\"293\" border=\"0\" \/><\/a>\u00a0 <a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/image-38.png\"><img loading=\"lazy\" decoding=\"async\" style=\"background-image: none; padding-top: 0px; padding-left: 0px; display: inline; padding-right: 0px; border-width: 0px;\" title=\"image\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/image_thumb-36.png\" alt=\"image\" width=\"405\" height=\"287\" border=\"0\" \/><\/a><\/p>\n<p>L\u2019autre limite vient du fait que plus un processeur est grand, plus les risques de d\u00e9fauts de gravure augmentent. Le taux de rebus peut devenir prohibitif, sauf pour toucher des march\u00e9s de niche \u00e0 budgets quasiment illimit\u00e9s comme dans le militaire ou le spatial. Il existe pourtant des processus de fabrication de chipsets de plus grande taille, pour des capteurs photos. Mais en g\u00e9n\u00e9ral, les syst\u00e8mes de captation d\u2019images les plus avanc\u00e9s, comme dans les t\u00e9lescopes, utilisent des matrices de capteurs CMOS ou CCD. J\u2019avais approfondi le sujet dans l\u2019ebook <a href=\"https:\/\/www.oezratty.net\/wordpress\/2017\/astronomie-entrepreneuriat-ebook\/\">De l\u2019astronomie \u00e0 l\u2019entrepreneuriat<\/a> en ao\u00fbt 2017. Il se trouve que les processus de fabrication des capteurs photos sont diff\u00e9rents de ceux des processeurs et m\u00e9moire, du fait d\u2019un niveau d\u2019int\u00e9gration plus faible, de l\u2019ordre du micron au lieu du nanom\u00e8tre.<\/p>\n<p><strong>L\u2019annonce de Cerebras<\/strong><\/p>\n<p>L\u2019int\u00e9r\u00eat de l\u2019annonce r\u00e9cente de la startup am\u00e9ricaine <b>Cerebras Systems<\/b> (2016, USA, $112M) est de proposer un moyen de contourner ces limitations de taille et de proposer ce qui devient en pratique le plus grand processeur du monde d\u2019un seul tenant. Cette startup a d\u00e9j\u00e0 atteint une valorisation de $860M, lui donnant un statut envi\u00e9 de pr\u00e9-licorne. Elle a op\u00e9r\u00e9 pendant trois ans en mode silencieux (\u201c<i>stealth mode<\/i>\u201d).<\/p>\n<p>La startup a \u00e9t\u00e9 cr\u00e9\u00e9 par des anciens de <strong>SeaMicro<\/strong>, une startup constructeur de serveurs \u00e0 basse consommation acquise par AMD en 2012 pour $357M, compl\u00e9t\u00e9e r\u00e9cemment par un dirigeant d\u2019Intel, Dhiraj Mallick. Lors de sa cr\u00e9ation, elle annon\u00e7ait concevoir un chipset ASIC pour de l\u2019entra\u00eenement de r\u00e9seaux de neurones qui optimise les calculs de matrices faiblement denses (avec beaucoup de z\u00e9ros).<\/p>\n<p>Un <strong>ASIC <\/strong>est un chipset fabriqu\u00e9 en volume, comme les processeurs Intel et Nvidia courants ou les processeurs polyvalents qui \u00e9quipent vos smartphones. Ils s\u2019opposent aux <strong>FPGA <\/strong>qui peuvent \u00eatre reconfigur\u00e9s dynamiquement par programmation mais sont moins optimums c\u00f4t\u00e9 performance en termes de vitesse et de consommation d\u2019\u00e9nergie. En gros : ASIC = bonne performance mais co\u00fbt fixe \u00e9lev\u00e9 et variable faible et FPGA = moins bonne performance, co\u00fbt fixe faible et co\u00fbt variable plus \u00e9lev\u00e9.<\/p>\n<p>En ao\u00fbt 2019, Cerebras r\u00e9v\u00e9lait ce qu\u2019elle concevait en douce : le plus grand chipset au monde, le <strong>Cerebras Wafer Scale Engine. <\/strong>C\u2019est en fait une matrice de 7*12 donc 84 chipsets grav\u00e9s sur un wafer et reli\u00e9s entre eux, totalisant 1,2 trillions de transistors, 18 Go de SRAM et 400 000 c\u0153urs SLAC (Sparse Linear Algebra Cores) sur 8,5 pouces x 8,5 pouces ou 215 mm x 215 mm. Cerebras n\u2019est pas tr\u00e8s locace sur ce que font ces SLAC. Ils ont l\u2019air de comprendre une petite unit\u00e9 programmable de calcul matriciel, mais ce n\u2019est pas clair. Ce qu\u2019ils en disent : \u201c<em>The WSE contains 400,000 Sparse Linear Algebra (SLA) cores. Each core is flexible, programmable, and optimized for the computations that underpin most neural networks. Programmability ensures the cores can run all algorithms in the constantly changing machine learning field<\/em>\u201d. Et \u201c<em>To achieve high performance, the SLA cores have a specialized tensor processing engine where full tensors are first-class operands in architecture. The tensor operations are programmable, so the same engine can be programmed to perform a variety of tensor operations such as convolution or matrix multiply. The hardware internally optimizes the tensor processing to achieve datapath utilization three of four times greater than graphics processing units<\/em>\u201d.<\/p>\n<p>Le carr\u00e9 est le plus grand qu\u2019il soit possible de g\u00e9n\u00e9rer dans un wafer de 30 cm de diam\u00e8tre. Ces 18 Go de SRAM int\u00e9gr\u00e9e dans le composant sont \u00e0 comparer aux 32 Go de m\u00e9moire HBM2 qui sont dans des chipsets externes dans le cas du processeur V100 de Nvidia. Sauf qu\u2019ici, cette m\u00e9moire est tr\u00e8s proche des unit\u00e9s de traitement et r\u00e9partie dans les 400 000 c\u0153urs. La latence d\u2019acc\u00e8s sera donc bien meilleure, mais le nombre d\u2019hyperparam\u00e8tres et la complexit\u00e9 des r\u00e9seaux de neurones g\u00e9r\u00e9s ne devrait donc pas augmenter significativement pour autant. Il faudra voir comment Cerebras ou d&#8217;autres optimiseront la r\u00e9partition des traitements sur plusieurs processeurs de ce type et le type d&#8217;interconnexions entre chipsets qui seront possibles (NVLink ou autre).<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/specials-images.forbesimg.com\/imageserve\/5d5c497e2dedcb0008e0a8e8\/960x0.jpg?fit=scale\" alt=\"The usage area of a wafer to make a single chip\" width=\"360\" height=\"335\" \/><\/p>\n<p>On peut comparer sa taille <em>ci-dessous <\/em>avec le packaging d\u2019un chipset Nvidia V100. C\u2019est imposant ! La prouesse technique est li\u00e9e \u00e0 un partenariat avec le fondeur TSMC de Ta\u00efwan (qui est aussi le fondeur de Nvidia&#8230;). Ce dernier a d\u00fb mettre en place une batterie d\u2019outillages industriels in\u00e9dits pour fabriquer une telle b\u00eate. Ils ont notamment con\u00e7u conjointement une connectique de fils tr\u00e8s courts reliant les chipsets et permettant une grande vitesse de transfert de l\u2019information. Ils ajoutent pour cela une couche m\u00e9tal conductrice au-dessus des \u201cscribe lines\u201d qui relient traditionnellement les chipsets avant d\u00e9coupage.<\/p>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/CerebrasClose-up.jpg\"><img loading=\"lazy\" decoding=\"async\" style=\"background-image: none; padding-top: 0px; padding-left: 0px; display: inline; padding-right: 0px; border: 0px;\" title=\"CerebrasClose up\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/CerebrasClose-up_thumb.jpg\" alt=\"CerebrasClose up\" width=\"364\" height=\"278\" border=\"0\" \/><\/a><\/p>\n<p>Ils doivent aussi g\u00e9rer le probl\u00e8me de la dilatation thermique d\u2019une grande surface de silicium par rapport \u00e0 son substrat. Ils utilisent pour cela des connecteurs \u00e0 g\u00e9om\u00e9trie variable mais n\u2019expliquent pas trop comment.<\/p>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/Comparaison-Cerebras-Nvidia-V100.png\"><img loading=\"lazy\" decoding=\"async\" style=\"background-image: none; padding-top: 0px; padding-left: 0px; display: inline; padding-right: 0px; border: 0px;\" title=\"Comparaison Cerebras Nvidia V100\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/Comparaison-Cerebras-Nvidia-V100_thumb.png\" alt=\"Comparaison Cerebras Nvidia V100\" width=\"491\" height=\"368\" border=\"0\" \/><\/a><\/p>\n<p>Le second point est la gestion des d\u00e9fauts de gravure. Un chipset de la taille d\u2019un wafer entier aura certainement des d\u00e9fauts. L\u2019architecture de l\u2019ensemble est con\u00e7ue de telle mani\u00e8re que les quelques c\u0153urs d\u00e9fectueux sur les 400 000 en tout sont d\u00e9sactiv\u00e9s et une connectique de remplacement permet de relier les c\u0153urs qui sont autour en contournant \u201cle malade\u201d.<\/p>\n<p>Le troisi\u00e8me point cl\u00e9 d\u2019un chipset g\u00e9ant est sa mont\u00e9e en temp\u00e9rature. Un chipset de type Nvidia V100 consomme plus de 300W, une grande partie \u00e9tant transform\u00e9e en chaleur \u00e0 \u00e9vacuer. Ici, chaque c\u0153ur consomme environ 175W, qu\u2019il faut aussi \u00e9vacuer, ce qui repr\u00e9sente 15 kW. C\u2019est au passage la consommation \u00e9lectrique d\u2019un ordinateur quantique actuel comme les 2000Q de D-Wave, une bonne partie servant \u00e0 faire fonctionner le syst\u00e8me de cryog\u00e9nie pour amener le processeur \u00e0 une temp\u00e9rature tr\u00e8s basse de 15 mK.<\/p>\n<p>Pour le Cerebras, le refroidissement utilise un syst\u00e8me \u00e0 eau un peu particulier avec plusieurs radiateurs ind\u00e9pendants avec leur propre alimentation en eau couvrant diff\u00e9rentes zones du processeur.<\/p>\n<p>Un datacenter utilisant ce genre de composant sera probablement bien plus compact qu\u2019avec des chipsets traditionnels d\u2019Intel, Nvidia ou consorts. Ainsi, m\u00eame s\u2019il n\u2019y a pas forc\u00e9ment \u00e9quivalence, il faudrait environ 80 V100 pour cr\u00e9er une machine \u00e9quivalente \u00e0 un seul wafer Cerebras.\u00a0Un serveur DGX-2 \u201c10U\u201d comprend 16 V100. On peut en mettre 4 par rack de datacenter. L\u2019\u00e9quivalent Nvidia V100 d\u2019un Cerebras occupera ainsi 1,25 racks (qui font 42U de hauteur). Il est probable qu\u2019un serveur utilisant un Cerebras fera au moins 5U. Mais il faudra \u00e9galement comparer la taille des syst\u00e8mes de refroidissement qui sont associ\u00e9s.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/specials-images.forbesimg.com\/imageserve\/5d5c4b862dedcb0008e0a90a\/960x0.jpg?fit=scale\" alt=\"Unique substrate and cooling design of the Cerebras WSE\" width=\"421\" height=\"315\" \/><\/p>\n<p>Il subsiste au moins un point \u00e0 \u00e9claircir concernant ce processeur g\u00e9ant : sa connectique. Comment est-il reli\u00e9 au monde ext\u00e9rieur ? Par les milliers de pins qui inondent sa surface ? Cerebras n&#8217;a rien indiqu\u00e9 de ce c\u00f4t\u00e9-l\u00e0. Il est probable qu&#8217;un serveur l&#8217;exploitant devra aussi comprendre un processeur classique, genre Intel Xeon Phi, pour pouvoir piloter l&#8217;ensemble.<\/p>\n<p>Maintenant que le wafer a \u00e9t\u00e9 prototyp\u00e9, il reste \u00e0 le fabriquer en s\u00e9rie et \u00e0 un co\u00fbt raisonnable, qui n\u2019a pas encore \u00e9t\u00e9 communiqu\u00e9. Mais pas que. Autour, il faut concevoir un packaging complet et un ordinateur avec, puis le syst\u00e8me de refroidissement \u00e0 eau et enfin, cr\u00e9er les briques logicielles qui feront le lien entre le processeur et les principaux SDK de deep learning du march\u00e9, TensorFlow et premier. Le SDK optimise le cheminement des donn\u00e9es entre les unit\u00e9s de traitement. C\u2019est un enjeu classique d\u2019\u00e9cosyst\u00e8me d\u2019outils de d\u00e9veloppement. La soif de puissance des applications du deep learning n\u2019a pas de limites ! Reste aussi \u00e0 savoir si ce processeur permettra de cr\u00e9er des applications d&#8217;IA difficiles \u00e0 faire autrement. Il est \u00e9galement probable que ce genre d&#8217;architecture aura d&#8217;autres usages que ceux de l&#8217;IA. Dans les supercalculateurs, on fait aussi des calculs par \u00e9l\u00e9ments finis qui n\u00e9cessitent beaucoup de puissance de calcul parall\u00e8le et d&#8217;acc\u00e8s rapides \u00e0 de gros volumes de donn\u00e9es. Ils pourraient s&#8217;inspirer de ce genre d&#8217;architecture.<\/p>\n<p>Pour plus de d\u00e9tails, voir <a href=\"https:\/\/www.forbes.com\/sites\/tiriasresearch\/2019\/08\/20\/ai-start-up-cerebras-develops-the-most-powerful-processor-in-the-world\/\">AI Startup Cerebras Develops The Most Powerful Processor In The World<\/a> par Kim McGregor dans Forbes ainsi que\u00a0 le livre blanc de Cerebras : <a href=\"https:\/\/www.cerebras.net\/wp-content\/uploads\/2019\/08\/Cerebras-Wafer-Scale-Engine-Whitepaper.pdf\">Cerebras Wafer Scale Engine: An Introduction<\/a>, 9 pages.<\/p>\n<p><strong>L\u2019architecture ultime ?<\/strong><\/p>\n<p>L\u2019annonce de Cerebras est significative et pourrait changer la donne du traitement de l\u2019IA dans les data-center. Elle est uniquement tourn\u00e9e vers les ressources du cloud. D\u2019autres startups ou acteurs \u00e9tablis investissent ce domaine avec des approches diff\u00e9rentes, en plus d\u2019Intel et Nvidia que nous avons d\u00e9j\u00e0 cit\u00e9s :<\/p>\n<p>C\u00f4t\u00e9 serveurs, nous avons par exemple :<\/p>\n<ul>\n<li><strong>Graphcore<\/strong> (2016, UK, $310M) con\u00e7oit son Intelligence processuing Units (IPU), un chipset adapt\u00e9 \u00e0 l\u2019ex\u00e9cution d\u2019applications de deep learning c\u00f4t\u00e9 entra\u00eenement et inf\u00e9rence qui comprendrait 1000 c\u0153urs. Ils ciblent notamment le march\u00e9 autonomobile.<\/li>\n<li><strong>Huawei <\/strong>qui lan\u00e7ait<b> <\/b>en ao\u00fbt 2019 son processeur pour entra\u00eenement d\u2019IA sur serveur Ascend 910 dot\u00e9 de 256 TFLOPS et 512 TOPS sur des entiers 8 bits avec une consommation maximale de 310W.<\/li>\n<li><b>Groq<\/b> (2017, USA, $62,3M) cr\u00e9\u00e9e par des anciens de Google qui avaient particip\u00e9 \u00e0 la conception de leurs TPU. Leur chipset pour serveur est cens\u00e9 g\u00e9n\u00e9rer 400 TFLOPS avec 8 TFLOPS par Watt.<\/li>\n<li><b>Gyrfalcon Technology Inc<\/b> ou GTI (2017, USA) est sorti du bois en septembre 2017 avec deux chipsets d\u2019inf\u00e9rences ASIC \u00e0 basse consommation, l\u2019un pour les serveurs et l\u2019autre pour les objets connect\u00e9s. La version serveur (Lightspeeur 280x AI Accelerator) est int\u00e9gr\u00e9e dans des cartes \u00e0 16 composants. Le Lightspeeur 2802M, un ASIC int\u00e8gre de la m\u00e9moire MRAM non volatile (Magnetic RAM) produite en technologie 22 nm chez TSMC.<\/li>\n<li><b>Habana Labs<\/b> (2016, Isra\u00ebl, $120M) commercialise une carte PCIe pour serveurs comprenant leur processeur Goya HL-1000 qui peut traiter 15 000 images\/second avec seulement 100W contre 3211 pour un Nvidia V100 et 320W. Le tout gr\u00e2ce \u00e0 l\u2019int\u00e9gration d\u2019un multiplicateur de matrices, le GEMM (General Matrix et Matrix Multiplication) qui s\u2019appuie sur huit c\u0153urs tensoriels exploitant leur m\u00e9moire locale et qui supportent le calcul sur nombres flottants et entiers entre 8 et 32 bits. Le syst\u00e8me supporte TensorFlow et le format d\u2019\u00e9change ONNX.<\/li>\n<li><b>Wave Computing<\/b> (2010, USA, $203M) d\u00e9veloppe ses Dataflow Processing Units avec 16 000 c\u0153urs produits en ASIC chez TSMC en 16 nm, d\u00e9di\u00e9s \u00e0 l\u2019entra\u00eenement de r\u00e9seaux de neurones. Ces DPU sont assembl\u00e9s dans des serveurs par paquets de 16, donnant 128 000 c\u0153urs. Ils n\u2019utilisent par contre que de la DRAM, bien moins performante que la m\u00e9moire HBM2 des GPU Nvidia. La startup avait fait l\u2019acquisition de l\u2019activit\u00e9 MIPS de l\u2019Anglais Imagination Technologies.<\/li>\n<\/ul>\n<p>Et dans l\u2019embarqu\u00e9, il y a encore plus de monde avec les chipsets de smartphones de Qualcomm, Samsung, Apple et HiSilicon (Huawei) qui int\u00e8grent des NPU (Neural Processing Units) comprenant quelques dizaines au plus de petits multiplicateurs de matrices. Et d\u2019autres acteurs tels que les Fran\u00e7ais Kalray et AnotherBrain, le Chinois Horizon Robotics, puis Vathys, Hailo, Synthiant, Novumind, DeePhi Tech, GrAI Matter Labs, Eta Compute, Cornami et Cognimem. Leur ambition n\u2019est g\u00e9n\u00e9ralement pas de cr\u00e9er \u201cle plus grand processeur d\u2019IA au monde\u201d, mais plut\u00f4t des chipsets \u00e0 tr\u00e8s basse consommation.<\/p>\n<p>L\u2019indicateur important dans ce march\u00e9 est le nombre de TOPS (tera-operations per seconds, en nombres entiers) par Watt consomm\u00e9. Il est situ\u00e9 entre 1 et 3 selon les cas. D\u2019autres font en sorte qu\u2019il soit possible d\u2019utiliser ces chipsets pour r\u00e9aliser de l\u2019apprentissage par renforcement avec peu de donn\u00e9es. Et nous avons aussi les tentatives de cr\u00e9ation de memristors et les chipsets utilisant ce que l\u2019on appelle des neurones \u00e0 impulsion. Le neurone re\u00e7oit un train d\u2019impulsions dans l\u2019ensemble de ses synapses et g\u00e9n\u00e8re en sortie un train d\u2019impulsions r\u00e9sultat du calcul. Ces spiking neurones sont difficiles \u00e0 programmer. C\u2019est la voie choisie par IBM avec ses chipsets TrueNorth ainsi que par Intel avec ses chipsets Loihi.<\/p>\n<p>Bref, ce march\u00e9 des chipsets pour l\u2019IA a encore du mou sous la p\u00e9dale et il est passionnant de l\u2019observer de pr\u00e8s !<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Apr\u00e8s avoir trait\u00e9 avec grande l\u00e9g\u00e8ret\u00e9 le sujet du management quantique, je reviens aux choses s\u00e9rieuses avec une actualit\u00e9 de l\u2019IA qui m\u00e9rite le d\u00e9tour, l\u2019annonce de Cerebras de cr\u00e9ation du plus grand processeur d\u2019IA (ou tout court) au monde. Il est d\u00e9di\u00e9 \u00e0 l\u2019entra\u00eenement et \u00e0 l\u2019inf\u00e9rence de solutions de machine learning et de [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[2659,10],"tags":[3252,260,3255,3257,2308,3254,3253,3256],"class_list":["post-17789","post","type-post","status-publish","format-standard","hentry","category-intelligence-artificielle","category-startups","tag-cerebras","tag-intel","tag-memristors","tag-tenseur","tag-tsmc","tag-v100","tag-vidia","tag-wafer"],"views":16568,"_links":{"self":[{"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/posts\/17789","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/comments?post=17789"}],"version-history":[{"count":0,"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/posts\/17789\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/media?parent=17789"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/categories?post=17789"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/tags?post=17789"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}