{"id":17588,"date":"2019-07-14T17:48:07","date_gmt":"2019-07-14T16:48:07","guid":{"rendered":"https:\/\/www.oezratty.net\/wordpress\/?p=17588"},"modified":"2019-07-15T08:45:31","modified_gmt":"2019-07-15T07:45:31","slug":"gafa-entreprises-donnees-ia","status":"publish","type":"post","link":"https:\/\/www.oezratty.net\/wordpress\/2019\/gafa-entreprises-donnees-ia\/","title":{"rendered":"Les GAFA, les entreprises et les donn\u00e9es de l&#8217;IA"},"content":{"rendered":"<p>Il est de bon ton de d\u00e9clarer de mani\u00e8re p\u00e9remptoire que les GAFA et autres BATX dominent le monde de l\u2019IA et ont acc\u00e8s \u00e0 un tombereau de donn\u00e9es qui leur permettent de l\u2019entra\u00eener et que cela leur assure, ipso-facto, un leadership incontestable dans tous les domaines et tous les m\u00e9tiers, au point de menacer tous les grands acteurs des march\u00e9s verticaux.<\/p>\n<p>Au risque d\u2019enfoncer des portes ouvertes, je voudrais contrer cela et expliquer pourquoi cette peur est en grande partie infond\u00e9e. Elle est notamment li\u00e9e \u00e0 une m\u00e9connaissance des outils et mod\u00e8les de l\u2019IA et des donn\u00e9es qui les alimentent. Elle rel\u00e8ve aussi d\u2019une vision simpliste des applications et de la port\u00e9e de l\u2019IA d\u2019aujourd\u2019hui et de son incarnation la plus courante, le machine learning.<\/p>\n<p>Ceci n\u2019enl\u00e8ve rien \u00e0 la puissance des GAFA qui est indiscutable avec leurs plateformes incontournables. Il ne faut cependant pas l\u2019exag\u00e9rer.<\/p>\n<p><strong>Les donn\u00e9es des GAFA et autres leaders<\/strong><\/p>\n<p>Avec leurs centaines de millions ou milliards d\u2019utilisateurs, les leaders am\u00e9ricains de l\u2019Internet collectent de gigantesques volumes de donn\u00e9es li\u00e9es \u00e0 l\u2019activit\u00e9 de leurs utilisateurs, que leurs services soient gratuits comme pour Google ou Facebook ou payants comme chez Amazon. Ce dont des donn\u00e9es issues des usages grand public pour l\u2019essentiel. Les donn\u00e9es issues des services gratuits permettent surtout de faire de la publicit\u00e9 ou de la vente cibl\u00e9e. M\u00eame si l\u2019exp\u00e9rience montre que, malgr\u00e9 toutes les beaut\u00e9s du machine learning, ces publicit\u00e9s cibl\u00e9es sont tr\u00e8s \u201cbourrines\u201d. Vous avez cherch\u00e9 et achet\u00e9 un produit en ligne, et hop, vous serez bombard\u00e9 de publicit\u00e9 \u201ccibl\u00e9e\u201d sur ce que vous avez d\u00e9j\u00e0 achet\u00e9. Vous pr\u00e9parez un voyage dans une ville et la publicit\u00e9 cibl\u00e9e continuera d\u2019agir pendant des mois voir des ann\u00e9es alors que vous changez de ville chaque ann\u00e9e !<\/p>\n<p>La nature des informations collect\u00e9e n\u2019est \u00e9videmment par la m\u00eame d\u2019un acteur \u00e0 l\u2019autre. Ils se compl\u00e8tent pour collecter nos faits et gestes avec dans l\u2019ordre :<\/p>\n<ul>\n<li><strong>Google <\/strong>qui est probablement celui qui en sait le plus sur vous avec vos recherches (de textes, d\u2019images et de vid\u00e9os), les sites que vous consultez (via le navigateur Chrome), les vid\u00e9os que vous consultez (sur YouTube, voir sur votre TV si elle tourne sous Android), vos d\u00e9placements (via Android ou Google Maps\/Waze), vos emails (via Gmail), votre agenda voire vos documents de travail (si vous utilisez Google Docs). Il peut aussi conna\u00eetre votre voix via Google Assistant. Si vous avez l\u2019imprudence d\u2019utiliser ses produits de maison connect\u00e9e, Google en saura un peu plus sur votre confort thermique et sur votre s\u00e9curit\u00e9.<!--EndFragment--><\/li>\n<li><strong>Amazon<\/strong> qui sait pas mal de choses de vos achats et de vos envie et commence \u00e0 conna\u00eetre vos go\u00fbts en mati\u00e8re de contenus via vos achats de livres, votre usage de liseuse si vous en avez une ou via Prime Video. Si vous utilisez Amazon Alexa, Amazon vous \u201c\u00e9coute\u201d et compl\u00e8te l\u2019ensemble.<\/li>\n<li><strong>Apple <\/strong>qui conna\u00eet vos d\u00e9placements, les applications que vous utilisez, certains contenus que vous consommez, seulement si vous \u00eates utilisateur d\u2019iPhone. Comme le mod\u00e8le \u00e9conomique d\u2019Apple est surtout du vendre du mat\u00e9riel, ils affichent un profil moins invasif dans l\u2019exploitation de vos donn\u00e9es, m\u00eame si l\u2019on d\u00e9couvre parfois qu\u2019ils prennent des libert\u00e9s.<\/li>\n<li><strong>Facebook <\/strong>conna\u00eet aussi vos go\u00fbts et sujets de discussion, vos opinions politiques et sait qui sont vos relations et amis. Il peut aussi savoir o\u00f9 vous \u00eates, notamment en vacances, si vous y diffusez vos photos (dans Facebook comme Instagram).<\/li>\n<\/ul>\n<p>D\u2019autres leaders du num\u00e9rique qui ne font pas partie des GAFA au sens litt\u00e9ral du terme en savent aussi pas mal sur vous, mais toujours en pi\u00e8ces d\u00e9tach\u00e9es :<\/p>\n<ul>\n<li><strong>Airbnb <\/strong>et <strong>booking <\/strong>connaissent vos voyages, vos envies de voyages, vos habitudes sociales et votre niveau de vie.<\/li>\n<li><strong>Uber <\/strong>conna\u00eet une partie de vos d\u00e9placements dans la journ\u00e9e et en soir\u00e9e. Mais pas tous. Pas vos trajets en trains ou en avions, sauf si vous y faites appel partout dans le monde de\/vers les gares et a\u00e9roports.<\/li>\n<li><strong>Netflix <\/strong>conna\u00eet vos gouts en consommation de vid\u00e9o et quand vous les consommez. Et donc, quand vous n\u2019en consommez pas\u2026 !<\/li>\n<li><strong>LinkedIn <\/strong>\u2013 donc Microsoft \u2013 conna\u00eet une part de votre vie et de votre r\u00e9seau professionnels.<!--EndFragment--><\/li>\n<li><strong>23andme <\/strong>conna\u00eet votre g\u00e9notype et le commercialise discr\u00e8tement, anonymis\u00e9, \u00e0 des laboratoires de pharmacie. Peu d\u2019Internautes ont fait appel \u00e0 ce service en France o\u00f9 il est th\u00e9oriquement interdit.<\/li>\n<\/ul>\n<p>Ces gros volumes de donn\u00e9es peuvent certainement \u00eatre crois\u00e9s mais, en temps normal, ils sont naturellement diss\u00e9min\u00e9s sur un grand nombre d\u2019acteurs et de bases de donn\u00e9es. Cela ne permet pas de faire n\u2019importe quoi. Le deep learning n\u2019est pas une potion magique qui permet de jouer madame Irma.<\/p>\n<p>A chaque besoin sa solution, son d\u00e9veloppement logiciel, ses mod\u00e8les, son entra\u00eenement. Les acteurs ci-dessus, surtout les GAFA, ont \u00e0 leur port\u00e9e des ressources de data centers immenses permettant d\u2019entra\u00eener de gros mod\u00e8les de machine learning. Mais ces ressources sont aussi mises \u00e0 disposition et commercialis\u00e9es aupr\u00e8s de startups et entreprises. Les GAFA n\u2019en ont donc pas l\u2019exclusive.<\/p>\n<p>La meilleure d\u00e9monstration de la non-invincibilit\u00e9 des GAFA est l\u2019\u00e9mergence continue de nouveaux acteurs, souvent am\u00e9ricains, qui deviennent les leaders de leur secteur, au nez et \u00e0 la barbe des GAFA. On a l\u2019habitude de croire que les GAFAMI (en ajoutant Microsoft et IBM) r\u00e9ussissent tout ce qu\u2019ils entreprennent, notamment en termes de diversification. Ce n\u2019est heureusement pas le cas. S\u2019ils ne sont pas les premiers \u00e0 lancer de nouveaux types de business, ils se font souvent d\u00e9passer par des startups sp\u00e9cialis\u00e9es comme celles que nous avons cit\u00e9es plus haut (Airbnb, Booking, Uber, \u2026). L\u2019\u00e9cosyst\u00e8me num\u00e9rique est ainsi bien moins monolithique et concentr\u00e9 qu\u2019il n\u2019y para\u00eet. Le risque pour les entreprises \u00e9tablies est donc bien plus chez ces acteurs \u00e9mergents qui s\u2019attaqueraient \u00e0 leur c\u0153ur de m\u00e9tier qu\u2019au niveau des GAFA.<\/p>\n<p><strong>Les donn\u00e9es m\u00e9tiers<\/strong><\/p>\n<p>Malgr\u00e9 l\u2019immensit\u00e9 des donn\u00e9es accumul\u00e9es par les grands acteurs de l\u2019Internet sur nos faits, gestes et envies, ils ne savent pas tout sur vous et n\u2019ont pas\u00a0 acc\u00e8s aux donn\u00e9es m\u00e9tiers de nombre de march\u00e9s verticaux. En effet, les donn\u00e9es m\u00e9tiers des entreprises sont chez elles et uniquement chez elles. Les GAFA n\u2019ont pas mis la main dessus. S\u2019ils le faisaient, cela serait avec l\u2019assentiment des grandes entreprises concern\u00e9es. A elles de ne pas tomber dans le panneau !<\/p>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/Donnees-grand-public.jpg\"><img loading=\"lazy\" decoding=\"async\" style=\"background-image: none; padding-top: 0px; padding-left: 0px; display: inline; padding-right: 0px; border-width: 0px;\" title=\"Donnees grand public\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/Donnees-grand-public_thumb.jpg\" alt=\"Donnees grand public\" width=\"516\" height=\"267\" border=\"0\" \/><\/a><\/p>\n<p>Les exemples sont nombreux. Les donn\u00e9es de consommation d\u2019\u00e9nergie ou d\u2019eau r\u00e9cup\u00e9r\u00e9es par les compteurs dits intelligents (qui en pratique, ne le sont pas du tout), les donn\u00e9es d\u2019usages de mobiles et du fixe que les op\u00e9rateurs t\u00e9l\u00e9coms poss\u00e8dent, vos flux et stocks financiers que g\u00e8rent vos banques aussi bien dans le grand public que pour les professionnels, vos biens assur\u00e9s et vos incidents\/accidents, etc. Idem pour les retailers qui savent ce que vous achetez chez eux, mais souvent de mani\u00e8re disparate, sauf peut-\u00eatre pour les supermarch\u00e9s et hypermarch\u00e9s si vous utilisez leur carte de fid\u00e9lit\u00e9 et faites vos courses de mani\u00e8re r\u00e9current au m\u00eame endroit. Des donn\u00e9es qu\u2019ils exploitent d\u2019ailleurs tr\u00e8s mal dans des approches marketing personnalis\u00e9es qui peinent \u00e0 \u00e9merger.<\/p>\n<p>On peut d\u00e9duire \u00e9norm\u00e9ment d\u2019informations de la mani\u00e8re dont vous consommez de l\u2019eau ou de l\u2019\u00e9lectricit\u00e9. La consommation d\u2019eau permet de savoir combien vous \u00eates dans le foyer, l\u2019\u00e2ge des occupants et si les gens se lavent. On peut m\u00eame en d\u00e9duire certaines pathologies en lien avec la fr\u00e9quence de visite des WC. Etc ! Cela peut provenir de mod\u00e8les de machine learning bien entra\u00een\u00e9s avec des donn\u00e9es bien labellis\u00e9es.<\/p>\n<p>Enfin, n\u2019oublions pas les donn\u00e9es que les Etats ont sur nous. Cela d\u00e9pend \u00e9videmment des pays mais ils ont au minimum des donn\u00e9es de cadastre,\u00a0 d\u2019\u00e9tat civil, de justice, sur nos v\u00e9hicules, nos contraventions, nos d\u00e9clarations fiscales, immobili\u00e8res et de successions. Cela fait pas mal de donn\u00e9es tr\u00e8s priv\u00e9es qui ont de la valeur ! La loi Informatique et Libert\u00e9 de 1978 limite d\u2019ailleurs toujours les capacit\u00e9s de croisement de ces bases de donn\u00e9es. La r\u00e8glementation bancaire prot\u00e8ge le secret des donn\u00e9es que les banques g\u00e8rent.<\/p>\n<p>Enfin, il y a toutes les donn\u00e9es g\u00e9n\u00e9r\u00e9es par les entreprises qui n\u2019ont pas de lien direct avec le grand public comme les industries manufacturi\u00e8res. Elles peuvent \u00e9videmment en tirer parti pour am\u00e9liorer leurs processus de production, de commercialisation et de maintenance.<\/p>\n<p>Et toutes ces donn\u00e9es, les GAFA ne les ont pas ! Cela fait un paquet de donn\u00e9es ! Et c\u2019est encore moins reluisant pour les BATX, les leaders de l\u2019Internet chinois qui ont beaucoup de donn\u00e9es sur les comportements d\u2019Internautes chinois mais, en g\u00e9n\u00e9ral, rien de ceux des pays occidentaux. Leurs donn\u00e9es ne servent pas \u00e0 grand chose dans nos march\u00e9s aussi bien que les n\u00f4tres ou celles des GAFA ne servent \u00e0 rien pour attaquer le march\u00e9 chinois.<\/p>\n<p>On commence \u00e0 s\u2019inqui\u00e9ter des vell\u00e9it\u00e9s des GAFA de collecter vos donn\u00e9es de sant\u00e9. Vous pourriez commencer \u00e0 le faire dans l\u2019application Apple Health sur votre iPhone, en liaison avec votre montre connect\u00e9e Watch 4 et sa fonction d\u2019\u00e9lectrocardiogramme, mais cela ne va pas tr\u00e8s loin. Google aimerait aussi collecter ces donn\u00e9es et par la m\u00eame occasion votre g\u00e9notype, histoire de les commercialiser de mani\u00e8re directe ou indirecte aux laboratoires de pharmacie pour leurs \u00e9tudes \u00e9pid\u00e9miologiques.<\/p>\n<p>En pratique, ces donn\u00e9es de sant\u00e9 sont ailleurs. En France, les donn\u00e9es de la CPAM comprennent les parcours m\u00e9dicaux et les examens et m\u00e9dicaments prescrits. Les donn\u00e9es m\u00e9dicales sont encore r\u00e9parties dans des bases hospitali\u00e8res disparates. Et si le DMP (dossier m\u00e9dical personnalis\u00e9) commence \u00e0 poindre du nez, il n\u2019est pas g\u00e9r\u00e9 par les GAFAs. Il en va de m\u00eame avec les donn\u00e9es du NHS, le syst\u00e8me de sant\u00e9 public d\u2019outre-Manche. Aux USA, les bases m\u00e9dicales sont plus nombreuses et connect\u00e9es dans les h\u00f4pitaux et les cliniques priv\u00e9s, mais il n\u2019existe pas de base centralis\u00e9e du type de celle de la CPAM, sauf pour le cas des programmes Medicaid et Medicair qui concernent les personnes \u00e2g\u00e9es, celles qui sont d\u00e9munies, les handicap\u00e9s et les insuffisants r\u00e9naux sous dialyse.<\/p>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/Verily.jpg\"><img loading=\"lazy\" decoding=\"async\" style=\"background-image: none; padding-top: 0px; padding-left: 0px; display: inline; padding-right: 0px; border-width: 0px;\" title=\"Verily\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/Verily_thumb.jpg\" alt=\"Verily\" width=\"448\" height=\"243\" border=\"0\" \/><\/a><\/p>\n<p>Un mythe voudrait que Apple et Google vont immanquablement devenir des \u201cpharma\u201d. Les donn\u00e9es de sant\u00e9 qu\u2019ils cherchent \u00e0 accumuler leur donneraient le s\u00e9same \u00e0 ce march\u00e9 tr\u00e8s diff\u00e9rent du leur. Ces affirmations t\u00e9moignent d\u2019une grande m\u00e9connaissance du monde des biotechs. Leurs cycles de recherche sont tr\u00e8s longs par rapport \u00e0 ceux du num\u00e9rique et de l\u2019Internet. Certes, les biotechs font de plus en plus appel \u00e0 des outils num\u00e9riques, en particulier pour le drug retargeting et la simulation mol\u00e9culaire (en IA ou plus tard, avec des algorithmes quantiques). Mais c\u2019est un m\u00e9tier bien \u00e0 part. Les \u00e9tudes de corr\u00e9lation entre g\u00e9notype et ph\u00e9notype souvent mises en avant. Elles ne permettent que de d\u00e9couvrir des facteurs de risques, pas de cr\u00e9er des th\u00e9rapies ! Et Verily, la filiale sant\u00e9 de Google ? Voir <a href=\"https:\/\/www.frenchweb.fr\/decode-mais-que-cache-verily-la-filiale-dediee-aux-sciences-de-la-vie-de-google\/345091\">Que cache Verily, la filiale de Google d\u00e9di\u00e9e aux sciences de la vie ?<\/a> de Patrick Randall de Frenchweb qui d\u00e9crit bien la situation et conclue que la soci\u00e9t\u00e9 se focalise surtout sur la gestion des donn\u00e9es et sur les capteurs. Moins sur les th\u00e9rapies elles-m\u00eames.<\/p>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/Google-in-robotics.jpg\"><img loading=\"lazy\" decoding=\"async\" style=\"background-image: none; padding-top: 0px; padding-left: 0px; display: inline; padding-right: 0px; border-width: 0px;\" title=\"Google in robotics\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/Google-in-robotics_thumb.jpg\" alt=\"Google in robotics\" width=\"450\" height=\"205\" border=\"0\" \/><\/a><\/p>\n<p>Pour prendre un peu de recul, rappelez-vous ce que les m\u00e9dias et analystes disaient des efforts de Google dans la robotique en 2013 et 2014. A l\u2019\u00e9poque, leur acquisition de 8 startups dont Boston Dynamics avait fait grand bruit. Ils allaient devenir les rois de la robotique, c\u2019\u00e9tait fichu pour tous les autres acteurs ! Depuis, en quelques ann\u00e9es, Google a quasiment abandonn\u00e9 le secteur en c\u00e9dant Boston Dynamics \u00e0 Softbank Robotics et en mettant la cl\u00e9 sous la porte d\u2019une autre acquisition de l\u2019\u00e9poque, Schaft.<\/p>\n<p><strong>Bases de donn\u00e9es et intelligence artificielle<\/strong><\/p>\n<p>La vision que l\u2019on peut avoir de l\u2019intelligence artificielle est souvent erron\u00e9e. On imagine un gros syst\u00e8me avec plein de donn\u00e9es qui est capable de les utiliser de mani\u00e8re omnipotente et omnisciente d\u2019un coup de click. Bref, l\u2019entrep\u00f4t de donn\u00e9es universel qui sert \u00e0 tout pr\u00e9dire. L\u2019oracle ultime.<\/p>\n<p>La mise en \u0153uvre de l\u2019IA dans le monde r\u00e9el est bien plus ingrate et laborieuse. On entra\u00eene des mod\u00e8les de machine learning au cas par cas. Ces mod\u00e8les permettent de labelliser des situations (segment client), des images (les objets qu\u2019elles contiennent), des \u00e9motions (via de la biom\u00e9trie et du texte) et de faire diverses pr\u00e9dictions. L\u2019entra\u00eenement des mod\u00e8les de machine learning exploite g\u00e9n\u00e9ralement des donn\u00e9es anonymis\u00e9es. Chaque fonction demande un mod\u00e8le. Leur entra\u00eenement prend du temps et est r\u00e9alis\u00e9 pour chaque besoin sp\u00e9cifique. Le nettoyage et la pr\u00e9paration des donn\u00e9es \u00e0 exploiter est un \u00e9norme travail.<\/p>\n<p>Ce mod\u00e8les adoptent une vision probabiliste des probl\u00e8mes \u00e0 r\u00e9soudre. Ils ont besoin d\u2019\u00e9chantillons importants pour bien fonctionner. Ils pr\u00e9disent des valeurs futures en fonction des donn\u00e9es du pass\u00e9. Si le pass\u00e9 n\u2019est pas satisfaisant pour une raison ou une autre, les mod\u00e8les de machine learning vont reproduire b\u00eatement ces insatisfactions.<\/p>\n<p>On peut aussi cr\u00e9er des mod\u00e8les de machine learning en croisant des donn\u00e9es disparates. Cela permet \u00e9ventuellement de d\u00e9couvrir des corr\u00e9lations entre donn\u00e9es, mais pas forc\u00e9ment les explications associ\u00e9es. Il faut toujours compl\u00e9ter cette approche par du bon sens m\u00e9tier.<\/p>\n<p>Les donn\u00e9es qui servent \u00e0 cr\u00e9er des mod\u00e8les de machine learning sont principalement de quatre formats diff\u00e9rents : donn\u00e9es structur\u00e9es et tabulaires (bases de donn\u00e9es SQL, tableaux, \u2026), d\u2019images et vid\u00e9o, audio et textuelles. Les GAFA ma\u00eetrisent bien les donn\u00e9es ouvertes indexables sur Internet et celles qui sont fournies explicitement ou implicitement par les utilisateurs.<\/p>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/Google-Flu-Failure.jpg\"><img loading=\"lazy\" decoding=\"async\" style=\"background-image: none; padding-top: 0px; padding-left: 0px; display: inline; padding-right: 0px; border-width: 0px;\" title=\"Google Flu Failure\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/Google-Flu-Failure_thumb.jpg\" alt=\"Google Flu Failure\" width=\"522\" height=\"408\" border=\"0\" \/><\/a><\/p>\n<p>Mais cela ne fonctionne pas \u00e0 tous les coups. Comme le rappelle bien <a href=\"https:\/\/www.wired.com\/2015\/10\/can-learn-epic-failure-google-flu-trends\/\">What we can learn from the epic failure of Google Flu Trends<\/a> de David Lazer et Ryan Kennedy en octobre 2015, Google avait voulu identifier et cartographier l\u2019\u00e9mergence d\u2019\u00e9pid\u00e9mies de grippes avec Google Flu Trends entre 2008 et 2015. Google pensait pouvoir pr\u00e9dire ces \u00e9pid\u00e9mies plus rapidement que le CDC (Center for Diseases Control US) via les recherches en ligne sur le sujet. Mais il rata compl\u00e8tement la d\u00e9tection de la saison 2013. L\u2019article pointe le besoin de croiser des donn\u00e9es et de les rendre ouvertes. En clair, de rendre celles de Google accessibles au CDC !<\/p>\n<p>L\u2019autre croyance r\u00e9pandue est la confusion entre outil de d\u00e9veloppement et mod\u00e8le. Ainsi, certains peuvent rapidement croire qu\u2019en utilisant les biblioth\u00e8ques ou les outils de TensorFlow, qui proviennent de Google, ils vont aider Google \u00e0 entra\u00eener ses propres IA. C\u2019est une vision na\u00efve des choses qui rel\u00e8ve de la difficult\u00e9 \u00e0 s\u00e9parer code et donn\u00e9es associ\u00e9es, comme dans un logiciel traditionnel. Si vous cr\u00e9ez un mod\u00e8le avec TensorFlow et l\u2019entra\u00eenez avec vos donn\u00e9es, cela va g\u00e9n\u00e9rer un mod\u00e8le entra\u00een\u00e9 pour vos propres besoins et Google n\u2019en aura que cure. Par contre, vous b\u00e9n\u00e9ficiez du travail d&#8217;une grande communaut\u00e9 de d\u00e9veloppeurs qui ont cr\u00e9\u00e9 des mod\u00e8les pr\u00eats \u00e0 l&#8217;emploi pour ce framework, une part d&#8217;entre eux provenant de Google.<\/p>\n<p>On oublie aussi le lien indissociable entre les donn\u00e9es des GAFA et les caract\u00e9ristiques de leurs services et \u00e0 leur valeur. Ces donn\u00e9es ne tombent pas du ciel. Elles sont directement li\u00e9es aux services associ\u00e9es qui permettent de les collecter. Facebook collecte les donn\u00e9es que vous lui fournissez en racontant votre vie et en <em>likant<\/em> des pages. Google r\u00e9cup\u00e8re les liens que vous cr\u00e9ez entre les sites web pour les indexer et g\u00e9rer leur pagerank. Etc. Il est rare que l\u2019on puisse d\u00e9coupler les donn\u00e9es et les services associ\u00e9s. Donc, avant de pr\u00eater aux GAFA toutes les innovations du monde dans l\u2019IA, posez-vous les questions des services que vous pourriez cr\u00e9er avec vos propres donn\u00e9es, \u00e9ventuellement crois\u00e9es avec des donn\u00e9es tierces.<\/p>\n<p>Autre m\u00e9connaissance, le volume des donn\u00e9es n\u00e9cessaires \u00e0 l\u2019entra\u00eenement d\u2019un mod\u00e8le de machine learning. Celui-ci est tr\u00e8s variable selon les besoins, les donn\u00e9es, leur variabilit\u00e9 et les applications. Pour optimiser l\u2019entra\u00eenement des mod\u00e8les, m\u00eame les GAFA font le tri dans les donn\u00e9es et ne les exploitent pas int\u00e9gralement. Elles seraient trop longues \u00e0 ing\u00e9rer pour l\u2019entra\u00eenement des mod\u00e8les de machine learning.<\/p>\n<p>Les entreprises de secteurs traditionnels peuvent toujours se plaindre du monopole qu\u2019ont acquis les GAFA pour toucher les Internautes. Ils disposent en effet des moyens de cibler les audiences grand public avec une assez bonne pr\u00e9cision. Mais ce travail d\u2019interm\u00e9diation a toujours exist\u00e9 d\u2019une mani\u00e8re ou d\u2019une autre. C\u2019est le march\u00e9 de la publicit\u00e9 qui a \u00e9volu\u00e9. Il est pass\u00e9 d\u2019un mix de m\u00e9dias \u00e0 sens unique et \u00e0 faibles interactions avec les consommateurs, \u00e0 des m\u00e9dias interactifs qui facilitent ce fameux ciblage. C\u2019est un m\u00e9tier et une sp\u00e9cialit\u00e9.<\/p>\n<p>Enfin, du c\u00f4t\u00e9 de la pr\u00e9servation de la vie priv\u00e9e, il existe un nouveau champ scientifique appel\u00e9 <em>differential privacy<\/em> qu\u2019il faut prendre en compte pour \u00e9viter qu\u2019un mod\u00e8le de machine learning entra\u00een\u00e9 permette l\u2019identification d\u2019individus selon des crit\u00e8res pr\u00e9cis. Exprim\u00e9 simplement, ce proc\u00e9d\u00e9 consiste \u00e0 ajouter du bruit dans les donn\u00e9es et dans les mod\u00e8les lors de l\u2019entra\u00eenement et lors d\u2019inf\u00e9rences pour \u00e9viter cette identification, en particulier lorsque l\u2019on cherche \u00e0 faire une pr\u00e9diction sur un \u00e9chantillon r\u00e9duit d\u2019individus.<\/p>\n<p><strong>Cons\u00e9quences<\/strong><\/p>\n<p>La principale le\u00e7on de ces observations est que les GAFA n\u2019emp\u00eachent pas vraiment les grandes entreprises fran\u00e7aises d\u2019adopter le machine learning et d\u2019exploiter leurs propres donn\u00e9es pour ce faire. Il en va de m\u00eame pour les PMEs de nombreux secteurs d\u2019activit\u00e9. Les blocages sont autres : la capacit\u00e9 \u00e0 faire de la veille technologique, \u00e0 identifier des besoins mal couverts par l\u2019existant, \u00e0 innover, \u00e0 sortir des sentiers battus et \u00e0 trouver et\/ou former les bonnes comp\u00e9tences.<\/p>\n<p>La seconde est bien connue : analysez bien vos donn\u00e9es ! Votre entreprise en poss\u00e8de beaucoup plus qu\u2019elle ne le croit. Elles proviennent de capteurs, d\u2019usines, des outils de la relation client, sites web et applications mobiles. De gros volumes de donn\u00e9es faiblement structur\u00e9es issues des outils de communication interne et externe, et collaboratifs. sont aussi exploitables par les nouveaux outils de traitement du langage. Il faut aussi trouver des id\u00e9es de croisement de donn\u00e9es m\u00e9tiers, notamment avec des donn\u00e9es ouvertes. Enfin, il faut \u00e9videmment g\u00e9rer des donn\u00e9es \u201cvivantes\u201d, fr\u00e9quemment mises \u00e0 jour, de qualit\u00e9 et bien labellis\u00e9es. Cela requiert un processus qualit\u00e9 ! Il faut aussi bien analyser la structure statistique et s\u00e9mantique des donn\u00e9es pour identifier leurs biais \u00e9ventuels. L\u2019expertise en machine learning consiste \u00e0 avoir une id\u00e9e de la volum\u00e9trie des donn\u00e9es n\u00e9cessaire pour entra\u00eener un mod\u00e8le. Il y a un savoir partageable et\u2026 les tests !<\/p>\n<p>La troisi\u00e8me est de recentrer le d\u00e9bat sur la nature des services \u00e0 cr\u00e9er qui pourraient exploiter toutes ces donn\u00e9es. Se lancer bille en t\u00eate dans la cr\u00e9ation d\u2019un entrep\u00f4t de donn\u00e9es pour le machine learning (dit \u201cdatalake\u201d) sans avoir la moindre id\u00e9e des services pouvant l\u2019exploiter n\u2019est pas toujours la voie du succ\u00e8s. Au passage, en n\u2019oubliant pas que le machine learning n\u2019est qu\u2019une des branches techniques de l\u2019IA. Il en existe d\u2019autres qui sont moins voraces en donn\u00e9es comme les moteurs de r\u00e8gles, les ontologies, les arbres de d\u00e9cisions et autres graphes ou les syst\u00e8mes multi-agents. En particulier, la robotique fait beaucoup appel \u00e0 ces techniques.<\/p>\n<p>La quatri\u00e8me est : n\u2019exposez pas forc\u00e9ment vos donn\u00e9es \u00e0 tous vents. C\u2019est l\u2019\u00e9p\u00e9e \u00e0 double tranchant de l\u2019open data : c\u2019est bien au premier abord, mais les GAFA peuvent les exploiter et plateformiser votre activit\u00e9. C\u2019est le paradoxe de l\u2019ouverture, notamment pour les Etats qui ouvrent les donn\u00e9es. D\u2019o\u00f9 la question de l\u2019usage de ces donn\u00e9es \u00e0 but lucratif et la consolidation de monopoles associ\u00e9s. A contrario, creusez l\u2019opportunit\u00e9 de mutualiser vos donn\u00e9es avec d\u2019autres acteurs d\u2019un m\u00eame march\u00e9 ou de march\u00e9s adjacents pour cr\u00e9er plus de valeur. L\u2019union peut faire la force face aux GAFA.<\/p>\n<p>Bref, ne vous endormez pas sur vos lauriers ou dans votre pr\u00e9-carr\u00e9 !<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Il est de bon ton de d\u00e9clarer de mani\u00e8re p\u00e9remptoire que les GAFA et autres BATX dominent le monde de l\u2019IA et ont acc\u00e8s \u00e0 un tombereau de donn\u00e9es qui leur permettent de l\u2019entra\u00eener et que cela leur assure, ipso-facto, un leadership incontestable dans tous les domaines et tous les m\u00e9tiers, au point de menacer [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[2659,1570],"tags":[1628,1320,545,197,2479,3243,2470,3244,2458,1167,2838,2195],"class_list":["post-17588","post","type-post","status-publish","format-standard","hentry","category-intelligence-artificielle","category-sante","tag-23andme","tag-airbnb","tag-amazon","tag-apple","tag-facebook","tag-gafa","tag-google","tag-ibl","tag-microsoft","tag-netflix","tag-tensorflow","tag-uber"],"views":26659,"_links":{"self":[{"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/posts\/17588","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/comments?post=17588"}],"version-history":[{"count":0,"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/posts\/17588\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/media?parent=17588"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/categories?post=17588"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/tags?post=17588"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}