{"id":931,"date":"2008-05-24T17:31:23","date_gmt":"2008-05-24T15:31:23","guid":{"rendered":"http:\/\/www.oezratty.net\/wordpress\/2008\/moissonner-le-web-avec-outwit\/"},"modified":"2008-08-01T21:46:30","modified_gmt":"2008-08-01T19:46:30","slug":"moissonner-le-web-avec-outwit","status":"publish","type":"post","link":"https:\/\/www.oezratty.net\/wordpress\/2008\/moissonner-le-web-avec-outwit\/","title":{"rendered":"Moissonner le web avec Outwit"},"content":{"rendered":"<p>Le web, ses sites et les moteurs de recherche ont une particularit\u00e9 : ils pr\u00e9sentent des tonnes d&#8217;information, mais en g\u00e9n\u00e9ral, faiblement structur\u00e9es. <\/p>\n<p>La couche de pr\u00e9sentation &#8220;web\/HTML&#8221; d\u00e9truit la structure originelle des informations, tr\u00e8s souvent stock\u00e9es dans des bases de donn\u00e9es. Il en r\u00e9sulte des silos de donn\u00e9es disparates difficiles \u00e0 exploiter. Pourtant, des tr\u00e9sors d&#8217;informations sont disponibles qui pourraient \u00eatre mieux exploit\u00e9es : donn\u00e9es financi\u00e8res, listes diverses, comparaisons de prix, listes d&#8217;objets \u00e0 vendre, etc.<\/p>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/image117.png\"><img loading=\"lazy\" decoding=\"async\" style=\"border-top-width: 0px; border-left-width: 0px; border-bottom-width: 0px; border-right-width: 0px\" height=\"79\" alt=\"image\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/image-thumb113.png\" width=\"244\" border=\"0\"><\/a> <\/p>\n<p>Cela fait des ann\u00e9es que les chercheurs et sp\u00e9cialistes des standards du web cherchent une r\u00e9ponse. Elle s&#8217;appelle le plus souvent &#8220;web s\u00e9mantique&#8221;, voire &#8220;web services&#8221;. Le &#8220;<a href=\"http:\/\/fr.wikipedia.org\/wiki\/Web_s%C3%A9mantique\">web s\u00e9mantique<\/a>&#8221; consiste \u00e0 publier les donn\u00e9es sur le web avec des informations sur leur structure, leur sens, permettant une exploitation intelligente par les logiciels. Il s&#8217;appuie notamment sur le standard W3C &#8220;RDF&#8221; qui permet de sp\u00e9cifier la structure des donn\u00e9es et leur s\u00e9mantique (tel champ est un nom, tel autre est une adresse, etc). Le seul hic, c&#8217;est que ce standard n&#8217;est pas adopt\u00e9 et que le web reste un bazar toujours faiblement structur\u00e9 au niveau des donn\u00e9es publi\u00e9es. <\/p>\n<p>Les &#8220;services web&#8221; permettant quant \u00e0 eux d&#8217;interroger les sites \u00e0 partir de logiciels, comme si on interrogeait une base de donn\u00e9es (pour faire simple), ne se sont pas plus g\u00e9n\u00e9ralis\u00e9s. Les moteurs de recherche comme Google Search fonctionnent de leur c\u00f4t\u00e9 en utilisant des batteries de statistiques, et pas du tout par s\u00e9mantique.<\/p>\n<p>R\u00e9sultat, le web s\u00e9mantique est pour l&#8217;instant dans les limbes. Il est \u00e0 peine utilis\u00e9 au sein des entreprises et tr\u00e8s rarement sur Internet. Les logiciels en sont r\u00e9duits \u00e0 deviner la structure des informations publi\u00e9es pour les exploiter. On pourrait appeler cela le &#8220;web s\u00e9mantique implicite&#8221;.<\/p>\n<p>C&#8217;est pour cela qu&#8217;il existe plein d&#8217;outils souvent en Shareware pour aller grappiller des informations structur\u00e9es sur les sites web. On appelle cela des &#8220;scraper&#8221;, ou bien des outils de t\u00e9l\u00e9chargement pour ce qui est des images. Mais il est difficile de trouver des outils de ce genre qui soient \u00e0 la fois faciles d&#8217;emploi, flexibles et extensibles.<\/p>\n<p>R\u00e9pondre \u00e0 ce besoin est la mission d&#8217;Outwit. Avec l&#8217;id\u00e9e de faciliter la r\u00e9cup\u00e9ration d&#8217;informations structur\u00e9es de sites web qui&#8230; la d\u00e9structurent !<\/p>\n<p><strong>L&#8217;\u00e9quipe<\/strong><\/p>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/outwit-logo.jpg\"><img loading=\"lazy\" decoding=\"async\" style=\"border-top-width: 0px; border-left-width: 0px; border-bottom-width: 0px; border-right-width: 0px\" height=\"61\" alt=\"OutWit Logo\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/outwit-logo-thumb.jpg\" width=\"244\" border=\"0\"><\/a> <\/p>\n<p>Je connais <strong>Jean-Christophe Combaz<\/strong> depuis deux ans. Dipl\u00f4m\u00e9 de la Harvard Business School, c&#8217;est un entrepreneur en herbe au long parcours. Il a cr\u00e9\u00e9 <a href=\"http:\/\/www.calliscope.com\">Calliscope<\/a> en 1987 et l&#8217;a dirig\u00e9 en France et en Californie. Il a cr\u00e9\u00e9 ensuite la filiale europ\u00e9enne de l&#8217;\u00e9diteur de logiciels de conception 3D Ray Dream, puis a d\u00e9marr\u00e9 le portail <a href=\"http:\/\/www.adforum.com\/\">AdForum<\/a> d\u00e9di\u00e9 au march\u00e9 de la publicit\u00e9, dont il a con\u00e7u le site.<\/p>\n<p>C&#8217;est un v\u00e9ritable visionnaire et un passionn\u00e9 du web s\u00e9mantique. Il a plein d&#8217;id\u00e9es sur les services qu&#8217;il pourrait rendre, et de mani\u00e8re tr\u00e8s pragmatique. Il avait d\u00e9velopp\u00e9 d\u00e8s 2006 un prototype d&#8217;outil permettant de r\u00e9cup\u00e9rer des donn\u00e9es sur les sites web, et qui ne tournait que sur Macintosh.<\/p>\n<p>Apr\u00e8s une grosse ann\u00e9e de pr\u00e9paration, il a lanc\u00e9 son entreprise, Outwit Technologies, et trouv\u00e9 des business angels pour financer l&#8217;aventure et divers conseils tels qu&#8217;Etienne Krieger (CEO de <a href=\"http:\/\/www.navidis.com\/\">Navidis<\/a>) et votre serviteur. De la est sorti une premi\u00e8re b\u00eata d&#8217;Outwit, cr\u00e9\u00e9e avec trois d\u00e9veloppeurs, et qui est maintenant t\u00e9l\u00e9chargeable.<\/p>\n<p><strong>Le produit<\/strong><\/p>\n<p>Le &#8220;Outwit Hub&#8221; est une extension Firefox compatible avec la version 3.X du navigateur (depuis fin juillet 2008). C&#8217;est en fait une application \u00e0 part enti\u00e8re qui int\u00e8gre le navigateur de Firefox et se lance \u00e0 partir de Firefox.<\/p>\n<p>Outwit Hub est t\u00e9l\u00e9chargeable en b\u00eata 1 <a href=\"http:\/\/www.outwit.com\/\">ici<\/a>. Son mode d&#8217;emploi rapide est <a href=\"http:\/\/www.outwit.com\/products\/hub\/HubOverview.php\">ici<\/a>. Le produit \u00e9tant encore en d\u00e9veloppement, son aide en ligne est succincte.<\/p>\n<p>Le principe d&#8217;utilisation d&#8217;Outwit Hub s&#8217;articule en trois phases :<\/p>\n<ul>\n<li>On ouvre une page web et on s\u00e9lectionne les \u00e9l\u00e9ments \u00e0 r\u00e9cup\u00e9rer dans le haut de la fen\u00eatre (images, listes, emails, tableaux, RSS).\n<li>On envoie la s\u00e9lection dans le &#8220;catch&#8221;, en mode manuel ou automatique, c&#8217;est une liste en bas de la fen\u00eatre d&#8217;Outwit Hub. Le catch va accumuler les \u00e9l\u00e9ments r\u00e9cup\u00e9r\u00e9s jusqu&#8217;\u00e0 ce qu&#8217;on efface ce qu&#8217;il contient. Le mode manuel consiste \u00e0 appuyer sur le bouton &#8220;<strong>Catch<\/strong>&#8221; et le mode automatique, \u00e0 s\u00e9lectionner la case &#8220;<strong>Catch selection<\/strong>&#8221; en bas \u00e0 droite. Il s&#8217;appliquera aux pages web suivantes obtenues soit avec une nouvelle URL, soit avec les boutons de d\u00e9placement (fl\u00e8ches droites simples ou doubles).\n<li>La sauvegarde des \u00e9l\u00e9ments r\u00e9cup\u00e9r\u00e9s sur le disque, en mode manuel ou automatique (optionnelle pour les images). Pour des images, c&#8217;est leur r\u00e9cup\u00e9ration dans un r\u00e9pertoire. Pour des listes et tableaux, c&#8217;est la sauvegarde dans un fichier Excel ou la copie dans le presse-papier apr\u00e8s leur s\u00e9lection.<\/li>\n<\/ul>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/image118.png\"><img loading=\"lazy\" decoding=\"async\" style=\"border-top-width: 0px; border-left-width: 0px; border-bottom-width: 0px; border-right-width: 0px\" height=\"221\" alt=\"image\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/image-thumb114.png\" width=\"393\" border=\"0\"><\/a> <\/p>\n<p>Le logiciel est plein de ressources mais il est encore un peu t\u00f4t pour les d\u00e9crire en d\u00e9tail car il faut d\u00e9j\u00e0 s&#8217;approprier les fonctions de base. <\/p>\n<p>En gros, Outwit Hub sera scriptable et on pourra cr\u00e9er des &#8220;scrapers&#8221; personnalis\u00e9s de sites divers. Et l&#8217;ensemble fonctionnera dans un mode communautaire. Le site web d&#8217;Outwit jouera ainsi un r\u00f4le f\u00e9d\u00e9rateur des utilisateurs et contributeurs d&#8217;Outwit. <\/p>\n<p>De plus, on pourra d\u00e9velopper des &#8220;Outfits&#8221;, des applications sp\u00e9cifiques cr\u00e9\u00e9es avec le moteur d&#8217;Outwit qui est au coeur du Hub. Le mod\u00e8le \u00e9conomique reposera sur leur d\u00e9veloppement et leur distribution, ainsi que sur un financement du site communautaire d&#8217;Outwit par la publicit\u00e9. Tout est \u00e0 construire.<\/p>\n<p>Tout ceci constitue le plan \u00e0 ex\u00e9cuter pour les mois \u00e0 venir !<\/p>\n<p><strong>Les utilisateurs<\/strong><\/p>\n<p>Qui pourra utiliser Outwit ? <\/p>\n<p>Pour ce qui est de la r\u00e9cup\u00e9ration d&#8217;images, c&#8217;est un peu tout le monde.<\/p>\n<p>Pour ce qui est de listes, cela concernera les &#8220;chercheurs d&#8217;informations structur\u00e9es&#8221; avec notamment : les enseignants et les \u00e9tudiants, les m\u00e9tiers du marketing, de la communication, de la veille technologie, les \u00e9conomistes et les investisseurs financiers.<\/p>\n<p>Et ce, \u00e0 l&#8217;\u00e9chelle mondiale. Ce qui explique pourquoi le logiciel est actuellement d\u00e9velopp\u00e9 avec une interface utilisateur en anglais.<\/p>\n<p>L&#8217;objectif de Jean-Christophe Combaz est de cr\u00e9er ou permettre la cr\u00e9ation par des tiers d&#8217;applications \u00e0 partir du noyau de l&#8217;Outwit Hub. A terme, Outwit Hub sera plut\u00f4t destin\u00e9s \u00e0 des utilisateurs avanc\u00e9s du web.<\/p>\n<p><strong>Comment le d\u00e9couvrir ?<\/strong><\/p>\n<p>Je vous propose de d\u00e9couvrir le Outwit Hub gr\u00e2ce \u00e0 deux petits tutoriaux &#8220;faits main&#8221;&nbsp; illustr\u00e9s dans les deux posts suivants. L&#8217;un pour r\u00e9cup\u00e9rer des listes, comme celle des 2000 plus grandes entreprises mondiales du classement Forbes 2000. Et l&#8217;autre, pour r\u00e9cup\u00e9rer des images sur Google Image. Il s&#8217;agit de tutoriaux sur des fonctions basiques du logiciel car celui-ci permet de r\u00e9aliser des choses bien plus sophistiqu\u00e9es&#8230; qu&#8217;il reste \u00e0 documenter !<\/p>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/image119.png\"><img loading=\"lazy\" decoding=\"async\" style=\"border-top-width: 0px; border-left-width: 0px; border-bottom-width: 0px; border-right-width: 0px\" height=\"137\" alt=\"image\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/image-thumb115.png\" width=\"244\" border=\"0\"><\/a> <\/p>\n<p>Ensuite, vous pourrez faites quelques tests vous-m\u00eames et utiliser le menu &#8220;<strong>Feedback<\/strong>&#8221; d&#8217;Outwit pour faire suggestion et reporter les bugs et dysfonctionnements que vous identifierez. Et en \u00e9tant indulgent : ce n&#8217;est qu&#8217;une b\u00eata non finalis\u00e9e.<\/p>\n<p><em>Article modifi\u00e9 le 1ier ao\u00fbt 2008 pour indiquer qu&#8217;Outwit Hub est maintenant compatible avec Firefox 3.X.<\/em><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Le web, ses sites et les moteurs de recherche ont une particularit\u00e9 : ils pr\u00e9sentent des tonnes d&#8217;information, mais en g\u00e9n\u00e9ral, faiblement structur\u00e9es. La couche de pr\u00e9sentation &#8220;web\/HTML&#8221; d\u00e9truit la structure originelle des informations, tr\u00e8s souvent stock\u00e9es dans des bases de donn\u00e9es. Il en r\u00e9sulte des silos de donn\u00e9es disparates difficiles \u00e0 exploiter. Pourtant, des [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21,19,33,2,7],"tags":[],"class_list":["post-931","post","type-post","status-publish","format-standard","hentry","category-entrepreneuriat","category-google","category-innovation","category-internet","category-logiciels"],"views":20675,"_links":{"self":[{"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/posts\/931","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/comments?post=931"}],"version-history":[{"count":0,"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/posts\/931\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/media?parent=931"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/categories?post=931"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/tags?post=931"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}