{"id":950,"date":"2008-05-24T17:35:23","date_gmt":"2008-05-24T15:35:23","guid":{"rendered":"http:\/\/www.oezratty.net\/wordpress\/2008\/tutorial-outwit-rcupration-de-listes\/"},"modified":"2008-08-01T21:48:43","modified_gmt":"2008-08-01T19:48:43","slug":"tutorial-outwit-rcupration-de-listes","status":"publish","type":"post","link":"https:\/\/www.oezratty.net\/wordpress\/2008\/tutorial-outwit-rcupration-de-listes\/","title":{"rendered":"Tutorial Outwit &#8211; r&eacute;cup&eacute;ration de listes"},"content":{"rendered":"<p>Apr\u00e8s avoir d\u00e9crit l&#8217;objet du logiciel <a href=\"http:\/\/www.outwit.com\/\">Outwit Hub<\/a>, passons \u00e0 un petit tutorial qui vous permettra de l&#8217;exp\u00e9rimenter pour une application pratique: la r\u00e9cup\u00e9ration de listes de sites web. Il vous faudra d&#8217;abord installer ou disposer de Firefox 3.x de Firefox. Ensuite, vous installerez la <a href=\"http:\/\/www.outwit.com\/\">b\u00eata d&#8217;Outwit Hub<\/a>. Elle fonctionne sur Windows, MacOS comme sur Linux.<\/p>\n<p>Je vais utiliser ici un exemple de r\u00e9cup\u00e9ration de donn\u00e9es structur\u00e9es d\u00e9j\u00e0 exploit\u00e9 pour la pr\u00e9paration de mes supports de cours sur l&#8217;\u00e9conomie de l&#8217;innovation : la liste du <a href=\"http:\/\/www.forbes.com\/lists\/2007\/18\/biz_07forbes2000_The-Global-2000_Rank.html\">Forbes 2000<\/a> qui regroupe les 2000 plus grandes entreprises mondiales. Elle est porteuse d&#8217;une tr\u00e8s grande richesse d&#8217;informations. Cette liste apparait sous forme de tableaux que l&#8217;on peut copier coller \u00e0 la main dans Excel. Mais il faut charger 20 pages ce qui est bien fastidieux.<\/p>\n<p>Alors, lan\u00e7ons Firefox puis Outwit Hub \u00e0 partir de l&#8217;icone install\u00e9e dans la toolbar de Firefox par ce dernier comme indiqu\u00e9 ci-dessous. <\/p>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/image120.png\"><img loading=\"lazy\" decoding=\"async\" style=\"border-top-width: 0px; border-left-width: 0px; border-bottom-width: 0px; border-right-width: 0px\" height=\"80\" alt=\"image\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/image-thumb116.png\" width=\"315\" border=\"0\"><\/a> <\/p>\n<p>Dans la barre d&#8217;URL d&#8217;Outwit Hub, collez <a href=\"http:\/\/www.forbes.com\/lists\/2007\/18\/biz_07forbes2000_The-Global-2000_Rank.html\">l&#8217;URL de Forbes<\/a>. Faites &#8220;Enter&#8221; et la page s&#8217;affiche comme dans tout navigateur. Ensuite, cliquez sur le tab &#8220;<strong>Data<\/strong>&#8221; comme indiqu\u00e9 ci-dessous.<\/p>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/image121.png\"><img loading=\"lazy\" decoding=\"async\" style=\"border-top-width: 0px; border-left-width: 0px; border-bottom-width: 0px; border-right-width: 0px\" height=\"364\" alt=\"image\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/image-thumb117.png\" width=\"430\" border=\"0\"><\/a> <\/p>\n<p>Cela affiche les donn\u00e9es tabul\u00e9es de la page HTML. Mais on n&#8217;a pas encore un beau tableau. Pour ce faire, cliquez sur le bouton &#8220;<strong>Guess<\/strong>&#8221; comme indiqu\u00e9 ci-dessous. Cette fonction d\u00e9clenche la d\u00e9tection automatique d&#8217;un v\u00e9ritable tableau de donn\u00e9es structur\u00e9es par Outwit. <\/p>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/image122.png\"><img loading=\"lazy\" decoding=\"async\" style=\"border-top-width: 0px; border-left-width: 0px; border-bottom-width: 0px; border-right-width: 0px\" height=\"322\" alt=\"image\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/image-thumb118.png\" width=\"435\" border=\"0\"><\/a> <\/p>\n<p>Le r\u00e9sultat apparait ci-dessous. A partir de l\u00e0, on va s\u00e9lectionner toutes les lignes dans la liste, par exemple en cliquant sur une ligne et en faisant &#8220;CTRL-A&#8221; avec le clavier. Et puis, on va la copier dans la zone en bas de la fen\u00eatre qui est le &#8220;<strong>Catch<\/strong>&#8221; en cliquant sur le bouton du m\u00eame nom. Le catch, c&#8217;est ce que l&#8217;on a attrap\u00e9 dans les pages et qui s&#8217;accumule au fur et \u00e0 mesure. Ensuite, on peut r\u00e9cup\u00e9rer ce qu&#8217;il y a dans le catch de diff\u00e9rentes mani\u00e8res selon qu&#8217;il s&#8217;agit d&#8217;images ou de listes.<\/p>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/image123.png\"><img loading=\"lazy\" decoding=\"async\" style=\"border-top-width: 0px; border-left-width: 0px; border-bottom-width: 0px; border-right-width: 0px\" height=\"323\" alt=\"image\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/image-thumb119.png\" width=\"439\" border=\"0\"><\/a> <\/p>\n<p>Maintenant, nous allons lancer le processus qui va automatiquement r\u00e9cup\u00e9rer la suite du Forbes 2000 dans les 19 pages web suivantes. Il faut d&#8217;abord s\u00e9lectionner la checkbox &#8220;<strong>Catch selection<\/strong>&#8221; qui indique que dans toute ouverture de page ou s\u00e9lection de page suivante, le contenu identifi\u00e9 sera automatiquement bascul\u00e9 dans le catch. Ensuite, on cliquera sur la &#8220;<strong>double fl\u00e8che droite<\/strong>&#8221; (fast forward) qui est dans la barre d&#8217;outils en haut de Outwit. Elle d\u00e9clenchera l&#8217;analyse automatique des pages suivantes jusqu&#8217;\u00e0 la vingti\u00e8me. Si on veut le faire \u00e0 la main, on peut utiliser le bouton &#8220;fl\u00e8che droite&#8221; (&#8220;Play&#8221;) page par page. On peut aussi arr\u00eater le scan automatique des pages avec <strong>ESC<\/strong> ou en cliquant \u00e0 nouveau sur la double fl\u00e8che.<\/p>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/image124.png\"><img loading=\"lazy\" decoding=\"async\" style=\"border-top-width: 0px; border-left-width: 0px; border-bottom-width: 0px; border-right-width: 0px\" height=\"327\" alt=\"image\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/image-thumb120.png\" width=\"445\" border=\"0\"><\/a> <\/p>\n<p>Une fois les 20 pages scann\u00e9es ce qui prend quelques minutes \u00e0 peine, le catch comprend bien 2000 entr\u00e9es. On va maintenant le sauvegarder pour l&#8217;exploiter.<\/p>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/image125.png\"><img loading=\"lazy\" decoding=\"async\" style=\"border-top-width: 0px; border-left-width: 0px; border-bottom-width: 0px; border-right-width: 0px\" height=\"326\" alt=\"image\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/image-thumb121.png\" width=\"448\" border=\"0\"><\/a> <\/p>\n<p>Pour ce faire, on va dans le menu &#8220;<strong>File<\/strong>&#8221; et on lance &#8220;<strong>Export selection as&#8230;<\/strong>&#8220;. Le seul format support\u00e9 est pour l&#8217;instant Excel. C&#8217;est en fait un sch\u00e9ma XML support\u00e9 par Excel, mais je ne sais pas trop lequel. Et il n&#8217;est pas lisible dans OpenOffice 2.4. Un export CSV est en tout cas pr\u00e9vu \u00e0 terme. Et on peut tout de m\u00eame copier la s\u00e9lection du haut ou celle du catch dans le presse papier pour la r\u00e9cup\u00e9rer ailleurs (avec le bouton droit de la souris et &#8220;<strong>Copy<\/strong>&#8220;).<\/p>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/image126.png\"><img loading=\"lazy\" decoding=\"async\" style=\"border-top-width: 0px; border-left-width: 0px; border-bottom-width: 0px; border-right-width: 0px\" height=\"334\" alt=\"image\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/image-thumb122.png\" width=\"452\" border=\"0\"><\/a> <\/p>\n<p>Et on ouvre le fichier sous <strong>Excel<\/strong>, version 2007 US dans l&#8217;exemple ci-dessous (\u00e7a fonctionne peut-\u00eatre sous OpenOffice). On \u00e9limine ensuite les colonnes inutiles. On peut constater que la colonne &#8220;Rank&#8221; n&#8217;a pas \u00e9t\u00e9 bien r\u00e9cup\u00e9r\u00e9e mais ce n&#8217;est pas grave dans ce cas l\u00e0. C&#8217;est un d\u00e9faut qui sera trait\u00e9 dans les \u00e9volutions d&#8217;Outwit pour faire en sorte que la d\u00e9tection automatique de la structure des tables d&#8217;une page ne soit pas refaire \u00e0 chaque page.<\/p>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/image127.png\"><img loading=\"lazy\" decoding=\"async\" style=\"border-top-width: 0px; border-left-width: 0px; border-bottom-width: 0px; border-right-width: 0px\" height=\"369\" alt=\"image\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/image-thumb123.png\" width=\"451\" border=\"0\"><\/a> <\/p>\n<p>Pour exploiter les donn\u00e9es, il faut les normaliser au format fran\u00e7ais : on s\u00e9lectionne les colonnes de chiffres, on utilise la fonction de Recherche\/Remplacement d&#8217;Excel pour remplacer les &#8220;,&#8221; (virgules) par rien du tout, et ensuite les &#8220;.&#8221; par &#8220;,&#8221; et le tour est jou\u00e9. L\u00e0 encore, cette transformation devrait \u00eatre effectu\u00e9e automatiquement par Outwit Hub apr\u00e8s la fin de la b\u00eata en fonction de vos &#8220;Regional Settings&#8221;.<\/p>\n<p>Et hop, on cr\u00e9\u00e9 un petit tableau dynamique crois\u00e9 et un camember avec par exemple la r\u00e9partition par pays de la capitalisation boursi\u00e8re des 2000 plus grandes entreprises mondiales.<\/p>\n<p><a href=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/image128.png\"><img loading=\"lazy\" decoding=\"async\" style=\"border-top-width: 0px; border-left-width: 0px; border-bottom-width: 0px; border-right-width: 0px\" height=\"266\" alt=\"image\" src=\"https:\/\/www.oezratty.net\/wordpress\/wp-content\/image-thumb124.png\" width=\"385\" border=\"0\"><\/a> <\/p>\n<p>Pour l&#8217;instant, ce processus automatique (Guess) ne fonctionne pas encore parfaitement sur tous les sites. J&#8217;ai pu le tester avec succ\u00e8s sur Kelkoo.fr et quelques autres sites comme des sites de recherche d&#8217;emploi. Mais entre les quatre fonctionnalit\u00e9s d&#8217;extraction de donn\u00e9es sous l&#8217;onglet &#8220;Data&#8221; (trois sont automatiques: tables, listes et guess, et une est manuelle : scrapers), il y a en g\u00e9n\u00e9ral toujours un moyen de s&#8217;en sortir. D&#8217;autres tutoriaux suivront qui seront publi\u00e9s sur le site d&#8217;Outwit.<\/p>\n<p>A vous de jouer maintenant&#8230; <\/p>\n<p>Le tutoriel suivant traitera de la r\u00e9cup\u00e9ration d&#8217;images.<\/p>\n<p><em>Article mis \u00e0 jour le 1ier ao\u00fbt 2008 pour tenir compte de la compatibilit\u00e9 d&#8217;Outwit Hub avec Firefox. Mais le tutoriel n&#8217;a pas \u00e9t\u00e9 encore retest\u00e9 dans cette version.<\/em><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Apr\u00e8s avoir d\u00e9crit l&#8217;objet du logiciel Outwit Hub, passons \u00e0 un petit tutorial qui vous permettra de l&#8217;exp\u00e9rimenter pour une application pratique: la r\u00e9cup\u00e9ration de listes de sites web. Il vous faudra d&#8217;abord installer ou disposer de Firefox 3.x de Firefox. Ensuite, vous installerez la b\u00eata d&#8217;Outwit Hub. Elle fonctionne sur Windows, MacOS comme sur [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[17,21,33,2,7],"tags":[],"class_list":["post-950","post","type-post","status-publish","format-standard","hentry","category-economie","category-entrepreneuriat","category-innovation","category-internet","category-logiciels"],"views":28538,"_links":{"self":[{"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/posts\/950","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/comments?post=950"}],"version-history":[{"count":0,"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/posts\/950\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/media?parent=950"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/categories?post=950"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.oezratty.net\/wordpress\/wp-json\/wp\/v2\/tags?post=950"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}