Tutorial Outwit - récupération de listes

Publié le 24 mai 2008 et mis à jour le 1 août 2008 - 3 commentaires -
PDF Afficher une version imprimable de cet article
   

Après avoir décrit l’objet du logi­ciel Out­wit Hub, pas­sons à un petit tuto­rial qui vous per­met­tra de l’expérimenter pour une appli­ca­tion pra­tique: la récu­pé­ra­tion de listes de sites web. Il vous fau­dra d’abord ins­tal­ler ou dis­po­ser de Fire­fox 3.x de Fire­fox. Ensuite, vous ins­tal­le­rez la bêta d’Outwit Hub. Elle fonc­tionne sur Win­dows, MacOS comme sur Linux.

Je vais uti­li­ser ici un exemple de récu­pé­ra­tion de don­nées struc­tu­rées déjà exploité pour la pré­pa­ra­tion de mes sup­ports de cours sur l’économie de l’innovation : la liste du Forbes 2000 qui regroupe les 2000 plus grandes entre­prises mon­diales. Elle est por­teuse d’une très grande richesse d’informations. Cette liste appa­rait sous forme de tableaux que l’on peut copier col­ler à la main dans Excel. Mais il faut char­ger 20 pages ce qui est bien fastidieux.

Alors, lan­çons Fire­fox puis Out­wit Hub à par­tir de l’icone ins­tal­lée dans la tool­bar de Fire­fox par ce der­nier comme indi­qué ci-dessous.

image

Dans la barre d’URL d’Outwit Hub, col­lez l’URL de Forbes. Faites “Enter” et la page s’affiche comme dans tout navi­ga­teur. Ensuite, cli­quez sur le tab “Data” comme indi­qué ci-dessous.

image

Cela affiche les don­nées tabu­lées de la page HTML. Mais on n’a pas encore un beau tableau. Pour ce faire, cli­quez sur le bou­ton “Guess” comme indi­qué ci-dessous. Cette fonc­tion déclenche la détec­tion auto­ma­tique d’un véri­table tableau de don­nées struc­tu­rées par Outwit.

image

Le résul­tat appa­rait ci-dessous. A par­tir de là, on va sélec­tion­ner toutes les lignes dans la liste, par exemple en cli­quant sur une ligne et en fai­sant “CTRL-A” avec le cla­vier. Et puis, on va la copier dans la zone en bas de la fenêtre qui est le “Catch” en cli­quant sur le bou­ton du même nom. Le catch, c’est ce que l’on a attrapé dans les pages et qui s’accumule au fur et à mesure. Ensuite, on peut récu­pé­rer ce qu’il y a dans le catch de dif­fé­rentes manières selon qu’il s’agit d’images ou de listes.

image

Main­te­nant, nous allons lan­cer le pro­ces­sus qui va auto­ma­ti­que­ment récu­pé­rer la suite du Forbes 2000 dans les 19 pages web sui­vantes. Il faut d’abord sélec­tion­ner la check­box “Catch selec­tion” qui indique que dans toute ouver­ture de page ou sélec­tion de page sui­vante, le contenu iden­ti­fié sera auto­ma­ti­que­ment bas­culé dans le catch. Ensuite, on cli­quera sur la “double flèche droite” (fast for­ward) qui est dans la barre d’outils en haut de Out­wit. Elle déclen­chera l’analyse auto­ma­tique des pages sui­vantes jusqu’à la ving­tième. Si on veut le faire à la main, on peut uti­li­ser le bou­ton “flèche droite” (“Play”) page par page. On peut aussi arrê­ter le scan auto­ma­tique des pages avec ESC ou en cli­quant à nou­veau sur la double flèche.

image

Une fois les 20 pages scan­nées ce qui prend quelques minutes à peine, le catch com­prend bien 2000 entrées. On va main­te­nant le sau­ve­gar­der pour l’exploiter.

image

Pour ce faire, on va dans le menu “File” et on lance “Export selec­tion as…”. Le seul for­mat sup­porté est pour l’instant Excel. C’est en fait un schéma XML sup­porté par Excel, mais je ne sais pas trop lequel. Et il n’est pas lisible dans Ope­nOf­fice 2.4. Un export CSV est en tout cas prévu à terme. Et on peut tout de même copier la sélec­tion du haut ou celle du catch dans le presse papier pour la récu­pé­rer ailleurs (avec le bou­ton droit de la sou­ris et “Copy”).

image

Et on ouvre le fichier sous Excel, ver­sion 2007 US dans l’exemple ci-dessous (ça fonc­tionne peut-être sous Ope­nOf­fice). On élimine ensuite les colonnes inutiles. On peut consta­ter que la colonne “Rank” n’a pas été bien récu­pé­rée mais ce n’est pas grave dans ce cas là. C’est un défaut qui sera traité dans les évolu­tions d’Outwit pour faire en sorte que la détec­tion auto­ma­tique de la struc­ture des tables d’une page ne soit pas refaire à chaque page.

image

Pour exploi­ter les don­nées, il faut les nor­ma­li­ser au for­mat fran­çais : on sélec­tionne les colonnes de chiffres, on uti­lise la fonc­tion de Recherche/Remplacement d’Excel pour rem­pla­cer les “,” (vir­gules) par rien du tout, et ensuite les “.” par “,” et le tour est joué. Là encore, cette trans­for­ma­tion devrait être effec­tuée auto­ma­ti­que­ment par Out­wit Hub après la fin de la bêta en fonc­tion de vos “Regio­nal Settings”.

Et hop, on créé un petit tableau dyna­mique croisé et un camem­ber avec par exemple la répar­ti­tion par pays de la capi­ta­li­sa­tion bour­sière des 2000 plus grandes entre­prises mondiales.

image

Pour l’instant, ce pro­ces­sus auto­ma­tique (Guess) ne fonc­tionne pas encore par­fai­te­ment sur tous les sites. J’ai pu le tes­ter avec suc­cès sur Kelkoo.fr et quelques autres sites comme des sites de recherche d’emploi. Mais entre les quatre fonc­tion­na­li­tés d’extraction de don­nées sous l’onglet “Data” (trois sont auto­ma­tiques: tables, listes et guess, et une est manuelle : scra­pers), il y a en géné­ral tou­jours un moyen de s’en sor­tir. D’autres tuto­riaux sui­vront qui seront publiés sur le site d’Outwit.

A vous de jouer maintenant…

Le tuto­riel sui­vant trai­tera de la récu­pé­ra­tion d’images.

Article mis à jour le 1ier août 2008 pour tenir compte de la com­pa­ti­bi­lité d’Outwit Hub avec Fire­fox. Mais le tuto­riel n’a pas été encore retesté dans cette version.

Publié le 24 mai 2008 et mis à jour le 1 août 2008 Post de | Economie, Entrepreneuriat, Innovation, Internet, Logiciels | 12434 lectures

PDF Afficher une version imprimable de cet article          

Les 3 commentaires et tweets sur “Tutorial Outwit - récupération de listes” :

  • [1] - eddddd a écrit le 24 mai 2008 :

    ma-gni-fi-que !
    Merci !

  • [2] - Perte a écrit le 28 juin 2008 :

    Vrai­ment trip­pant.. Merci pour la décou­verte je ne connais­sais pas du tout Outwit.

  • [3] - flyingfish a écrit le 21 avril 2009 :

    Bon­soir,

    Je viens de décou­vrir Out­wit.
    Je m’intéresse jus­te­ment à la récu­pé­ra­tions de listes à par­tir de sites bour­siers.
    Votre test tombe à pic. Il met en appé­tit !
    Eton­nant que cet outil semble res­ter confi­den­tiel.
    Merci pour l’information
    flying.fish




Ajouter un commentaire

Vous pouvez utiliser ces tags dans vos commentaires :<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> , sachant qu'une prévisualisation de votre commentaire est disponible en bas de page après le captcha.

Captcha

Pour valider votre commentaire, veuillez saisir les lettres ci-dessus et cliquer sur le bouton Publier le commentaire ci-dessus.




Derniers posts

Derniers commentaires

“Sur les TV Samsung et LG, comme je l'explique, le procédé pour rendre HbbTV opérable est assez alambiqué et il faut en effet être courageux pour y arriver. A ma connaissance, le signal HbbTv est diffusé en TNT s...”
“C'est bien joli le HBBtv mais moi je ne le vois marcher nullepart. Ca marche partout en france ? Ma télé est compatible et le service activé, j'ai des amis qui ont des télés compatibles, et ça ne marche pas... R...”
“Enfin j'ai compris ce qu'est un #framework! Merci et Big RT "Les français de la TV connectée : Joshfire" de @olivez sur...”
“Comme c'est le cas de beaucoup de startups, il doit bien y avoir une combinaison de CIR/JEI, de stagiaires et de fondateurs qui se payent peu ou pas. Sachant que s'ils sont aujourd'hui 17, ils devaient être la moitié i...”


Abonnement email

Pour recevoir par email les alertes de parution de nouveaux articles :


 


Téléchargements gratuits

Ces documents sont diffusés gratuitement (sous Creative Commons) et en PDF.

Le Guide des Startups, mis à jour environ deux fois par an :

image

Le Rapport du Consummer Electronic Show de Las Vegas, publié chaque année en janvier depuis 2006 :

CouvertureRapportCES

Les clivages de la présidentielle 2012 sur le numérique :

CouvertureClivagesNumeriques

Voir aussi la liste complète des publications de ce blog.

Catégories

Tags


Evénements

image

Les articles sur toutes les éditions de LeWeb depuis 2006.

Voyages

Voici les compte-rendu de divers voyages d'études où j'ai notamment pu découvrir les écosystèmes d'innovation dans le numérique de ces différents pays :

Chine (2010) à Shanghai et Beijing
Israël (2010) à Tel Aviv
Japon (2009) à Tokyo
Japon (2011) au CEATEC de Tokyo