Tutorial Outwit - récupération de listes

Publié le 24 mai 2008 et mis à jour le 1 août 2008 - 3 commentaires -
PDF Afficher une version imprimable de cet article

Après avoir décrit l’objet du logi­ciel Out­wit Hub, pas­sons à un petit tuto­rial qui vous per­met­tra de l’expérimenter pour une appli­ca­tion pra­tique: la récu­pé­ra­tion de listes de sites web. Il vous fau­dra d’abord ins­tal­ler ou dis­po­ser de Fire­fox 3.x de Fire­fox. Ensuite, vous ins­tal­le­rez la bêta d’Outwit Hub. Elle fonc­tionne sur Win­dows, MacOS comme sur Linux.

Je vais uti­li­ser ici un exemple de récu­pé­ra­tion de don­nées struc­tu­rées déjà exploité pour la pré­pa­ra­tion de mes sup­ports de cours sur l’économie de l’innovation : la liste du Forbes 2000 qui regroupe les 2000 plus grandes entre­prises mon­diales. Elle est por­teuse d’une très grande richesse d’informations. Cette liste appa­rait sous forme de tableaux que l’on peut copier col­ler à la main dans Excel. Mais il faut char­ger 20 pages ce qui est bien fastidieux.

Alors, lan­çons Fire­fox puis Out­wit Hub à par­tir de l’icone ins­tal­lée dans la tool­bar de Fire­fox par ce der­nier comme indi­qué ci-dessous.

image

Dans la barre d’URL d’Outwit Hub, col­lez l’URL de Forbes. Faites “Enter” et la page s’affiche comme dans tout navi­ga­teur. Ensuite, cli­quez sur le tab “Data” comme indi­qué ci-dessous.

image

Cela affiche les don­nées tabu­lées de la page HTML. Mais on n’a pas encore un beau tableau. Pour ce faire, cli­quez sur le bou­ton “Guess” comme indi­qué ci-dessous. Cette fonc­tion déclenche la détec­tion auto­ma­tique d’un véri­table tableau de don­nées struc­tu­rées par Outwit.

image

Le résul­tat appa­rait ci-dessous. A par­tir de là, on va sélec­tion­ner toutes les lignes dans la liste, par exemple en cli­quant sur une ligne et en fai­sant “CTRL-A” avec le cla­vier. Et puis, on va la copier dans la zone en bas de la fenêtre qui est le “Catch” en cli­quant sur le bou­ton du même nom. Le catch, c’est ce que l’on a attrapé dans les pages et qui s’accumule au fur et à mesure. Ensuite, on peut récu­pé­rer ce qu’il y a dans le catch de dif­fé­rentes manières selon qu’il s’agit d’images ou de listes.

image

Main­te­nant, nous allons lan­cer le pro­ces­sus qui va auto­ma­ti­que­ment récu­pé­rer la suite du Forbes 2000 dans les 19 pages web sui­vantes. Il faut d’abord sélec­tion­ner la check­box “Catch selec­tion” qui indique que dans toute ouver­ture de page ou sélec­tion de page sui­vante, le contenu iden­ti­fié sera auto­ma­ti­que­ment bas­culé dans le catch. Ensuite, on cli­quera sur la “double flèche droite” (fast for­ward) qui est dans la barre d’outils en haut de Out­wit. Elle déclen­chera l’analyse auto­ma­tique des pages sui­vantes jusqu’à la ving­tième. Si on veut le faire à la main, on peut uti­li­ser le bou­ton “flèche droite” (“Play”) page par page. On peut aussi arrê­ter le scan auto­ma­tique des pages avec ESC ou en cli­quant à nou­veau sur la double flèche.

image

Une fois les 20 pages scan­nées ce qui prend quelques minutes à peine, le catch com­prend bien 2000 entrées. On va main­te­nant le sau­ve­gar­der pour l’exploiter.

image

Pour ce faire, on va dans le menu “File” et on lance “Export selec­tion as…”. Le seul for­mat sup­porté est pour l’instant Excel. C’est en fait un schéma XML sup­porté par Excel, mais je ne sais pas trop lequel. Et il n’est pas lisible dans Ope­nOf­fice 2.4. Un export CSV est en tout cas prévu à terme. Et on peut tout de même copier la sélec­tion du haut ou celle du catch dans le presse papier pour la récu­pé­rer ailleurs (avec le bou­ton droit de la sou­ris et “Copy”).

image

Et on ouvre le fichier sous Excel, ver­sion 2007 US dans l’exemple ci-dessous (ça fonc­tionne peut-être sous Ope­nOf­fice). On élimine ensuite les colonnes inutiles. On peut consta­ter que la colonne “Rank” n’a pas été bien récu­pé­rée mais ce n’est pas grave dans ce cas là. C’est un défaut qui sera traité dans les évolu­tions d’Outwit pour faire en sorte que la détec­tion auto­ma­tique de la struc­ture des tables d’une page ne soit pas refaire à chaque page.

image

Pour exploi­ter les don­nées, il faut les nor­ma­li­ser au for­mat fran­çais : on sélec­tionne les colonnes de chiffres, on uti­lise la fonc­tion de Recherche/Remplacement d’Excel pour rem­pla­cer les “,” (vir­gules) par rien du tout, et ensuite les “.” par “,” et le tour est joué. Là encore, cette trans­for­ma­tion devrait être effec­tuée auto­ma­ti­que­ment par Out­wit Hub après la fin de la bêta en fonc­tion de vos “Regio­nal Settings”.

Et hop, on créé un petit tableau dyna­mique croisé et un camem­ber avec par exemple la répar­ti­tion par pays de la capi­ta­li­sa­tion bour­sière des 2000 plus grandes entre­prises mondiales.

image

Pour l’instant, ce pro­ces­sus auto­ma­tique (Guess) ne fonc­tionne pas encore par­fai­te­ment sur tous les sites. J’ai pu le tes­ter avec suc­cès sur Kelkoo.fr et quelques autres sites comme des sites de recherche d’emploi. Mais entre les quatre fonc­tion­na­li­tés d’extraction de don­nées sous l’onglet “Data” (trois sont auto­ma­tiques: tables, listes et guess, et une est manuelle : scra­pers), il y a en géné­ral tou­jours un moyen de s’en sor­tir. D’autres tuto­riaux sui­vront qui seront publiés sur le site d’Outwit.

A vous de jouer maintenant…

Le tuto­riel sui­vant trai­tera de la récu­pé­ra­tion d’images.

Article mis à jour le 1ier août 2008 pour tenir compte de la com­pa­ti­bi­lité d’Outwit Hub avec Fire­fox. Mais le tuto­riel n’a pas été encore retesté dans cette version.


Social book­mar­king:
  • Wikio FR
  • Technorati
  • Digg
  • StumbleUpon
  • del.icio.us
  • Facebook
  • FriendFeed
  • Suggest to Techmeme via Twitter
  • Twitter

Publié le 24 mai 2008 Post de Olivier Ezratty | Economie, Entrepreneuriat, Innovation, Internet, Logiciels | 3 commentaires

Les 3 commentaires sur “Tutorial Outwit - récupération de listes” :

  • [1] - eddddd a écrit le 24 mai 2008 :

    ma-gni-fi-que !
    Merci !

  • [2] - Perte a écrit le 28 juin 2008 :

    Vrai­ment trip­pant.. Merci pour la décou­verte je ne connais­sais pas du tout Outwit.

  • Bon­soir,

    Je viens de décou­vrir Out­wit.
    Je m’intéresse jus­te­ment à la récu­pé­ra­tions de listes à par­tir de sites bour­siers.
    Votre test tombe à pic. Il met en appé­tit !
    Eton­nant que cet outil semble res­ter confi­den­tiel.
    Merci pour l’information
    flying.fish




Ajouter un commentaire

Vous pouvez utiliser ces tags dans vos commentaires :<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> , sachant qu'une prévisualisation de votre commentaire est disponible en bas de page après le captcha.

Captcha

Pour valider votre commentaire, veuillez saisir les lettres ci-dessus et cliquer sur le bouton Soumettre votre commentaire.

Derniers posts

Derniers commentaires

“Egalement basée à Rennes, CinéAct (www.cineact.fr), créée en 2005 permet à l’ensemble des professionnels du monde du cinéma (exploitants, distributeurs, producteurs, r...”
“En effet, je vais corriger cela dans une silent release....”
“Merci beaucoup pour cet excellent guide. Pour information, le programme français IDEES de Microsoft n'existe plus et à laisser place au programme "BizSpark One" au niveau mondial. Julien Codorniou est toujours le bon c...”
“Bravo pour cette nouvelle version. A regretter que tu ne puisses faire un guide des start-up high-tech européennes, tant tes conseils seraient adaptés pour une grande part hors de l'hexagone. Mais j'imagine le défi! J...”
“Bonjour, J'ai un doute l'offre est tellement éclatée qu'il est possible que Steve réusisse en fédérant les énergies des autres acteurs... A mon avis l'enjeu c'est encore une fois de trouver le businees model de...”


Téléchargements gratuits

Diffusés gratuitement (sous Creative Commons) et en PDF :

image

CouvertureRapportCES

Voir aussi la liste complète des publications de ce blog.


Catégories