Tutorial Outwit - récupération de listes

Publié le 24 mai 2008 et mis à jour le 1 août 2008 - 3 commentaires -
PDF Afficher une version imprimable de cet article
   

Après avoir décrit l’objet du logi­ciel Out­wit Hub, pas­sons à un petit tuto­rial qui vous per­met­tra de l’expérimenter pour une appli­ca­tion pra­tique: la récu­pé­ra­tion de listes de sites web. Il vous fau­dra d’abord ins­tal­ler ou dis­po­ser de Fire­fox 3.x de Fire­fox. Ensuite, vous ins­tal­le­rez la bêta d’Outwit Hub. Elle fonc­tionne sur Win­dows, MacOS comme sur Linux.

Je vais uti­li­ser ici un exemple de récu­pé­ra­tion de don­nées struc­tu­rées déjà exploité pour la pré­pa­ra­tion de mes sup­ports de cours sur l’économie de l’innovation : la liste du Forbes 2000 qui regroupe les 2000 plus grandes entre­prises mon­diales. Elle est por­teuse d’une très grande richesse d’informations. Cette liste appa­rait sous forme de tableaux que l’on peut copier col­ler à la main dans Excel. Mais il faut char­ger 20 pages ce qui est bien fastidieux.

Alors, lan­çons Fire­fox puis Out­wit Hub à par­tir de l’icone ins­tal­lée dans la tool­bar de Fire­fox par ce der­nier comme indi­qué ci-dessous.

image

Dans la barre d’URL d’Outwit Hub, col­lez l’URL de Forbes. Faites “Enter” et la page s’affiche comme dans tout navi­ga­teur. Ensuite, cli­quez sur le tab “Data” comme indi­qué ci-dessous.

image

Cela affiche les don­nées tabu­lées de la page HTML. Mais on n’a pas encore un beau tableau. Pour ce faire, cli­quez sur le bou­ton “Guess” comme indi­qué ci-dessous. Cette fonc­tion déclenche la détec­tion auto­ma­tique d’un véri­table tableau de don­nées struc­tu­rées par Outwit.

image

Le résul­tat appa­rait ci-dessous. A par­tir de là, on va sélec­tion­ner toutes les lignes dans la liste, par exemple en cli­quant sur une ligne et en fai­sant “CTRL-A” avec le cla­vier. Et puis, on va la copier dans la zone en bas de la fenêtre qui est le “Catch” en cli­quant sur le bou­ton du même nom. Le catch, c’est ce que l’on a attrapé dans les pages et qui s’accumule au fur et à mesure. Ensuite, on peut récu­pé­rer ce qu’il y a dans le catch de dif­fé­rentes manières selon qu’il s’agit d’images ou de listes.

image

Main­te­nant, nous allons lan­cer le pro­ces­sus qui va auto­ma­ti­que­ment récu­pé­rer la suite du Forbes 2000 dans les 19 pages web sui­vantes. Il faut d’abord sélec­tion­ner la check­box “Catch selec­tion” qui indique que dans toute ouver­ture de page ou sélec­tion de page sui­vante, le contenu iden­ti­fié sera auto­ma­ti­que­ment bas­culé dans le catch. Ensuite, on cli­quera sur la “double flèche droite” (fast for­ward) qui est dans la barre d’outils en haut de Out­wit. Elle déclen­chera l’analyse auto­ma­tique des pages sui­vantes jusqu’à la ving­tième. Si on veut le faire à la main, on peut uti­li­ser le bou­ton “flèche droite” (“Play”) page par page. On peut aussi arrê­ter le scan auto­ma­tique des pages avec ESC ou en cli­quant à nou­veau sur la double flèche.

image

Une fois les 20 pages scan­nées ce qui prend quelques minutes à peine, le catch com­prend bien 2000 entrées. On va main­te­nant le sau­ve­gar­der pour l’exploiter.

image

Pour ce faire, on va dans le menu “File” et on lance “Export selec­tion as…”. Le seul for­mat sup­porté est pour l’instant Excel. C’est en fait un schéma XML sup­porté par Excel, mais je ne sais pas trop lequel. Et il n’est pas lisible dans Ope­nOf­fice 2.4. Un export CSV est en tout cas prévu à terme. Et on peut tout de même copier la sélec­tion du haut ou celle du catch dans le presse papier pour la récu­pé­rer ailleurs (avec le bou­ton droit de la sou­ris et “Copy”).

image

Et on ouvre le fichier sous Excel, ver­sion 2007 US dans l’exemple ci-dessous (ça fonc­tionne peut-être sous Ope­nOf­fice). On élimine ensuite les colonnes inutiles. On peut consta­ter que la colonne “Rank” n’a pas été bien récu­pé­rée mais ce n’est pas grave dans ce cas là. C’est un défaut qui sera traité dans les évolu­tions d’Outwit pour faire en sorte que la détec­tion auto­ma­tique de la struc­ture des tables d’une page ne soit pas refaire à chaque page.

image

Pour exploi­ter les don­nées, il faut les nor­ma­li­ser au for­mat fran­çais : on sélec­tionne les colonnes de chiffres, on uti­lise la fonc­tion de Recherche/Remplacement d’Excel pour rem­pla­cer les “,” (vir­gules) par rien du tout, et ensuite les “.” par “,” et le tour est joué. Là encore, cette trans­for­ma­tion devrait être effec­tuée auto­ma­ti­que­ment par Out­wit Hub après la fin de la bêta en fonc­tion de vos “Regio­nal Settings”.

Et hop, on créé un petit tableau dyna­mique croisé et un camem­ber avec par exemple la répar­ti­tion par pays de la capi­ta­li­sa­tion bour­sière des 2000 plus grandes entre­prises mondiales.

image

Pour l’instant, ce pro­ces­sus auto­ma­tique (Guess) ne fonc­tionne pas encore par­fai­te­ment sur tous les sites. J’ai pu le tes­ter avec suc­cès sur Kelkoo.fr et quelques autres sites comme des sites de recherche d’emploi. Mais entre les quatre fonc­tion­na­li­tés d’extraction de don­nées sous l’onglet “Data” (trois sont auto­ma­tiques: tables, listes et guess, et une est manuelle : scra­pers), il y a en géné­ral tou­jours un moyen de s’en sor­tir. D’autres tuto­riaux sui­vront qui seront publiés sur le site d’Outwit.

A vous de jouer maintenant…

Le tuto­riel sui­vant trai­tera de la récu­pé­ra­tion d’images.

Article mis à jour le 1ier août 2008 pour tenir compte de la com­pa­ti­bi­lité d’Outwit Hub avec Fire­fox. Mais le tuto­riel n’a pas été encore retesté dans cette version.

Publié le 24 mai 2008 et mis à jour le 1 août 2008 Post de | Economie, Entrepreneuriat, Innovation, Internet, Logiciels | 14366 lectures

PDF Afficher une version imprimable de cet article          

Les 3 commentaires et tweets sur “Tutorial Outwit - récupération de listes” :

  • [1] - eddddd a écrit le 24 mai 2008 :

    ma-gni-fi-que !
    Merci !

  • [2] - Perte a écrit le 28 juin 2008 :

    Vrai­ment trip­pant.. Merci pour la décou­verte je ne connais­sais pas du tout Outwit.

  • [3] - flyingfish a écrit le 21 avril 2009 :

    Bon­soir,

    Je viens de décou­vrir Out­wit.
    Je m’intéresse jus­te­ment à la récu­pé­ra­tions de listes à par­tir de sites bour­siers.
    Votre test tombe à pic. Il met en appé­tit !
    Eton­nant que cet outil semble res­ter confi­den­tiel.
    Merci pour l’information
    flying.fish




Ajouter un commentaire

Vous pouvez utiliser ces tags dans vos commentaires :<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> , sachant qu'une prévisualisation de votre commentaire est disponible en bas de page après le captcha.

Captcha

Pour valider votre commentaire, veuillez saisir les lettres ci-dessus et cliquer sur le bouton Publier le commentaire ci-dessus.


14,366 views

Derniers articles

Tout, tout, tout sur la high-tech

Le Rapport du CES 2013 est disponible sous forme de livre, publié aux Editions Kawa dans la collection "Tout, tout" dirigée par Henri Kaufman ! Utilisez le code promo OLIVIER pour bénéficier de 10% de réduction !
image

Quelques Femmes du Numérique

Avec Marie-Anne Magnac, j'ai lancé #QFDN, l'exposition photo des femmes du numérique. Installée depuis le 16 octobre 2012 à l'espace Soleilles Cowork de Paris, elle a aussi été présentée et sera présentée dans différentes manifestations. Et je continue régulièrement à enrichir les 200 portraits initiaux de l'opération !
image

Cocktail Orange France lors de la Conférence LeWeb 2012 le 8 décembre 2012. Conférence annuelle des anciennes de l'ESCP organisée au siège du MEDEF le 17 janvier 2013. Conférence La journée de la femme Digitale organisée par Catherine Barba et Delphine Rémy-Boutang le 8 mars 2013. Conférence Osons la France le 5 avril 2013, à l’Espace Cardin. MipTV au Palais des Festivals de Cannes des 8 au 11 avril 2013. Au Web2Day, organisé à Nantes les 16 et 17 mai 2013. A Futur en Seine, organisé en Ile de France par le pôle de compétitivité Cap Digital, dans le cadre du Village des Innovations au 104 à Paris, du 13 au 16 juin 2013. Dans la conférence USIevents, organisée par la SSII Octo et destinée aux DSI, les 24 et 25 juin 2013 au Palais Brongniard.

Derniers commentaires

“Il parait que les bonnes entreprises innovantes sont toujours sur le fil rouge....”
“Je lis ce guide depuis 2011, c'est LA mine d'or des startuper en herbe, et des plus aguerris ! Un grand merci à Olivier Ezratty et tous les experts qui ont contribué à cette 17 ème édition ! A bientôt, Yanis K....”
“Non, position différente des acteurs. Apple est un "problème" dans le rapport. Un grand américain qu'il faut juguler/réguler et qui pourrait/devrait contribuer au financement de la culture, même si les yeux sont plu...”
“Merci de ces éclarcissements à travers cet article très bien rédigé et qui résume les grandes lignes du rapport Lescure notamment. Oui Michel Nizon, votre constat met en lumière la french -don't- touch !...”
“Blog très didactique de @olivez sur les composants optoélectroniques @BellLabs @Alcatel_Lucent...”


Abonnement email

Pour recevoir par email les alertes de parution de nouveaux articles :


 


Téléchargements gratuits

Ces documents sont diffusés gratuitement (sous Creative Commons) et en PDF. Le Guide des Startups, mis à jour environ deux fois par an :
image

Le Rapport du Consummer Electronic Show de Las Vegas, publié chaque année en janvier depuis 2006 :
CouvertureRapportCES

Les clivages de la présidentielle 2012 sur le numérique :
CouvertureClivagesNumeriques

Voir aussi la liste complète des publications de ce blog.

Catégories

Tags


Evénements

image

Les articles sur toutes les éditions de LeWeb depuis 2006.

Voyages

Voici les compte-rendu de divers voyages d'études où j'ai notamment pu découvrir les écosystèmes d'innovation dans le numérique de ces différents pays : Chine (2010) à Shanghai et Beijing Corée du Sud (2009) à Séoul Israël (2010) à Tel Aviv Japon (2009) à Tokyo Japon (2011) au CEATEC de Tokyo Japon (2012) au CEATEC de Tokyo Silicon Valley (2007) Silicon Valley (2011)