Tutorial Outwit – récupération de listes

Publié le 24 mai 2008 et mis à jour le 1 août 2008 - 3 commentaires -
PDF Afficher une version imprimable de cet article

Après avoir décrit l’objet du logiciel Outwit Hub, passons à un petit tutorial qui vous permettra de l’expérimenter pour une application pratique: la récupération de listes de sites web. Il vous faudra d’abord installer ou disposer de Firefox 3.x de Firefox. Ensuite, vous installerez la bêta d’Outwit Hub. Elle fonctionne sur Windows, MacOS comme sur Linux.

Je vais utiliser ici un exemple de récupération de données structurées déjà exploité pour la préparation de mes supports de cours sur l’économie de l’innovation : la liste du Forbes 2000 qui regroupe les 2000 plus grandes entreprises mondiales. Elle est porteuse d’une très grande richesse d’informations. Cette liste apparait sous forme de tableaux que l’on peut copier coller à la main dans Excel. Mais il faut charger 20 pages ce qui est bien fastidieux.

Alors, lançons Firefox puis Outwit Hub à partir de l’icone installée dans la toolbar de Firefox par ce dernier comme indiqué ci-dessous.

image

Dans la barre d’URL d’Outwit Hub, collez l’URL de Forbes. Faites “Enter” et la page s’affiche comme dans tout navigateur. Ensuite, cliquez sur le tab “Data” comme indiqué ci-dessous.

image

Cela affiche les données tabulées de la page HTML. Mais on n’a pas encore un beau tableau. Pour ce faire, cliquez sur le bouton “Guess” comme indiqué ci-dessous. Cette fonction déclenche la détection automatique d’un véritable tableau de données structurées par Outwit.

image

Le résultat apparait ci-dessous. A partir de là, on va sélectionner toutes les lignes dans la liste, par exemple en cliquant sur une ligne et en faisant “CTRL-A” avec le clavier. Et puis, on va la copier dans la zone en bas de la fenêtre qui est le “Catch” en cliquant sur le bouton du même nom. Le catch, c’est ce que l’on a attrapé dans les pages et qui s’accumule au fur et à mesure. Ensuite, on peut récupérer ce qu’il y a dans le catch de différentes manières selon qu’il s’agit d’images ou de listes.

image

Maintenant, nous allons lancer le processus qui va automatiquement récupérer la suite du Forbes 2000 dans les 19 pages web suivantes. Il faut d’abord sélectionner la checkbox “Catch selection” qui indique que dans toute ouverture de page ou sélection de page suivante, le contenu identifié sera automatiquement basculé dans le catch. Ensuite, on cliquera sur la “double flèche droite” (fast forward) qui est dans la barre d’outils en haut de Outwit. Elle déclenchera l’analyse automatique des pages suivantes jusqu’à la vingtième. Si on veut le faire à la main, on peut utiliser le bouton “flèche droite” (“Play”) page par page. On peut aussi arrêter le scan automatique des pages avec ESC ou en cliquant à nouveau sur la double flèche.

image

Une fois les 20 pages scannées ce qui prend quelques minutes à peine, le catch comprend bien 2000 entrées. On va maintenant le sauvegarder pour l’exploiter.

image

Pour ce faire, on va dans le menu “File” et on lance “Export selection as…“. Le seul format supporté est pour l’instant Excel. C’est en fait un schéma XML supporté par Excel, mais je ne sais pas trop lequel. Et il n’est pas lisible dans OpenOffice 2.4. Un export CSV est en tout cas prévu à terme. Et on peut tout de même copier la sélection du haut ou celle du catch dans le presse papier pour la récupérer ailleurs (avec le bouton droit de la souris et “Copy“).

image

Et on ouvre le fichier sous Excel, version 2007 US dans l’exemple ci-dessous (ça fonctionne peut-être sous OpenOffice). On élimine ensuite les colonnes inutiles. On peut constater que la colonne “Rank” n’a pas été bien récupérée mais ce n’est pas grave dans ce cas là. C’est un défaut qui sera traité dans les évolutions d’Outwit pour faire en sorte que la détection automatique de la structure des tables d’une page ne soit pas refaire à chaque page.

image

Pour exploiter les données, il faut les normaliser au format français : on sélectionne les colonnes de chiffres, on utilise la fonction de Recherche/Remplacement d’Excel pour remplacer les “,” (virgules) par rien du tout, et ensuite les “.” par “,” et le tour est joué. Là encore, cette transformation devrait être effectuée automatiquement par Outwit Hub après la fin de la bêta en fonction de vos “Regional Settings”.

Et hop, on créé un petit tableau dynamique croisé et un camember avec par exemple la répartition par pays de la capitalisation boursière des 2000 plus grandes entreprises mondiales.

image

Pour l’instant, ce processus automatique (Guess) ne fonctionne pas encore parfaitement sur tous les sites. J’ai pu le tester avec succès sur Kelkoo.fr et quelques autres sites comme des sites de recherche d’emploi. Mais entre les quatre fonctionnalités d’extraction de données sous l’onglet “Data” (trois sont automatiques: tables, listes et guess, et une est manuelle : scrapers), il y a en général toujours un moyen de s’en sortir. D’autres tutoriaux suivront qui seront publiés sur le site d’Outwit.

A vous de jouer maintenant…

Le tutoriel suivant traitera de la récupération d’images.

Article mis à jour le 1ier août 2008 pour tenir compte de la compatibilité d’Outwit Hub avec Firefox. Mais le tutoriel n’a pas été encore retesté dans cette version.

RRR

 
S
S
S
S
S
S
S
img
img
img

Publié le 24 mai 2008 et mis à jour le 1 août 2008 Post de | Economie, Entrepreneuriat, Innovation, Internet, Logiciels | 22889 lectures

PDF Afficher une version imprimable de cet article          

Reçevez par email les alertes de parution de nouveaux articles :

Les 3 commentaires et tweets sur “Tutorial Outwit – récupération de listes” :




Ajouter un commentaire

Vous pouvez utiliser ces tags dans vos commentaires :<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong> , sachant qu'une prévisualisation de votre commentaire est disponible en bas de page après le captcha.

Captcha

Pour valider votre commentaire, veuillez saisir les lettres ci-dessus et cliquer sur le bouton Publier le commentaire ci-dessus.


Derniers articles

Derniers albums photos

Depuis juillet 2014, mes photos sont maintenant intégrées dans ce site sous la forme d'albums consultables dans le plugin "Photo-Folders". Voici les derniers albums publiés ou mis à jour. Cliquez sur les vignettes pour accéder aux albums.
albth
Nouveaux portraits
Expo
519 photos
albth
The Robot of the Year Nov2018
2018
35 photos
albth
Journée Innovation Défense Nov2019
2018
30 photos
albth
Mondial Auto et CES Unveiled Oct2018
2018
239 photos
albth
France Digitale Day Sept2018
2018
26 photos
albth
Universités d'Eté du MEDEF Aug2018
2018
37 photos
albth
L'Echappée Volée Jul2018
2018
297 photos

Téléchargements gratuits

Le Guide des Startups, mis à jour chaque année au printemps, avec la somme la plus complète et actualisée d'informations pour lancer et faire vivre votre startup :

image

Le Rapport du CES de Las Vegas, publié chaque année en janvier depuis 2006. Vous souhaitez une restitution personnalisée et un point de veille du marché pour votre organisation ? Contactez-moi.

CouvertureRapportCES

L'ebook Les usages de l'intelligence artificielle, octobre 2017 (362 pages)

CouvertureAvanceesIA

Voir aussi la liste complète des publications de ce blog.

image

Avec Marie-Anne Magnac, j'ai lancé #QFDN, l'initiative de valorisation de femmes du numérique par la photo. Installée depuis début octobre 2015 au Hub de Bpirance à Paris, elle circule dans différentes manifestations. L'initiative rassemble plus de 650 femmes du numérique (en juillet 2017) et elle s'enrichi en continu. Tous les métiers du numérique y sont représentés.

Les photos et les bios de ces femmes du numérique sont présentés au complet sur le site QFDN ! Vous pouvez aussi visualiser les derniers portraits publiés sur mon propre site photo. Et ci-dessous, les 16 derniers par date de prise de vue, les vignettes étant cliquables.
flow
Kheira Benmeridja (SETL)
Kheira est Product Owner, responsable du développement d’infrastructures de marché utilisant la technologie blockchain, chez SETL.
flow
Joëlle Toledano
Joëlle est Professeure d’économie (numérique, concurrence, ..), passionnée de politique publique (régulation, fréquences, blockchain, …) et impliquée dans le développement de startups.
flow
Marie-Line Ricard (Sia Partners)
Associée au sein du cabinet Sia Partners, dans le secteur financier autour des problématiques traditionnelles et des évolutions réglementaires et dans les nouvelles technologies telles que la #Blockchain, les ICOs, et plus globalement la token economy.
flow
Francesca Gatti Rodorigo (Awaywegals)
Francesca est développeuse web full-stack, Fondatrice et CEO de awaywegals.com, une plateforme web développée sur blockchain et dédiée aux voyageuses qui sera lancée en 2020.
flow
Ying-Huei Chu (MoneyTrack)
Ying-Huei est Product Owner chez MoneyTrack, une startup dont la solution permet de tracer l'utilisation de fonds avec le blockchain, l'indemnisation d'assurance, le budget de l'état, les bourses scolaires, etc.
flow
Stéphanie Flacher (Maslow Capital Partner)
Stéphanie est Directrice du département Blockchain de Maslow Capital Partner, banque d'affaires indépendante spécialisée dans l'accompagnement des entreprises européennes à forte croissance.
flow
Jeanne Dussueil
Jeanne est journaliste économie et tech, fondatrice du nouveau média GlobalizNow.com et coordinatrice de l’association Fais Ton Réseau.
flow
Liz NDouga (SII)
Liz est consultante et développeuse Blockchain chez SII (Société pour l'informatique industrielle), une entreprise de services numériques basée à Paris, implantée partout en France et à l'international. En parallèle, donne des cours sur la Blockchain à l'école d'ingénieurs ECE Paris.
flow
Elise de Préville
Elise est consultante en Data Privacy et Cyber sécurité chez KPMG.
flow
Aroussia Maadi (Orange)
Aroussia est team Manager chez Orange, en charge d'une équipe de spécialistes en bases de données à la DSI d''Orange. Elle accompagne les applications du SI dans la construction d'architectures de bases de données et assure le maintien en conditions opérationnelles des plateformes. Elle est aussi investie dans la société civile, pour l'empowerment des femmes, en particulier en Afrique.
flow
Amina Maïza
Amina est ingénieure études et développement en Java/JEE chez Vizeo Technologies.
flow
Maud Franca (CDC)
Maud est Directrice Adjointe du Programme des Investissements d’Avenir en charge de l’économie numérique, Banque des Territoires, Groupe Caisse des dépôts (CDC). Membre de la cellule nationale French Tech, mentor et aux boards de startups.
flow
Chloé-Agathe Azencott
Chloé-Agathe est chargée de recherche au Centre de Bioinformatique de MINES ParisTech et de l'Institut Curie. Cofondatrice de la branche parisienne du meetup Women in Machine Learning and Data Science.
flow
Béatrice Moulin et Clara Deletraz (Switch Collective)
Béatrice et Clara sont cofondatrices de la startup Switch Collective.
flow
Laurence Devillers
Laurence est chercheur et Professeur en Intelligence Artificielle à Sorbonne Université/LIMSI-CNRS, équipe de recherche "Dimensions affectives et sociales dans les interactions parlées". Membre du comité de réflexion sur l’éthique du numérique (CERNA) d’Allistène, Auteure de « Des Robots et des Hommes : mythes, fantasmes et réalité », Plon 2017.
flow
Sophie Viger
Sophie est Directrice de la Web@cadémie, de la Coding Academy by Epitech et directrice pédagogique du Samsung Campus.

Derniers commentaires

“Ciao SANS le HDR10+ et les metadatas dynamiques? PAS de Dolby Vision? Xiaomi Mi TV S à 50eur : 4K/60 et Dolby Vision compatible OK j'ai free et j'ai compris...le SON = Devialet, réglez la facture de...”
“Bonjour, votre travail m'a l'air vraiment très complet et je me demande où est-ce que je vais trouver le temps pour vous lire. "Selon le Gartner, l’IA était la première des trois grosses tendances de...”
“Aux dires de mes amis gestionnaires IXP, Free utilise actuellement en déploiement de nouvelles zones FTTH du CG-NAT ( partage de l'adresse IPv4+port -ce qui revient à attribuer à différents clients la même adresse...”
Répondre
Olivier Ezratty
sur Le pari haut de gamme de Free :
“Bonjour, Le processeur du player, le Snapdragon 835 gère la résolution 4K mais pas la 8K, donc c'est cuit de ce côté là. Le port HDMI indiqué esn un 2.1 mais le 835 ne supporte visiblement que le 2.0A. Seul le...”
“Bonjour j’a Une question svp et vu la connaissance que vous avez vous pourrez peut-être répondre à mon interrogation par avance merci.J’ai vu lors de la keynote qu’il y avait un port hdmi version 2.1 de ma...”

Abonnement email

Pour recevoir par email les alertes de parution de nouveaux articles :


 

RRR

 
S
S
S
S
S
S
S
img
img
img

Catégories

Tags


Voyages

Voici les compte-rendu de divers voyages d'études où j'ai notamment pu découvrir les écosystèmes d'innovation dans le numérique de ces différents pays :

Evénements

J'interviens dans de nombreuses conférences, événements, et aussi dans les entreprises. Quelques exemples d'interventions sont évoqués ici. De nombreuses vidéos de mes interventions en conférence sont également disponibles sur YouTube.