Tutorial Outwit – récupération de listes

Publié le 24 mai 2008 et mis à jour le 1 août 2008 - 3 commentaires -
PDF Afficher une version imprimable de cet article
  

Après avoir décrit l’objet du logiciel Outwit Hub, passons à un petit tutorial qui vous permettra de l’expérimenter pour une application pratique: la récupération de listes de sites web. Il vous faudra d’abord installer ou disposer de Firefox 3.x de Firefox. Ensuite, vous installerez la bêta d’Outwit Hub. Elle fonctionne sur Windows, MacOS comme sur Linux.

Je vais utiliser ici un exemple de récupération de données structurées déjà exploité pour la préparation de mes supports de cours sur l’économie de l’innovation : la liste du Forbes 2000 qui regroupe les 2000 plus grandes entreprises mondiales. Elle est porteuse d’une très grande richesse d’informations. Cette liste apparait sous forme de tableaux que l’on peut copier coller à la main dans Excel. Mais il faut charger 20 pages ce qui est bien fastidieux.

Alors, lançons Firefox puis Outwit Hub à partir de l’icone installée dans la toolbar de Firefox par ce dernier comme indiqué ci-dessous.

image

Dans la barre d’URL d’Outwit Hub, collez l’URL de Forbes. Faites “Enter” et la page s’affiche comme dans tout navigateur. Ensuite, cliquez sur le tab “Data” comme indiqué ci-dessous.

image

Cela affiche les données tabulées de la page HTML. Mais on n’a pas encore un beau tableau. Pour ce faire, cliquez sur le bouton “Guess” comme indiqué ci-dessous. Cette fonction déclenche la détection automatique d’un véritable tableau de données structurées par Outwit.

image

Le résultat apparait ci-dessous. A partir de là, on va sélectionner toutes les lignes dans la liste, par exemple en cliquant sur une ligne et en faisant “CTRL-A” avec le clavier. Et puis, on va la copier dans la zone en bas de la fenêtre qui est le “Catch” en cliquant sur le bouton du même nom. Le catch, c’est ce que l’on a attrapé dans les pages et qui s’accumule au fur et à mesure. Ensuite, on peut récupérer ce qu’il y a dans le catch de différentes manières selon qu’il s’agit d’images ou de listes.

image

Maintenant, nous allons lancer le processus qui va automatiquement récupérer la suite du Forbes 2000 dans les 19 pages web suivantes. Il faut d’abord sélectionner la checkbox “Catch selection” qui indique que dans toute ouverture de page ou sélection de page suivante, le contenu identifié sera automatiquement basculé dans le catch. Ensuite, on cliquera sur la “double flèche droite” (fast forward) qui est dans la barre d’outils en haut de Outwit. Elle déclenchera l’analyse automatique des pages suivantes jusqu’à la vingtième. Si on veut le faire à la main, on peut utiliser le bouton “flèche droite” (“Play”) page par page. On peut aussi arrêter le scan automatique des pages avec ESC ou en cliquant à nouveau sur la double flèche.

image

Une fois les 20 pages scannées ce qui prend quelques minutes à peine, le catch comprend bien 2000 entrées. On va maintenant le sauvegarder pour l’exploiter.

image

Pour ce faire, on va dans le menu “File” et on lance “Export selection as…“. Le seul format supporté est pour l’instant Excel. C’est en fait un schéma XML supporté par Excel, mais je ne sais pas trop lequel. Et il n’est pas lisible dans OpenOffice 2.4. Un export CSV est en tout cas prévu à terme. Et on peut tout de même copier la sélection du haut ou celle du catch dans le presse papier pour la récupérer ailleurs (avec le bouton droit de la souris et “Copy“).

image

Et on ouvre le fichier sous Excel, version 2007 US dans l’exemple ci-dessous (ça fonctionne peut-être sous OpenOffice). On élimine ensuite les colonnes inutiles. On peut constater que la colonne “Rank” n’a pas été bien récupérée mais ce n’est pas grave dans ce cas là. C’est un défaut qui sera traité dans les évolutions d’Outwit pour faire en sorte que la détection automatique de la structure des tables d’une page ne soit pas refaire à chaque page.

image

Pour exploiter les données, il faut les normaliser au format français : on sélectionne les colonnes de chiffres, on utilise la fonction de Recherche/Remplacement d’Excel pour remplacer les “,” (virgules) par rien du tout, et ensuite les “.” par “,” et le tour est joué. Là encore, cette transformation devrait être effectuée automatiquement par Outwit Hub après la fin de la bêta en fonction de vos “Regional Settings”.

Et hop, on créé un petit tableau dynamique croisé et un camember avec par exemple la répartition par pays de la capitalisation boursière des 2000 plus grandes entreprises mondiales.

image

Pour l’instant, ce processus automatique (Guess) ne fonctionne pas encore parfaitement sur tous les sites. J’ai pu le tester avec succès sur Kelkoo.fr et quelques autres sites comme des sites de recherche d’emploi. Mais entre les quatre fonctionnalités d’extraction de données sous l’onglet “Data” (trois sont automatiques: tables, listes et guess, et une est manuelle : scrapers), il y a en général toujours un moyen de s’en sortir. D’autres tutoriaux suivront qui seront publiés sur le site d’Outwit.

A vous de jouer maintenant…

Le tutoriel suivant traitera de la récupération d’images.

Article mis à jour le 1ier août 2008 pour tenir compte de la compatibilité d’Outwit Hub avec Firefox. Mais le tutoriel n’a pas été encore retesté dans cette version.

RRR

 
S
S
S
S
S
S
S
img
img
img

Publié le 24 mai 2008 et mis à jour le 1 août 2008 Post de | Economie, Entrepreneuriat, Innovation, Internet, Logiciels | 27486 lectures

PDF Afficher une version imprimable de cet article     

Reçevez par email les alertes de parution de nouveaux articles :


 

RRR

 
S
S
S
S
S
S
S
img
img
img

Les 3 commentaires et tweets sur “Tutorial Outwit – récupération de listes” :




Ajouter un commentaire

Vous pouvez utiliser ces tags dans vos commentaires :<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong> , sachant qu'une prévisualisation de votre commentaire est disponible en bas de page après le captcha.

Last posts / derniers articles

Free downloads

Understanding Quantum Technologies 2024, a free 1,542 pages ebook about all quantum technologies (computing, telecommunications, cryptography, sensing):

image

Free downloads

Understanding Quantum Technologies 2024 Short version, a 26 pages with key takeaways from the eponymous book.

image

Voir aussi la liste complète des publications de ce blog.

Derniers commentaires

“Bravo Olivier! Quel boulot tu m’épates totalement et je t’adresse mes plus sincères félicitations! Je ne suis pas sûr de tout lire car je suis maintenant 100% dans l’art et la poésie et mon seul rapport à la...”
“[…] to Olivier Ezratty, author of Understanding quantum technologies 2023, the challenge for Europe is to position itself outside of where the US and China are likely end up...”
“Désolé, je suis passé à l'anglais en 2021 sans revenir au français. Traduire un tel ouvrage (1366) pages d'une langue à l'autre est un travail herculéen, même avec des outils de traduction automatique. Sachant...”
“Je suis un artiste conceptuel, certes je garde la grande majorité de mon travail dans ma tête par défaut d'un grand mécène. Mon travail de base se situe sur le "mimétisme" qui mène aux itérations et de nombreux...”
“Better than a Harry Potter! Thanks Olivier...”

Abonnement email

Pour recevoir par email les alertes de parution de nouveaux articles :


 

RRR

 
S
S
S
S
S
S
S
img
img
img

Derniers albums photos

Depuis juillet 2014, mes photos sont maintenant intégrées dans ce site sous la forme d'albums consultables dans le plugin "Photo-Folders". Voici les derniers albums publiés ou mis à jour. Cliquez sur les vignettes pour accéder aux albums.
albth
QFDN
Expo
791 photos
albth
Remise Légion d'Honneur Philippe Herbert Jul2021
2021
15 photos
albth
Vivatech Jun2021
2021
120 photos
albth
Visite C2N Palaiseau Mar2021
2021
17 photos
albth
Annonce Stratégie Quantique C2N Jan2021
2021
137 photos
albth
Maison Bergès Jul2020
2020
54 photos
albth
Grenoble Jul2020
2020
22 photos

image

Avec Marie-Anne Magnac, j'ai lancé #QFDN, l'initiative de valorisation de femmes du numérique par la photo. Elle circule dans différentes manifestations. J'ai réalisé entre 2011 et mi 2023 plus de 800 portraits photographiques de femmes du numérique avec une représentation de tous les métiers du numérique.

Les photos et les bios de ces femmes du numérique sont présentées au complet sur le site QFDN ! Vous pouvez aussi visualiser les derniers portraits publiés sur mon propre site photo. Et ci-dessous, les 16 derniers par date de prise de vue, les vignettes étant cliquables.
flow
Gaëlle Rannou
Gaëlle est étudiante à 42 Paris et tutrice de l’équipe pédagogique (en 2021).
flow
Jehanne Dussert
Jehanne est étudiante à l'école 42, membre d'AI For Tomorrow et d'Open Law, le Droit ouvert. Elle est aussi fondatrice de "Comprendre l'endométriose", un chatbot informant sur cette maladie qui touche une personne menstruée sur 10, disponible sur Messenger. #entrepreneuse #juridique #santé
flow
Chloé Hermary
Chloé est fondatrice d'Ada Tech School, une école d'informatique alternative et inclusive dont la mission est de former une nouvelle génération de talents diversifié à avoir un impact sur le monde. #entrepreneuse #formation
flow
Anna Minguzzi
Anna est Directrice de Recherche au CNRS au Laboratoire de Physique et Modélisation des Milieux Condensés (LPMMC) à Grenoble. #quantique
flow
Maeliza Seymour
Maeliza est CEO et co-fondatrice de CodistAI, qui permet de créer une documentation du code informatique par une IA.
flow
Candice Thomas
Candice est ingénieure-chercheuse au CEA-Leti, travaillant sur l’intégration 3D de bits quantiques au sein du projet Quantum Silicon Grenoble. #recherche #quantique
flow
Stéphanie Robinet
Stéphanie dirige un laboratoire de conception intégrée de circuits électroniques du CEA-Leti qui travaille sur des systèmes sur puces intégrés, des interfaces de capteurs, des interfaces de contrôle de qubits et de la gestion intégrée de l'énergie. #recherche #quantique
flow
Sabine Keravel
Sabine est responsable du business development pour l’informatique quantique chez Atos. #quantique #IT
flow
Céline Castadot
Céline est HPC, AI and Quantum strategic project manager chez Atos.
flow
Léa Bresque
Léa est doctorante, en thèse à l'institut Néel du CNRS en thermodynamique quantique, sous la direction d'Alexia Auffèves (en 2021). #quantique #recherche
flow
Emeline Parizel
Emeline est chef de projet web et facilitatrice graphique chez Klee Group, co-fondatrice TEDxMontrouge, gribouilleuse à ses heures perdues, joue dans une troupe de comédie musicale, co-animatrice de meetups et est sensible à l’art et à la culture. #création
flow
Elvira Shishenina
Elvira est Quantum Computing lead chez BMW ainsi que présidente de QuantX, l'association des polytechniciens du quantique. #quantique
flow
Marie-Noëlle Semeria
Marie-Noëlle est Chief Technology Officer pour le Groupe Total après avoir dirigé le CEA-Leti à Grenoble. #recherche
flow
Gwendolyn Garan
Gwendolyn est travailleuse indépendante, Game UX Designer, Game UX Researcher (GUR) et 2D Artist pour le jeu vidéo, étudiante en Master 2 Sciences du Jeu, speaker et Formatrice sur l'autisme et la neurodiversité, l'accessibilité et les systèmes de représentation dans les jeux vidéo. #création #jeuvidéo
flow
Alexandra Ferreol
Alexandra est étudiante d'un bachelor Game Design à L'Institut Supérieur des Arts Appliqués (année scolaire 2019/2020) #création #jeuvidéo
flow
Ann-elfig Turpin
Ann-elfig est étudiante en deuxième année à Lisaa Paris Jeux Vidéos (Technical artist, 3D artiste), année scolaire 2019/2020. #création #jeuvidéo