Moissonner le web avec Outwit

Publié le 24 mai 2008 et mis à jour le 1 août 2008 - 4 commentaires -

Afficher une version imprimable de cet article

Le web, ses sites et les moteurs de recherche ont une particularité : ils présentent des tonnes d’information, mais en général, faiblement structurées.

La couche de présentation “web/HTML” détruit la structure originelle des informations, très souvent stockées dans des bases de données. Il en résulte des silos de données disparates difficiles à exploiter. Pourtant, des trésors d’informations sont disponibles qui pourraient être mieux exploitées : données financières, listes diverses, comparaisons de prix, listes d’objets à vendre, etc.

Cela fait des années que les chercheurs et spécialistes des standards du web cherchent une réponse. Elle s’appelle le plus souvent “web sémantique”, voire “web services”. Le “web sémantique” consiste à publier les données sur le web avec des informations sur leur structure, leur sens, permettant une exploitation intelligente par les logiciels. Il s’appuie notamment sur le standard W3C “RDF” qui permet de spécifier la structure des données et leur sémantique (tel champ est un nom, tel autre est une adresse, etc). Le seul hic, c’est que ce standard n’est pas adopté et que le web reste un bazar toujours faiblement structuré au niveau des données publiées.

Les “services web” permettant quant à eux d’interroger les sites à partir de logiciels, comme si on interrogeait une base de données (pour faire simple), ne se sont pas plus généralisés. Les moteurs de recherche comme Google Search fonctionnent de leur côté en utilisant des batteries de statistiques, et pas du tout par sémantique.

Résultat, le web sémantique est pour l’instant dans les limbes. Il est à peine utilisé au sein des entreprises et très rarement sur Internet. Les logiciels en sont réduits à deviner la structure des informations publiées pour les exploiter. On pourrait appeler cela le “web sémantique implicite”.

C’est pour cela qu’il existe plein d’outils souvent en Shareware pour aller grappiller des informations structurées sur les sites web. On appelle cela des “scraper”, ou bien des outils de téléchargement pour ce qui est des images. Mais il est difficile de trouver des outils de ce genre qui soient à la fois faciles d’emploi, flexibles et extensibles.

Répondre à ce besoin est la mission d’Outwit. Avec l’idée de faciliter la récupération d’informations structurées de sites web qui… la déstructurent !

L’équipe

Je connais Jean-Christophe Combaz depuis deux ans. Diplômé de la Harvard Business School, c’est un entrepreneur en herbe au long parcours. Il a créé Calliscope en 1987 et l’a dirigé en France et en Californie. Il a créé ensuite la filiale européenne de l’éditeur de logiciels de conception 3D Ray Dream, puis a démarré le portail AdForum dédié au marché de la publicité, dont il a conçu le site.

C’est un véritable visionnaire et un passionné du web sémantique. Il a plein d’idées sur les services qu’il pourrait rendre, et de manière très pragmatique. Il avait développé dès 2006 un prototype d’outil permettant de récupérer des données sur les sites web, et qui ne tournait que sur Macintosh.

Après une grosse année de préparation, il a lancé son entreprise, Outwit Technologies, et trouvé des business angels pour financer l’aventure et divers conseils tels qu’Etienne Krieger (CEO de Navidis) et votre serviteur. De la est sorti une première bêta d’Outwit, créée avec trois développeurs, et qui est maintenant téléchargeable.

Le produit

Le “Outwit Hub” est une extension Firefox compatible avec la version 3.X du navigateur (depuis fin juillet 2008). C’est en fait une application à part entière qui intègre le navigateur de Firefox et se lance à partir de Firefox.

Outwit Hub est téléchargeable en bêta 1 ici. Son mode d’emploi rapide est ici. Le produit étant encore en développement, son aide en ligne est succincte.

Le principe d’utilisation d’Outwit Hub s’articule en trois phases :

On ouvre une page web et on sélectionne les éléments à récupérer dans le haut de la fenêtre (images, listes, emails, tableaux, RSS).
On envoie la sélection dans le “catch”, en mode manuel ou automatique, c’est une liste en bas de la fenêtre d’Outwit Hub. Le catch va accumuler les éléments récupérés jusqu’à ce qu’on efface ce qu’il contient. Le mode manuel consiste à appuyer sur le bouton “Catch” et le mode automatique, à sélectionner la case “Catch selection” en bas à droite. Il s’appliquera aux pages web suivantes obtenues soit avec une nouvelle URL, soit avec les boutons de déplacement (flèches droites simples ou doubles).
La sauvegarde des éléments récupérés sur le disque, en mode manuel ou automatique (optionnelle pour les images). Pour des images, c’est leur récupération dans un répertoire. Pour des listes et tableaux, c’est la sauvegarde dans un fichier Excel ou la copie dans le presse-papier après leur sélection.

Le logiciel est plein de ressources mais il est encore un peu tôt pour les décrire en détail car il faut déjà s’approprier les fonctions de base.

En gros, Outwit Hub sera scriptable et on pourra créer des “scrapers” personnalisés de sites divers. Et l’ensemble fonctionnera dans un mode communautaire. Le site web d’Outwit jouera ainsi un rôle fédérateur des utilisateurs et contributeurs d’Outwit.

De plus, on pourra développer des “Outfits”, des applications spécifiques créées avec le moteur d’Outwit qui est au coeur du Hub. Le modèle économique reposera sur leur développement et leur distribution, ainsi que sur un financement du site communautaire d’Outwit par la publicité. Tout est à construire.

Tout ceci constitue le plan à exécuter pour les mois à venir !

Les utilisateurs

Qui pourra utiliser Outwit ?

Pour ce qui est de la récupération d’images, c’est un peu tout le monde.

Pour ce qui est de listes, cela concernera les “chercheurs d’informations structurées” avec notamment : les enseignants et les étudiants, les métiers du marketing, de la communication, de la veille technologie, les économistes et les investisseurs financiers.

Et ce, à l’échelle mondiale. Ce qui explique pourquoi le logiciel est actuellement développé avec une interface utilisateur en anglais.

L’objectif de Jean-Christophe Combaz est de créer ou permettre la création par des tiers d’applications à partir du noyau de l’Outwit Hub. A terme, Outwit Hub sera plutôt destinés à des utilisateurs avancés du web.

Comment le découvrir ?

Je vous propose de découvrir le Outwit Hub grâce à deux petits tutoriaux “faits main” illustrés dans les deux posts suivants. L’un pour récupérer des listes, comme celle des 2000 plus grandes entreprises mondiales du classement Forbes 2000. Et l’autre, pour récupérer des images sur Google Image. Il s’agit de tutoriaux sur des fonctions basiques du logiciel car celui-ci permet de réaliser des choses bien plus sophistiquées… qu’il reste à documenter !

Ensuite, vous pourrez faites quelques tests vous-mêmes et utiliser le menu “Feedback” d’Outwit pour faire suggestion et reporter les bugs et dysfonctionnements que vous identifierez. Et en étant indulgent : ce n’est qu’une bêta non finalisée.

Article modifié le 1ier août 2008 pour indiquer qu’Outwit Hub est maintenant compatible avec Firefox 3.X.

Publié le 24 mai 2008 et mis à jour le 1 août 2008 Post de Olivier Ezratty | Entrepreneuriat, Google, Innovation, Internet, Logiciels | 20913 lectures

Reçevez par email les alertes de parution de nouveaux articles :

Les 4 commentaires et tweets sur “Moissonner le web avec Outwit” :

[1] - benoitfelten a écrit le 15 avril 2009 :
Super intéressant.

Quel est le business model envisagé ?

Répondre ici
[2] - Olivier Ezratty a écrit le 15 avril 2009 :
Plusieurs variantes, dont un service premium pour les entreprises.

Répondre ici
[3] - Yarbud a écrit le 22 août 2009 :
Bonjour,

Est ce qu’il est possible de traiter des informations de récupération du web a partir de données d’un fichier Excel?

Eric

Répondre ici
[4] - Olivier Ezratty a écrit le 22 août 2009 :
Pas sûr de bien comprendre la question.
On peut générer des fichiers Excel à partir des résultats obtenus dans la récupération de données sur le web.
Le language de scripting pour créer des “scrapers” ne me semble par contre pas disposer des moyens de s’alimenter dans une feuille Excel.

Répondre ici

Ajouter un commentaire

Post précédent | Post suivant

Last posts / derniers articles

Free downloads

Understanding Quantum Technologies 2025, a free 1,522 pages ebook about all quantum technologies (computing, telecommunications, cryptography, sensing):

Understanding Quantum Technologies 2025 Key takeaways, a 38 pages version with key takeaways from the eponymous book.

The Two-Spin Enigma: From the Helium Atom to Quantum Ontology, a quantum foundations paper coauthored with Philippe Grangier, Alexia Auffèves, Nayla Farouki and Mathias Van den Bossche (paper backstory).

Voir aussi la liste complète des publications de ce blog.

Derniers commentaires

Olivier Ezratty

sur How to compare logical qubits? :

“You're right. It was bivariate bicycle...”

JakeMuff

sur How to compare logical qubits? :

“Hi, thanks for this very useful work! In Table 1 you mention "bc" for IBM and IQM but it is not abbreviated. Is this meant to be bb = bivariate bicycle? or what is bc...”

Allocodepromo.fr

sur Actualités quantiques de décembre 2025 :

“Superbe synthèse. L'état magique fonctionne sur Willow et les chiffres énergétiques d'Alice & Bob sont vraiment remarquables. Pensez-vous que 2026 pourrait enfin voir l'arrivée d'un ordinateur quantique...”

Olivier Ezratty

sur Actualités quantiques de novembre 2025 :

“Je découvre ce classement, un de plus. Je me demande bien comment Glasgow arrive si haut dans le classement. Comme en physique quantique, il doit y avoir un biais de mesure dans l'affaire. Je note aussi que les auteurs...”

Parme

sur Actualités quantiques de novembre 2025 :

“Bonjour Olivier, je viens de temps en temps me ressourcer sur le quantique en venant sur ton blog. Or, ce matin je suis tombé sur une étude anglaise qui présente les 45 plus importants cluster dans le monde, les...”

Abonnement email

Pour recevoir par email les alertes de parution de nouveaux articles :

Derniers albums photos

Depuis juillet 2014, mes photos sont maintenant intégrées dans ce site sous la forme d'albums consultables dans le plugin "Photo-Folders". Voici les derniers albums publiés ou mis à jour. Cliquez sur les vignettes pour accéder aux albums.

QFDN

Expo

791 photos

Remise Légion d'Honneur Philippe Herbert Jul2021

2021

15 photos

Vivatech Jun2021

2021

120 photos

Visite C2N Palaiseau Mar2021

2021

17 photos

Annonce Stratégie Quantique C2N Jan2021

2021

137 photos

Maison Bergès Jul2020

2020

54 photos

Grenoble Jul2020

2020

22 photos

Avec Marie-Anne Magnac, j'ai lancé #QFDN, l'initiative de valorisation de femmes du numérique par la photo. Elle circule dans différentes manifestations. J'ai réalisé entre 2011 et mi 2023 plus de 800 portraits photographiques de femmes du numérique avec une représentation de tous les métiers du numérique.

Les photos et les bios de ces femmes du numérique sont présentées au complet sur le site QFDN ! Vous pouvez aussi visualiser les derniers portraits publiés sur mon propre site photo. Et ci-dessous, les 16 derniers par date de prise de vue, les vignettes étant cliquables.

Gaëlle Rannou

Gaëlle est étudiante à 42 Paris et tutrice de l’équipe pédagogique (en 2021).

Jehanne Dussert

Jehanne est étudiante à l'école 42, membre d'AI For Tomorrow et d'Open Law, le Droit ouvert. Elle est aussi fondatrice de "Comprendre l'endométriose", un chatbot informant sur cette maladie qui touche une personne menstruée sur 10, disponible sur Messenger. #entrepreneuse #juridique #santé

Chloé Hermary

Chloé est fondatrice d'Ada Tech School, une école d'informatique alternative et inclusive dont la mission est de former une nouvelle génération de talents diversifié à avoir un impact sur le monde. #entrepreneuse #formation

Anna Minguzzi

Anna est Directrice de Recherche au CNRS au Laboratoire de Physique et Modélisation des Milieux Condensés (LPMMC) à Grenoble. #quantique

Maeliza Seymour

Maeliza est CEO et co-fondatrice de CodistAI, qui permet de créer une documentation du code informatique par une IA.

Candice Thomas

Candice est ingénieure-chercheuse au CEA-Leti, travaillant sur l’intégration 3D de bits quantiques au sein du projet Quantum Silicon Grenoble. #recherche #quantique

Stéphanie Robinet

Stéphanie dirige un laboratoire de conception intégrée de circuits électroniques du CEA-Leti qui travaille sur des systèmes sur puces intégrés, des interfaces de capteurs, des interfaces de contrôle de qubits et de la gestion intégrée de l'énergie. #recherche #quantique

Sabine Keravel

Sabine est responsable du business development pour l’informatique quantique chez Atos. #quantique #IT

Céline Castadot

Céline est HPC, AI and Quantum strategic project manager chez Atos.

Léa Bresque

Léa est doctorante, en thèse à l'institut Néel du CNRS en thermodynamique quantique, sous la direction d'Alexia Auffèves (en 2021). #quantique #recherche

Emeline Parizel

Emeline est chef de projet web et facilitatrice graphique chez Klee Group, co-fondatrice TEDxMontrouge, gribouilleuse à ses heures perdues, joue dans une troupe de comédie musicale, co-animatrice de meetups et est sensible à l’art et à la culture. #création

Elvira Shishenina

Elvira est Quantum Computing lead chez BMW ainsi que présidente de QuantX, l'association des polytechniciens du quantique. #quantique

Marie-Noëlle Semeria

Marie-Noëlle est Chief Technology Officer pour le Groupe Total après avoir dirigé le CEA-Leti à Grenoble. #recherche

Gwendolyn Garan

Gwendolyn est travailleuse indépendante, Game UX Designer, Game UX Researcher (GUR) et 2D Artist pour le jeu vidéo, étudiante en Master 2 Sciences du Jeu, speaker et Formatrice sur l'autisme et la neurodiversité, l'accessibilité et les systèmes de représentation dans les jeux vidéo. #création #jeuvidéo

Alexandra Ferreol

Alexandra est étudiante d'un bachelor Game Design à L'Institut Supérieur des Arts Appliqués (année scolaire 2019/2020) #création #jeuvidéo

Ann-elfig Turpin

Ann-elfig est étudiante en deuxième année à Lisaa Paris Jeux Vidéos (Technical artist, 3D artiste), année scolaire 2019/2020. #création #jeuvidéo