Moissonner le web avec Outwit

Publié le 24 mai 2008 et mis à jour le 1 août 2008 - 4 commentaires -
PDF Afficher une version imprimable de cet article
  

Le web, ses sites et les moteurs de recherche ont une particularité : ils présentent des tonnes d’information, mais en général, faiblement structurées.

La couche de présentation “web/HTML” détruit la structure originelle des informations, très souvent stockées dans des bases de données. Il en résulte des silos de données disparates difficiles à exploiter. Pourtant, des trésors d’informations sont disponibles qui pourraient être mieux exploitées : données financières, listes diverses, comparaisons de prix, listes d’objets à vendre, etc.

image

Cela fait des années que les chercheurs et spécialistes des standards du web cherchent une réponse. Elle s’appelle le plus souvent “web sémantique”, voire “web services”. Le “web sémantique” consiste à publier les données sur le web avec des informations sur leur structure, leur sens, permettant une exploitation intelligente par les logiciels. Il s’appuie notamment sur le standard W3C “RDF” qui permet de spécifier la structure des données et leur sémantique (tel champ est un nom, tel autre est une adresse, etc). Le seul hic, c’est que ce standard n’est pas adopté et que le web reste un bazar toujours faiblement structuré au niveau des données publiées.

Les “services web” permettant quant à eux d’interroger les sites à partir de logiciels, comme si on interrogeait une base de données (pour faire simple), ne se sont pas plus généralisés. Les moteurs de recherche comme Google Search fonctionnent de leur côté en utilisant des batteries de statistiques, et pas du tout par sémantique.

Résultat, le web sémantique est pour l’instant dans les limbes. Il est à peine utilisé au sein des entreprises et très rarement sur Internet. Les logiciels en sont réduits à deviner la structure des informations publiées pour les exploiter. On pourrait appeler cela le “web sémantique implicite”.

C’est pour cela qu’il existe plein d’outils souvent en Shareware pour aller grappiller des informations structurées sur les sites web. On appelle cela des “scraper”, ou bien des outils de téléchargement pour ce qui est des images. Mais il est difficile de trouver des outils de ce genre qui soient à la fois faciles d’emploi, flexibles et extensibles.

Répondre à ce besoin est la mission d’Outwit. Avec l’idée de faciliter la récupération d’informations structurées de sites web qui… la déstructurent !

L’équipe

OutWit Logo

Je connais Jean-Christophe Combaz depuis deux ans. Diplômé de la Harvard Business School, c’est un entrepreneur en herbe au long parcours. Il a créé Calliscope en 1987 et l’a dirigé en France et en Californie. Il a créé ensuite la filiale européenne de l’éditeur de logiciels de conception 3D Ray Dream, puis a démarré le portail AdForum dédié au marché de la publicité, dont il a conçu le site.

C’est un véritable visionnaire et un passionné du web sémantique. Il a plein d’idées sur les services qu’il pourrait rendre, et de manière très pragmatique. Il avait développé dès 2006 un prototype d’outil permettant de récupérer des données sur les sites web, et qui ne tournait que sur Macintosh.

Après une grosse année de préparation, il a lancé son entreprise, Outwit Technologies, et trouvé des business angels pour financer l’aventure et divers conseils tels qu’Etienne Krieger (CEO de Navidis) et votre serviteur. De la est sorti une première bêta d’Outwit, créée avec trois développeurs, et qui est maintenant téléchargeable.

Le produit

Le “Outwit Hub” est une extension Firefox compatible avec la version 3.X du navigateur (depuis fin juillet 2008). C’est en fait une application à part entière qui intègre le navigateur de Firefox et se lance à partir de Firefox.

Outwit Hub est téléchargeable en bêta 1 ici. Son mode d’emploi rapide est ici. Le produit étant encore en développement, son aide en ligne est succincte.

Le principe d’utilisation d’Outwit Hub s’articule en trois phases :

  • On ouvre une page web et on sélectionne les éléments à récupérer dans le haut de la fenêtre (images, listes, emails, tableaux, RSS).
  • On envoie la sélection dans le “catch”, en mode manuel ou automatique, c’est une liste en bas de la fenêtre d’Outwit Hub. Le catch va accumuler les éléments récupérés jusqu’à ce qu’on efface ce qu’il contient. Le mode manuel consiste à appuyer sur le bouton “Catch” et le mode automatique, à sélectionner la case “Catch selection” en bas à droite. Il s’appliquera aux pages web suivantes obtenues soit avec une nouvelle URL, soit avec les boutons de déplacement (flèches droites simples ou doubles).
  • La sauvegarde des éléments récupérés sur le disque, en mode manuel ou automatique (optionnelle pour les images). Pour des images, c’est leur récupération dans un répertoire. Pour des listes et tableaux, c’est la sauvegarde dans un fichier Excel ou la copie dans le presse-papier après leur sélection.

image

Le logiciel est plein de ressources mais il est encore un peu tôt pour les décrire en détail car il faut déjà s’approprier les fonctions de base.

En gros, Outwit Hub sera scriptable et on pourra créer des “scrapers” personnalisés de sites divers. Et l’ensemble fonctionnera dans un mode communautaire. Le site web d’Outwit jouera ainsi un rôle fédérateur des utilisateurs et contributeurs d’Outwit.

De plus, on pourra développer des “Outfits”, des applications spécifiques créées avec le moteur d’Outwit qui est au coeur du Hub. Le modèle économique reposera sur leur développement et leur distribution, ainsi que sur un financement du site communautaire d’Outwit par la publicité. Tout est à construire.

Tout ceci constitue le plan à exécuter pour les mois à venir !

Les utilisateurs

Qui pourra utiliser Outwit ?

Pour ce qui est de la récupération d’images, c’est un peu tout le monde.

Pour ce qui est de listes, cela concernera les “chercheurs d’informations structurées” avec notamment : les enseignants et les étudiants, les métiers du marketing, de la communication, de la veille technologie, les économistes et les investisseurs financiers.

Et ce, à l’échelle mondiale. Ce qui explique pourquoi le logiciel est actuellement développé avec une interface utilisateur en anglais.

L’objectif de Jean-Christophe Combaz est de créer ou permettre la création par des tiers d’applications à partir du noyau de l’Outwit Hub. A terme, Outwit Hub sera plutôt destinés à des utilisateurs avancés du web.

Comment le découvrir ?

Je vous propose de découvrir le Outwit Hub grâce à deux petits tutoriaux “faits main”  illustrés dans les deux posts suivants. L’un pour récupérer des listes, comme celle des 2000 plus grandes entreprises mondiales du classement Forbes 2000. Et l’autre, pour récupérer des images sur Google Image. Il s’agit de tutoriaux sur des fonctions basiques du logiciel car celui-ci permet de réaliser des choses bien plus sophistiquées… qu’il reste à documenter !

image

Ensuite, vous pourrez faites quelques tests vous-mêmes et utiliser le menu “Feedback” d’Outwit pour faire suggestion et reporter les bugs et dysfonctionnements que vous identifierez. Et en étant indulgent : ce n’est qu’une bêta non finalisée.

Article modifié le 1ier août 2008 pour indiquer qu’Outwit Hub est maintenant compatible avec Firefox 3.X.

Publié le 24 mai 2008 et mis à jour le 1 août 2008 Post de | Entrepreneuriat, Google, Innovation, Internet, Logiciels | 16351 lectures

PDF Afficher une version imprimable de cet article     

Reçevez par email les alertes de parution de nouveaux articles :


 

Les 4 commentaires et tweets sur “Moissonner le web avec Outwit” :

  • [1] - benoitfelten a écrit le 15 avril 2009 :

    Super intéressant.

    Quel est le business model envisagé ?

  • [2] - Olivier Ezratty a écrit le 15 avril 2009 :

    Plusieurs variantes, dont un service premium pour les entreprises.

  • [3] - Yarbud a écrit le 22 août 2009 :

    Bonjour,

    Est ce qu’il est possible de traiter des informations de récupération du web a partir de données d’un fichier Excel?

    Eric

  • [4] - Olivier Ezratty a écrit le 22 août 2009 :

    Pas sûr de bien comprendre la question.
    On peut générer des fichiers Excel à partir des résultats obtenus dans la récupération de données sur le web.
    Le language de scripting pour créer des “scrapers” ne me semble par contre pas disposer des moyens de s’alimenter dans une feuille Excel.




Répondre au commentaire suivant de Yarbud publié le 22 août 2009 :

Bonjour, Est ce qu'il est possible de traiter des informations de récupération du web a partir de données d'un fichier Excel? Eric


Vous pouvez utiliser ces tags dans vos commentaires :<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong> , sachant qu'une prévisualisation de votre commentaire est disponible en bas de page après le captcha.

Captcha

Pour valider votre commentaire, veuillez saisir les lettres ci-dessus et cliquer sur le bouton Publier le commentaire ci-dessus.


Derniers articles

Derniers albums photos

Depuis juillet 2014, mes photos sont maintenant intégrées dans ce site sous la forme d'albums consultables dans le plugin "Photo-Folders". Voici les derniers albums publiés ou mis à jour. Cliquez sur les vignettes pour accéder aux albums.
albth
Nouveaux portraits
Expo
558 photos
albth
Expo QFDN Bercy Oct2019
2019
119 photos
albth
Web2day Nantes Jun2019
2019
66 photos
albth
Viva Technology May2019
2019
164 photos
albth
CES 2019 Jan2019
2019
2872 photos
albth
The Robot of the Year Nov2018
2018
35 photos
albth
Journée Innovation Défense Nov2019
2018
30 photos

Téléchargements gratuits

L'ebook Les usages de l'intelligence artificielle, novembre 2019 (624 pages)

CouvertureAvanceesIA

Comprendre l'informatique quantique, un ebook de 504 pages pour tout comprendre sur l'informatique quantique et ses enjeux pour l'entreprise :

image

Le Guide des Startups, mis à jour chaque année au printemps, avec la somme la plus complète et actualisée d'informations pour lancer et faire vivre votre startup :

image

Le Rapport du CES de Las Vegas, publié chaque année en janvier depuis 2006. Vous souhaitez une restitution personnalisée et un point de veille du marché pour votre organisation ? Contactez-moi.

CouvertureRapportCES

Voir aussi la liste complète des publications de ce blog.

image

Avec Marie-Anne Magnac, j'ai lancé #QFDN, l'initiative de valorisation de femmes du numérique par la photo. Installée depuis début octobre 2015 au Hub de Bpirance à Paris, elle circule dans différentes manifestations. L'initiative rassemble plus de 650 femmes du numérique (en juillet 2017) et elle s'enrichi en continu. Tous les métiers du numérique y sont représentés.

Les photos et les bios de ces femmes du numérique sont présentés au complet sur le site QFDN ! Vous pouvez aussi visualiser les derniers portraits publiés sur mon propre site photo. Et ci-dessous, les 16 derniers par date de prise de vue, les vignettes étant cliquables.
flow
Sara Ducci
Sara est Professeure en Physique à l’Université de Paris Diderot. Recherche au Laboratoire Matériaux et Phénomènes Quantiques. Responsable du Master Physique et Applications. Membre du CA de la Société Française de Physique.
flow
Sophie Proust
Sophie est Chief Technology Officer (CTO) d'Atos.
flow
Julie Grollier
Julie est Directrice de recherches au CNRS dans l'Unité Mixte de Physique CNRS/Thales. Physicienne inspirée par le cerveau, passionnée par l’informatique et les neurosciences.
flow
Tiphaine Cerba
Tiphaine est ingénieure en matériaux sur la plateforme épitaxie du III-V lab (Thales/Nokia/CEA).
flow
Hélène Perrin
Hélène est Directrice de recherche au CNRS (LPL, Université Paris 13), membre du comité de pilotage du réseau de recherche francilien SIRTEQ sur les technologies quantiques, professeure d'optique quantique et de calcul quantique à l'École normale supérieure et à l'Université Paris-Diderot. #quantique
flow
Pascale Senellart
Pascale est Directrice de recherche au CNRS, Recherche au Centre de Nanosciences et de Nanotechnologies. Professeure chargée de cours à l’Ecole Polytechnique. Cofondatrice de la startup Quandela qui commercialise des sources de lumière quantique. Chargée de mission de l’Université Paris Saclay pour les Sciences et Technologies Quantiques. #quantique
flow
Tara Mestman
Tara est en classe de première générale (2019/2020) avec spécialités maths, physique-chimie et Langue Littérature Culture Étrangère Anglais. Suit le cursus sur l’intelligence artificielle chez Magic Makers. Egalement intéressée par le développement de l’informatique quantique.
flow
Elham Kashefi
Elham est Directrice de recherche au CNRS LIP6 Université Sorbonne, professeure d'informatique quantique à la School of Informatics University d'Edimbourg, cofondatrice de la startup VeriQloud. #quantique
flow
Paula Forteza
Paula est députée des Français d’Amérique latine et des Caraïbes et rapporteure de la mission sur les technologies quantiques demandée par le Premier ministre. #quantique
flow
Jacqueline Bloch
Jacqueline est Directrice de Recherche au CNRS. Elle y développe ses travaux au Centre de Nanosciences et de Nanotechnologies de l'Université Paris Saclay. Elle est également professeure chargée de cours à l’Ecole Polytechnique. #quantique
flow
Eleni Diamanti
Eleni est Directrice de recherches au CNRS (Sorbonne Université) et spécialiste de la cryptographie quantique. #quantique
flow
Maud Vinet
Maud est responsable du projet d'accélérateur quantique sur silicium au sein du CEA. Bref, derrière une révolution technologique qui comptera à l'échelle mondiale ! #quantique #ExpoBercy2019
flow
Maria Alejandra Zuluaga
Maria est maître de conférences et chercheuse en apprentissage automatique avec des applications en médecine et santé à EURECOM, école d’ingénieurs et centre de recherche en sciences du numérique.
flow
Pascale Caron
Ingénieure avec un MBA, Pascale est CEO de Yunova, conseil en innovation et Associée Beforgo.com, une startup prometteuse du Tourisme.
flow
Josiane Zerubia
Josiane est directrice de recherche à l'Inria au centre de Sophia-Antipolis Méditerranée, spécialiste de la modélisation stochastique en traitement du signal et des images, en particulier pour l'imagerie spatiale.
flow
Christelle Yemdji Tchassi
Christelle est ingénieure développement logiciel châssis chez Renault Software Labs à Sophia Antipolis. #ExpoBercy2019

Derniers commentaires

“Juste pour signaler 2 typos: page 24 : dont 5 en étaient déjà détenteurs au moment de la réunion (noms soulignés en vert) J'en compte 6 soulignés en vert page 28 : - James Chardwick (1991-1974) Je...”
“Très intéressant comme position. Ils semble que vous ayez bien appris les thèse des François Gervais. Je vous conseille de regarder cette vidéo qui analyse la conférence qui vous as instruit, pour avoir au moins...”
“Pour moi ceux qui ne veulent pas comprendre et qui ne se documentent pas restent des imbéciles. Moi aussi j'ai pensé que c'était bizarre avant que je me documente. Car c'est loin de nous et l'Espace ça fait peur et...”
“Un résumé rapide. Tout d'abord, les variations du CO2 suivent celles de la température pas l'inverse. Rien que cela prouve que la théorie soutenue par le GIEC est fausse. Ensuite il y a les prévisions faites...”
“Pouvez vous lister les faits infirmant les positions du GIEC ? Je crois que les positions de cet organisme ont plutôt été en deça de ce qui se passe. Mais je suis prêt à réviser mon jugement sur les faits...”

Abonnement email

Pour recevoir par email les alertes de parution de nouveaux articles :


 

Catégories

Tags


Voyages

Voici les compte-rendu de divers voyages d'études où j'ai notamment pu découvrir les écosystèmes d'innovation dans le numérique de ces différents pays :

Evénements

J'interviens dans de nombreuses conférences, événements, et aussi dans les entreprises. Quelques exemples d'interventions sont évoqués ici. De nombreuses vidéos de mes interventions en conférence sont également disponibles sur YouTube.