Moissonner le web avec Outwit

Publié le 24 mai 2008 et mis à jour le 1 août 2008 - 4 commentaires -
PDF Afficher une version imprimable de cet article

Le web, ses sites et les moteurs de recherche ont une par­ti­cu­la­rité : ils pré­sentent des tonnes d’information, mais en géné­ral, fai­ble­ment structurées.

La couche de pré­sen­ta­tion “web/HTML” détruit la struc­ture ori­gi­nelle des infor­ma­tions, très sou­vent sto­ckées dans des bases de don­nées. Il en résulte des silos de don­nées dis­pa­rates dif­fi­ciles à exploi­ter. Pour­tant, des tré­sors d’informations sont dis­po­nibles qui pour­raient être mieux exploi­tées : don­nées finan­cières, listes diverses, com­pa­rai­sons de prix, listes d’objets à vendre, etc.

image

Cela fait des années que les cher­cheurs et spé­cia­listes des stan­dards du web cherchent une réponse. Elle s’appelle le plus sou­vent “web séman­tique”, voire “web ser­vices”. Le “web séman­tique” consiste à publier les don­nées sur le web avec des infor­ma­tions sur leur struc­ture, leur sens, per­met­tant une exploi­ta­tion intel­li­gente par les logi­ciels. Il s’appuie notam­ment sur le stan­dard W3C “RDF” qui per­met de spé­ci­fier la struc­ture des don­nées et leur séman­tique (tel champ est un nom, tel autre est une adresse, etc). Le seul hic, c’est que ce stan­dard n’est pas adopté et que le web reste un bazar tou­jours fai­ble­ment struc­turé au niveau des don­nées publiées.

Les “ser­vices web” per­met­tant quant à eux d’interroger les sites à par­tir de logi­ciels, comme si on inter­ro­geait une base de don­nées (pour faire simple), ne se sont pas plus géné­ra­li­sés. Les moteurs de recherche comme Google Search fonc­tionnent de leur côté en uti­li­sant des bat­te­ries de sta­tis­tiques, et pas du tout par sémantique.

Résul­tat, le web séman­tique est pour l’instant dans les limbes. Il est à peine uti­lisé au sein des entre­prises et très rare­ment sur Inter­net. Les logi­ciels en sont réduits à devi­ner la struc­ture des infor­ma­tions publiées pour les exploi­ter. On pour­rait appe­ler cela le “web séman­tique implicite”.

C’est pour cela qu’il existe plein d’outils sou­vent en Sha­re­ware pour aller grap­piller des infor­ma­tions struc­tu­rées sur les sites web. On appelle cela des “scra­per”, ou bien des outils de télé­char­ge­ment pour ce qui est des images. Mais il est dif­fi­cile de trou­ver des outils de ce genre qui soient à la fois faciles d’emploi, flexibles et extensibles.

Répondre à ce besoin est la mis­sion d’Outwit. Avec l’idée de faci­li­ter la récu­pé­ra­tion d’informations struc­tu­rées de sites web qui… la déstructurent !

L’équipe

OutWit Logo

Je connais Jean-Christophe Com­baz depuis deux ans. Diplômé de la Har­vard Busi­ness School, c’est un entre­pre­neur en herbe au long par­cours. Il a créé Cal­li­scope en 1987 et l’a dirigé en France et en Cali­for­nie. Il a créé ensuite la filiale euro­péenne de l’éditeur de logi­ciels de concep­tion 3D Ray Dream, puis a démarré le por­tail AdFo­rum dédié au mar­ché de la publi­cité, dont il a conçu le site.

C’est un véri­table vision­naire et un pas­sionné du web séman­tique. Il a plein d’idées sur les ser­vices qu’il pour­rait rendre, et de manière très prag­ma­tique. Il avait déve­loppé dès 2006 un pro­to­type d’outil per­met­tant de récu­pé­rer des don­nées sur les sites web, et qui ne tour­nait que sur Macintosh.

Après une grosse année de pré­pa­ra­tion, il a lancé son entre­prise, Out­wit Tech­no­lo­gies, et trouvé des busi­ness angels pour finan­cer l’aventure et divers conseils tels qu’Etienne Krie­ger (CEO de Navi­dis) et votre ser­vi­teur. De la est sorti une pre­mière bêta d’Outwit, créée avec trois déve­lop­peurs, et qui est main­te­nant téléchargeable.

Le pro­duit

Le “Out­wit Hub” est une exten­sion Fire­fox com­pa­tible avec la ver­sion 3.X du navi­ga­teur (depuis fin juillet 2008). C’est en fait une appli­ca­tion à part entière qui intègre le navi­ga­teur de Fire­fox et se lance à par­tir de Firefox.

Out­wit Hub est télé­char­geable en bêta 1 ici. Son mode d’emploi rapide est ici. Le pro­duit étant encore en déve­lop­pe­ment, son aide en ligne est succincte.

Le prin­cipe d’utilisation d’Outwit Hub s’articule en trois phases :

  • On ouvre une page web et on sélec­tionne les éléments à récu­pé­rer dans le haut de la fenêtre (images, listes, emails, tableaux, RSS).
  • On envoie la sélec­tion dans le “catch”, en mode manuel ou auto­ma­tique, c’est une liste en bas de la fenêtre d’Outwit Hub. Le catch va accu­mu­ler les éléments récu­pé­rés jusqu’à ce qu’on efface ce qu’il contient. Le mode manuel consiste à appuyer sur le bou­ton “Catch” et le mode auto­ma­tique, à sélec­tion­ner la case “Catch selec­tion” en bas à droite. Il s’appliquera aux pages web sui­vantes obte­nues soit avec une nou­velle URL, soit avec les bou­tons de dépla­ce­ment (flèches droites simples ou doubles).
  • La sau­ve­garde des éléments récu­pé­rés sur le disque, en mode manuel ou auto­ma­tique (option­nelle pour les images). Pour des images, c’est leur récu­pé­ra­tion dans un réper­toire. Pour des listes et tableaux, c’est la sau­ve­garde dans un fichier Excel ou la copie dans le presse-papier après leur sélection.

image

Le logi­ciel est plein de res­sources mais il est encore un peu tôt pour les décrire en détail car il faut déjà s’approprier les fonc­tions de base.

En gros, Out­wit Hub sera scrip­table et on pourra créer des “scra­pers” per­son­na­li­sés de sites divers. Et l’ensemble fonc­tion­nera dans un mode com­mu­nau­taire. Le site web d’Outwit jouera ainsi un rôle fédé­ra­teur des uti­li­sa­teurs et contri­bu­teurs d’Outwit.

De plus, on pourra déve­lop­per des “Out­fits”, des appli­ca­tions spé­ci­fiques créées avec le moteur d’Outwit qui est au coeur du Hub. Le modèle écono­mique repo­sera sur leur déve­lop­pe­ment et leur dis­tri­bu­tion, ainsi que sur un finan­ce­ment du site com­mu­nau­taire d’Outwit par la publi­cité. Tout est à construire.

Tout ceci consti­tue le plan à exé­cu­ter pour les mois à venir !

Les uti­li­sa­teurs

Qui pourra uti­li­ser Outwit ?

Pour ce qui est de la récu­pé­ra­tion d’images, c’est un peu tout le monde.

Pour ce qui est de listes, cela concer­nera les “cher­cheurs d’informations struc­tu­rées” avec notam­ment : les ensei­gnants et les étudiants, les métiers du mar­ke­ting, de la com­mu­ni­ca­tion, de la veille tech­no­lo­gie, les écono­mistes et les inves­tis­seurs financiers.

Et ce, à l’échelle mon­diale. Ce qui explique pour­quoi le logi­ciel est actuel­le­ment déve­loppé avec une inter­face uti­li­sa­teur en anglais.

L’objectif de Jean-Christophe Com­baz est de créer ou per­mettre la créa­tion par des tiers d’applications à par­tir du noyau de l’Outwit Hub. A terme, Out­wit Hub sera plu­tôt des­ti­nés à des uti­li­sa­teurs avan­cés du web.

Com­ment le découvrir ?

Je vous pro­pose de décou­vrir le Out­wit Hub grâce à deux petits tuto­riaux “faits main”  illus­trés dans les deux posts sui­vants. L’un pour récu­pé­rer des listes, comme celle des 2000 plus grandes entre­prises mon­diales du clas­se­ment Forbes 2000. Et l’autre, pour récu­pé­rer des images sur Google Image. Il s’agit de tuto­riaux sur des fonc­tions basiques du logi­ciel car celui-ci per­met de réa­li­ser des choses bien plus sophis­ti­quées… qu’il reste à documenter !

image

Ensuite, vous pour­rez faites quelques tests vous-mêmes et uti­li­ser le menu “Feed­back” d’Outwit pour faire sug­ges­tion et repor­ter les bugs et dys­fonc­tion­ne­ments que vous iden­ti­fie­rez. Et en étant indul­gent : ce n’est qu’une bêta non finalisée.

Article modi­fié le 1ier août 2008 pour indi­quer qu’Outwit Hub est main­te­nant com­pa­tible avec Fire­fox 3.X.


Social book­mar­king:
  • Wikio FR
  • Technorati
  • Digg
  • StumbleUpon
  • del.icio.us
  • Facebook
  • FriendFeed
  • Suggest to Techmeme via Twitter
  • Twitter

Publié le 24 mai 2008 Post de Olivier Ezratty | Entrepreneuriat, Google, Innovation, Internet, Logiciels | 4 commentaires

Les 4 commentaires sur “Moissonner le web avec Outwit” :

  • Super inté­res­sant.

    Quel est le busi­ness model envisagé ?

  • [2] - Olivier Ezratty a écrit le 15 avril 2009 :

    Plu­sieurs variantes, dont un ser­vice pre­mium pour les entreprises.

  • [3] - Yarbud a écrit le 22 août 2009 :

    Bon­jour,

    Est ce qu’il est pos­sible de trai­ter des infor­ma­tions de récu­pé­ra­tion du web a par­tir de don­nées d’un fichier Excel?

    Eric

  • [4] - Olivier Ezratty a écrit le 22 août 2009 :

    Pas sûr de bien com­prendre la ques­tion.
    On peut géné­rer des fichiers Excel à par­tir des résul­tats obte­nus dans la récu­pé­ra­tion de don­nées sur le web.
    Le lan­guage de scrip­ting pour créer des “scra­pers” ne me semble par contre pas dis­po­ser des moyens de s’alimenter dans une feuille Excel.




Ajouter un commentaire

Vous pouvez utiliser ces tags dans vos commentaires :<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> , sachant qu'une prévisualisation de votre commentaire est disponible en bas de page après le captcha.

Captcha

Pour valider votre commentaire, veuillez saisir les lettres ci-dessus et cliquer sur le bouton Soumettre votre commentaire.

Derniers posts

Derniers commentaires

“Egalement basée à Rennes, CinéAct (www.cineact.fr), créée en 2005 permet à l’ensemble des professionnels du monde du cinéma (exploitants, distributeurs, producteurs, r...”
“En effet, je vais corriger cela dans une silent release....”
“Merci beaucoup pour cet excellent guide. Pour information, le programme français IDEES de Microsoft n'existe plus et à laisser place au programme "BizSpark One" au niveau mondial. Julien Codorniou est toujours le bon c...”
“Bravo pour cette nouvelle version. A regretter que tu ne puisses faire un guide des start-up high-tech européennes, tant tes conseils seraient adaptés pour une grande part hors de l'hexagone. Mais j'imagine le défi! J...”
“Bonjour, J'ai un doute l'offre est tellement éclatée qu'il est possible que Steve réusisse en fédérant les énergies des autres acteurs... A mon avis l'enjeu c'est encore une fois de trouver le businees model de...”


Téléchargements gratuits

Diffusés gratuitement (sous Creative Commons) et en PDF :

image

CouvertureRapportCES

Voir aussi la liste complète des publications de ce blog.


Catégories