Le web scraping désigne l’extraction, la capture, la récolte de données sur des sites web. L’idée est que ces données collectées soient organisées et catégorisées pour répondre à un besoin d’information. On peut les utiliser ainsi, selon son profil, pour un besoin d’étude, de benchmark, d’analyse de marché, de génération de lead ou pour des usages personnels.

La plupart des outils sur le marché qui permettent de faire du web scraping nécessite à minima des compétences en code, la capacité de configurer le scraper pour qu’il réponde au cas d’usage personnel et de fait souvent, de mettre un billet. Souvent, le web scrapper sera vu comme un outil automatisant ce que vous auriez fait à la main sur un gros volume de page, faisant gagner du temps à son utilisateur.

Spider propose d’aller sur un autre axe du web scraping : faciliter l’accès à l’extraction de donnée en simplifiant son usage sur du de la sélection à la main qui ne nécessite aucune configuration mais avec de la semi-automatisation.

L’outil de web scraping se présente comme une extension Chrome qui génère une fenêtre en bas de page. Dans cette partie d’écran, chaque colonne représente un type d’élément que l’on souhaite récupérer. Il suffit de cliquer sur un élément pour l’ajouter à une colonne ou, plus intéressant, sélectionner l’ensemble des éléments similaires sur la page. Prenons l’exemple d’un usage personnel. Je souhaite chopper tous les airbnb, hôtel, chambres d’hôtes à New York ou je compte passer mes vacances. Ça me fait souffler fort rien que de me dire que je vais devoir me constituer un spreadsheet avec du copier/coller à foison. Bref, j’ouvre le web scraper Spider, choisi l’option de sélection multiple des éléments et une fois mes critères sélectionnés sur chaque site (disons logement à Brooklyn sur la période d’août, pour 3 personnes avec un budget max quotidien de 150€, etc), récupérer les noms, urls, prix et nombre de chambres en quelques clics.

La possibilité de garder ses colonnes et informations de site en site permet de continuer son scraping de données sur le même projet. Le résultat est disponible en format JSON ou CSV, sans inscription et gratuitement.

Un chouette outil de web scraping aisé à prendre en main qui devrait faire gagner du temps à tout professionnel en recherche et récolte d’informations.

Mise à jour 23/08 : Fort du succès de l’outil de web scraping Spider, le web scraper passe en pro

Utilisé par plus de 6 000 personnes depuis son lancement, Spider bénéficie de l’ajout de plusieurs fonctionnalités qui étaient demandées par les utilisateurs :
– Refonte plus “discrète de l’interface utilisateur ;
– Le scap du contenu paginé en un seul clic ;
– Le scrap du contenu chargé en ajax ;
– Pas d’implication de serveur ;
– Amélioration de la sélection pour de meilleurs résultats ;
– Un sélecteur custom pour les structures atypiques de sites web.

Spider Pro coûte désormais 28$ et est disponible sur Chrome et Firefox.