Définition du mot Scraping
Le scraping définit de façon générale une technique permettant d’extraire du contenu (des informations) d’un ou de plusieurs sites web de manière totalement automatique. Ce sont des scripts, des programmes informatiques, qui sont chargés d’extraire ces informations.
Le scraping, web scraping ou encore harvesting, a plusieurs utilités. Il permet d’abord de réutiliser des contenus présents sur un site web pour l’afficher sur un autre site web, et ainsi multiplier sans effort le nombre de pages disposant d’un même contenu, via un script ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte Cette technique, assimilée à du pillage ou pompage de contenu, participe à un meilleur référencement d’un site web, sauf lorsqu’elle est détectée par les algorithmes des moteurs de recherche (qui la sanctionnent sévèrement). Le scraping peut également être utilisé comme un outil de surveillance des concurrents (on récupère automatiquement les tarifs pratiqués par un site de commerce en ligne concurrent et l’on détecte leurs variations) ou comme outil de veille concurrentielle.
L’objectif du web Scraping est de transformer les données récupérées afin de les utiliser :
1. Soit dans un autre contexte, par exemple, pour faire une intégration rapide entre deux applications.
2. Soit pour stocker ces données en base pour qu’elles soient analysées.
3. Aussi, récupérer et analyser ces informations peut vous permettre de :
 Mieux positionner le contenu de votre offre ou de vos produits .
 Etudier le positionnement d’un prix.
 Analyser le réseau de distribution de la concurrence …
Un projet de Web Scraping concerne souvent le marketing, en particulier pour ceux qui s’occupent de la veille (c’est même de l’intelligence économique : produire des connaissances servant un but économique à partir de sources ouvertes).
Est-ce que c’est legal ?
Question importante… En fait, il n’y a pas de réponse simple.
Cela dépend du pays d’origine, des conditions générales du site et même de la nature des informations collectées. Bon, Google utilise ces techniques intensément pour son moteur de recherche ou bien les Actualités. Par ailleurs, dans ce document, nous ne parlons que de données publiques.
Toujours est-il que cette question est délicate et qu’il vaut mieux le faire avec discrétion : adopter un rythme de mise à jour pas trop élevé, ne pas utiliser d’IP associée à la société qui récolte ces informations, voire diversifier les IP et enfin accéder à des fichiers directement (qui ne sont pas ou peu monitorés par les outils d’analyse des sites web).
Dans un cadre entreprise, qui est-elle bien sûr propriétaire de ses données, cette technologie permet de réduire significativement le temps et le coût des intégrations d’applications d’entreprise. Bien que ce type d’intégration ait été dans le passé dénigré pour son manque de fiabilité et de performance, il existe aujourd’hui sur le marché des outils professionnels qui permettent ces intégrations dans le respect des contraintes de sécurité et de gouvernance imposées par les grandes entreprises.

 

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Vous devez remplir ce champ
Vous devez remplir ce champ
Veuillez saisir une adresse de messagerie valide.

Menu