Je ne l'ai personnellement pas fait mais je ne vois pas pourquoi pas. Il existe de multiples façons de faire du web scraping, certaines méthodes étant plus coûteuses et d'autres nécessitant plus de travail manuel pour les accomplir. Voici mes suggestions:
- Coder un scraper web vous-même.
Ceci n'est probablement viable que pour les personnes ayant une grande expérience du codage, surtout si votre tâche nécessite le scraping de grandes quantités de données à partir de nombreuses pages de destination. Coder un scraper web vous demandera de gérer tous les défis qui viennent avec le web scraping - principalement chaque site web qui essaie de bloquer toute activité automatisée sur leur site web. Cela dit, ce n'est pas trop difficile, mais vous devrez y consacrer du temps. Pour ce faire, vous pouvez vous tourner vers Selenium et beautifulSoup. Et vous pouvez trouver beaucoup d'aide sur Stackoverflow. (Je recommande de faire cela dans le langage de programmation Python) Il y a également un tas de tutoriels pour faire cela sur youtube. - Utiliser l'un des nombreux services premium dans ce domaine.
Cela enlève la charge de faire toutes les choses vous-même, mais nécessitera un investissement d'argent. Ces services fournissent un outil de grattage web robuste qui gérera le changement de serveur proxy et d'autres fonctions d'anti-détection, ainsi que (cela s'applique à certains services, mais pas à tous) un gestionnaire de compte dédié qui peut généralement aider à résoudre tout problème que vous pourriez avoir avec le service ou la collecte de données. Pour cette méthode, vous pouvez vérifier oxylabs rtc, octoparse et d'autres outils similaires. - Troisième option - les racleurs web visuels. Ces web scrapers se présentent généralement sous la forme d'une extension de navigateur. Vous le configurez pour n'importe quel site web spécifique et il vous donne généralement les données collectées au format csv que vous pouvez copier où vous voulez. C'est la méthode la moins chère et la moins exigeante en termes de compétences, mais c'est aussi la méthode de collecte de données la moins automatisée (à part le copier-coller manuel). Pour ce type de scraper web, vous pouvez vous tourner vers dataminer et d'autres extensions de navigateur similaires.