Normalement, Craigslist utilise des reCAPTCHAs pour arrêter les demandes automatisées à leur plate-forme, cela arrête les tentatives abusives pour apporter des dommages à une échelle décente.
Considérant que votre intention n'est pas de nuire à d'autres personnes, mais de collecter des données publiques qui sont disponibles dans Craigslist, ci-dessous je mentionne quelques recommandations. Veuillez noter que je ne promeus aucun des services ou outils que je mentionne ici, vous devriez faire des recherches sur Quora ou Google pour les services afin d'avoir une vue plus large.
Recommandations sur la façon de vous lancer :
- Exécuter votre logiciel de scraping automatisé avec les dernières versions du navigateur Chrome headless. Avec Chrome headless et selenium, votre scraper deviendrait plus amical envers les serveurs de Craigslist, donc il réduirait beaucoup le pourcentage de frapper un CAPTCHA.
- Faites usage des proxies résidentiels. Oui, dans les cas de reCAPTCHA, faire des demandes via d'autres types de proxies ne fonctionne pas vraiment dans la plupart des cas. Un proxy résidentiel utilisé avec un navigateur sans tête vous donne une meilleure possibilité de contourner les blocages.
- Si vous essayez de collecter des données disponibles publiquement et que vous n'avez pas d'expérience en la matière, il est recommandé de donner le travail à des services qui fait la protection du web scraping pour vous comme par exemple ProxyCrawl.
En conséquence, faites usage des navigateurs et des réseaux résidentiels, avec cette combinaison vous êtes susceptible de contourner les reCAPTCHAs, si cela devient compliqué, faites appel à un fournisseur de service de scraping pour la protection web.