|
Avez-vous déjà entendu parler de "Data Scraping? Grattage de données est le processus de collecte de données utiles qui ont été placés dans le domaine public de l'Internet (espaces privés trop si les conditions sont remplies) et le stocker dans des bases de données ou des tableurs en vue d'une utilisation ultérieure dans diverses applications. La technologie Data Scraping n'est pas nouvelle et beaucoup d'affaires prospère a fait fortune en profitant des données de grattage de la technologie. Parfois, les propriétaires de sites mai ne tire pas beaucoup de plaisir de la récolte automatisée de leurs données. Webmasters ont appris à refuser grattoirs web l'accès à leurs sites Web en utilisant des outils ou des méthodes qui bloquent certaines adresses IP à partir de l'extraction du contenu site Internet. Grattoirs de données sont laissées au choix de cibler une ou l'autre d'un site Web différent, ou pour déplacer le script de la récolte d'un ordinateur à l'aide d'une adresse IP différente à chaque fois et d'extraire autant de données que possible tant que tous les ordinateurs de la raclette sont ensuite bloquées. Heureusement, il existe une solution moderne à ce problème. Proxy technologie Data Scraping résout le problème en utilisant un proxy adresses IP. Chaque fois que vos données sur le programme de grattage exécute une extraction à partir d'un site internet, le site pense, elle provient d'une adresse IP différente. Pour le propriétaire du site, proxy données grattage ressemble simplement à une courte période d'augmentation du trafic provenant des quatre coins du monde. Ils ont des moyens très limités et fastidieux de bloquer un tel scénario, mais plus important encore - la plupart du temps, ils ne pourront tout simplement ne savent pas qu'ils sont grattées. Vous mai maintenant vous demander: «Où puis-je obtenir les données indirectes Grattage de la technologie pour mon projet?" Le "do-it-yourself" solution est, plutôt, malheureusement, pas simple du tout. Mettre en place un réseau de données indirectes de grattage prend beaucoup de temps et exige que vous possédez soit un groupe d'adresses IP et des serveurs apte à être utilisé comme proxy, sans parler de l'IT Guru vous avez besoin pour tout configuré correctement. Vous pourriez envisager de louer des serveurs proxy à partir de sélectionner les fournisseurs d'hébergement, mais cette option a tendance à être plutôt chers, mais sans doute mieux que l'alternative: dangereux et peu fiables (mais libre) des serveurs proxy public. Il ya littéralement des milliers de serveurs proxy libre situés autour du globe qui sont assez simples à utiliser. L'astuce est cependant de les trouver. De nombreux sites centaines liste des serveurs, mais trouver un qui est au travail, ouvertes, et charge le type de protocoles dont vous avez besoin peut être une leçon de persévérance, d'essai et d'erreur. Toutefois, si vous ne réussissez à découvrir un groupe de travail proxies publics, il existe encore des dangers inhérents à leur utilisation. Tout d'abord, vous ne savez pas à qui appartient le serveur ou quelles activités sont en cours ailleurs sur le serveur. Envoi de demandes de nature délicate ou de données par un serveur mandataire public est une mauvaise idée. Il est assez facile pour un serveur proxy pour capturer toutes les informations que vous envoyez par elle ou qu'elle renvoie à vous. Si vous choisissez le mode proxy public, assurez-vous de ne jamais envoyer de transaction par le biais qui pourrait compromettre vous-même ou quelqu'un d'autre dans le cas de personnes peu recommandables sont mis au courant de ces données. Un scénario moins risquée pour le raclage de données indirectes est de louer une connexion proxy que les cycles de rotation grâce à un grand nombre d'adresses IP privées. Il existe plusieurs de ces sociétés qui prétendent disponibles pour supprimer tout le trafic web logs qui vous permet de récolter anonymement sur le Web avec une menace minime de représailles. Des sociétés telles que proposent http://www.Anonymizer.com solutions à grande échelle proxy anonyme, mais portent souvent une taxe assez lourdes de configuration vous allez-y. L'autre avantage est que les entreprises qui possèdent de tels réseaux peuvent souvent vous aider à concevoir et mettre en œuvre un ensemble de données proxy personnalisé raclage programme au lieu d'essayer de travailler avec un robot de raclage génériques. Après avoir effectué une simple recherche google, j'ai rapidement trouvé une entreprise (www.ScrapeGoat.com) qui fournit l'accès anonyme serveur proxy pour les données de grattage fins. Ou, selon leur site, si vous voulez vous rendre la vie encore plus facile, ScrapeGoat peut extraire les données pour vous et de le livrer dans une variété de formats différents souvent avant que vous pouvez même configurer votre arrivée au large de la conservation des données de grattage programme. Quelle que soit la voie que vous choisissez pour vos données indirectes de raclage des besoins, ne laissez pas quelques trucs simples vous déjouer d'accéder à toutes les informations stockées sur le merveilleux monde du web de large! |



















