|
La séduction des robots et araignées Que croyez-vous quand vous pensez de la séduction réussie? En ce moment je pense aux milliers de minuscules araignées rampant sur l'écran de mon ordinateur. Non, je ne suis pas malade mental - Je parle de rendre votre site séduction, ou plutôt attrayant pour webspiders et les bots nets. Web-araignées, fourmis et des chenilles ne sont là que quelques-uns des noms pour les scripts automatiques qui naviguez sur Internet d'une manière méthodologique. Ils font la récolte des données pour différents types de traitement. Ils peuvent être utilisés en interne - un site web mai employer un bot nets pour vérifier les liens brisés, ou ils peuvent être utilisés par les moteurs de recherche indexent nouveaux sites web et mis à jour. Pour quelques exemples de ces webcrawlers s'il vous plaît avoir un parcourir la sélection de Wikipédia; http://en.wikipedia.org/wiki/Web_crawler # Examples_of_web_crawlers Pourquoi devrais-je séduire une araignée? Ne pensais jamais écrire ça. Crawlers sont bons pour votre site car ils ont laissé les moteurs de recherche que vous trouvez. Sans eux, votre site sera très difficile à trouver. Les avantages de webcrawlers:
Comment séduire une araignée? Araignées comme Googlebot (s'il vous plaît voir la façon dont Google explore mon site pour plus de détails) à indexer votre site et ils vous trouver si vous avez:
(* Par «légitime» que je voulais dire sites Web os foi, qui ne sont pas connectés à votre propre site. Il ne serait pas avantageux pour vous de créer le site Web d'une page de lien de retour à partir de, par exemple.) Toutefois, vous ne voulez pas un robot d'exploration d'indexer toutes les informations de votre site Web. Ce serait une perte de temps pour avoir votre / répertoire de l'image affichée sur Google, par exemple, vous devez donc rejeter les robots d'exploration d'accéder à ce contenu. Mai aussi vous voulez protéger vos adresses e-mail de robots malins (S'il vous plaît voir 'ce que tous les robots d'exploration sans danger? "Ci-dessous). Un fichier robot.txt est un document simple, mais puissant, que chaque site doit conserver dans son répertoire racine. Ce fichier est votre "pet dans l'ascenseur», elle est petite, mais très puissant en vigueur. Avec elle, vous mai arrêter une récolte de chenilles certaines pages ou répertoires même en entier en utilisant la commande -- Disallow: Un robot.txt mini tutoriel: 1. Démarrer un nouveau document Bloc-notes et nommez-le robot.txt 2. Adresse du webcrawlers comme ceci: User-agent: * Le 'User-Agent' indique que vous vous adressez à un Webcrawler. Si vous placez un astérisque dans la façon dont je l'ai fait ici vous adresse à chaque Webcrawler ce qui se passe sur votre site Web. Si vous souhaitez aborder robots d'exploration individuelle, vous devez dresser la liste par nom comme ceci: User-agent: Googlebot Mais vous devez dresser la liste des pages non reconnues ou des répertoires pour chaque chenilles individuellement. Par exemple: User-agent: * Disallow: / user-list/email / Disallow: / products / images / Disallow: / articles / Collaborateurs / Tous les fichiers et dossiers figurant dans ces répertoires seront bloqués et ne seront pas indexées. Gardez à l'esprit que vous devez dresser la liste des répertoires relativement à la position du fichier robots.txt, ou le robot.txt ne sera pas référence à la bonne information. Le robot.txt ne peut se référer à des documents dans des répertoires au-dessus, par exemple; [http://www.yoururl.co.uk/index/robot.txt] Le robot.txt ne peut se référer à tout ce qui est supérieur à 'index / répertoire', en d'autres termes, il ne fera pas référence à du matériel ci-dessus lui-même. 3. Vous mai également vouloir interdire certains fichiers, vous pouvez le faire comme ceci: Disallow: / articles / jubjub.html Disallow: / index / error_page.html Sont tous des robots d'exploration sans danger? Non, certains peuvent et vont vous mordre. Il existe de nombreuses webcrawlers mai et ils visitent votre site Web pour des raisons autres que l'indexation. Vous devriez essayer de protéger certaines informations en interdisant les robots d'exploration que je vous ai montré dans le tutoriel ci-dessus. Malignant Crawlers Ils peuvent être (à mon grand contrariée) utilisé pour du spam. Crawlers malin regarder à travers votre site Internet en vue de saisir toutes les adresses e-mails et autres données utiles y sont exposés. Si ils font ce que vous pouvez attendre une boîte de réception pleine de Spam. J'ai découvert 20 e-mails à partir d'un un site de rencontre pour adultes japonais dans mes troupeaux de mots aujourd'hui boîte de réception. Je n'étais pas un lapin heureux. Toutefois, vous pouvez éviter ce (j'étais tout petit peu trop tard) si vous encodez les adresses faisant différemment donc plus difficile pour ces robots de mal à vous piéger. Si vous utilisez (Cascading Style Sheets. Css):
postmaster: after ( Si cela ne vous aide pas, ou que vous n'utilisez pas les feuilles de style en cascade, s'il vous plaît jeter un oeil à travers cet article utile par Daniel Cody, http://evolt.org/article/Using_Apache_to_stop_bad_robots/18/15126/ J'espère que cet article a été utile, si vous avez des questions, des commentaires ou des critiques amicales s'il vous plaît n'hésitez pas à me contacter au herdsofwords.co.uk. |



















