Le magazine au contenu libre | |
|
ARTICLES EN LIBRE DE DROIT :: Informatique :: Les araignées de Search Engine ont perdu sans conseils - signaler ce signe !
Le dossier de robots.txt est une norme d'exclusion exigée par tous les chercheurs Web/robots pour leur dire quels dossiers et annuaires que vous voulez qu'ils restent hors de sur votre emplacement. Non tous les chenilles/bots suivent l'exclusion standard et continueront de ramper votre emplacement de toute façon. J'aime les appeler « mauvais Bots » ou transgresseurs. Nous les bloquons par l'exclusion d'IP qui est une autre histoire entièrement. C'est une vue d'ensemble très simple des fondations de robots.txt pour des webmasters. Pour une leçon complète et complète, visite http://www.robotstxt.org/ Pour voir le format approprié pour un regard quelque peu standard de dossier de robots.txt directement ci-dessous. Ce dossier devrait être à la racine du domaine parce que c'est où les chenilles s'attendent à ce qu'il soit, pas dans un certain annuaire secondaire. Au-dessous de est le format approprié pour un dossier de robots.txt -----> Utilisateur-agent : * Utilisateur-agent : msnbot Utilisateur-agent : Teoma Utilisateur-agent : Slurp Utilisateur-agent : aipbot Utilisateur-agent : BecomeBot Utilisateur-agent : psbot --------> extrémité de dossier de robots.txt Ce dossier minuscule des textes est sauvé comme document plat des textes et TOUJOURS avec le nom « robots.txt » dans la racine de votre domaine. Un examen rapide d'information énumérée à partir du dossier de robots.txt ci-dessus suit. Le « agent d'utilisateur : MSNbot » est de MSN, Slurp est de Yahoo et Teoma est d'AskJeeves. Les autres énumérés sont des « mauvais » bots qui rampent très rapide et à personne avantage mais leurs propres, ainsi nous les demandons de rester dehors entièrement. * l'astérisque est un caractère d'ambiguité qui les moyens « tous les » chenilles/araignées/bots devraient rester hors de ce groupe de dossiers ou d'annuaires énumérés. Les bots donnés l'instruction « rejettent : / » moyens qu'ils devraient rester dehors entièrement et ceux avec « Ramper-retardent : 10 » sont ceux qui ont rampé notre emplacement trop rapidement et causé le pour s'embourber et abuser les ressources de serveur. Google rampe plus lentement que les autres et n'exige pas cette instruction, ainsi n'est pas spécifiquement énuméré dans le dossier ci-dessus de robots.txt. Ramper-retarder l'instruction est seulement nécessaire sur les emplacements très grands avec des centaines ou des milliers de pages. L'astérisque de wildcard * applique à toutes les chenilles, bots et araignées, y compris Googlebot. Ceux nous à condition que « Ramper-retarder : 10 » instruction à étaient demande autant de car 7 pages chaque seconde et ainsi nous les ont demandés de ralentir. Le nombre que vous voyez est des secondes et vous pouvez le changer pour convenir à votre capacité de serveur, basée sur leur taux de rampement. Dix secondes entre les demandes de page est plus insouciante bien et les arrête de demander plus de pages que votre serveur peut bomber vers le haut. (Vous pouvez découvrir comment rapidement les robots et les araignées rampent en regardant vos notations crues de serveur - qui montrent des pages demandées par des périodes précises à dans une centième d'une seconde - disponible de votre centre serveur de Web ou demander votre Web ou LUI personne. Vos notations de serveur peuvent être trouvées dans le répertoire racine si vous avez accès de serveur, vous peuvent habituellement télécharger les dossiers de notation comprimés de serveur par juste de jour de calendrier outre de votre serveur. Vous aurez besoin d'une utilité qui peut augmenter les dossiers comprimés pour ouvrir et lire ces dossiers de notation crus de serveur des textes plats.) Pour voir les teneurs de tout robots.txt classer le type juste robots.txt après tout Domain Name. Si elles ont ce dossier vers le haut, vous verrez qu'il a montré comme dossier des textes dans votre web browser. Cliquer sur le lien ci-dessous pour voir ce dossier pour Amazon.com http://www.Amazon.com/robots.txt Vous pouvez voir le contenu de n'importe quel dossier de robots.txt de site Web qui manière. Est robots.txt montré ci-dessus ce que nous employons actuellement au distributeur de contenu du Web Publish101, juste lancé en mai de 2005. Nous avons fait une étude de cas étendue et avons édité une série d'articles sur le comportement de chenille et l'indexation retarde connu comme Google Sandbox. Que l'étude de cas de Google Sandbox est fortement instructive à beaucoup de niveaux pour des webmasters partout au sujet de l'importance de ceci souvent a ignoré peu de dossier des textes. Une chose que nous n'avons pas compté glaner de la recherche impliquée dans l'indexation retarde (connu comme Google Sandbox) était l'importance des dossiers de robots.txt au rampement rapide et efficace par les araignées des moteurs de recherche principaux et au nombre de rampements lourds des bots qui ne feront aucun bien terrestre au propriétaire d'emplacement, pourtant du rampement la plupart des emplacements intensivement et fortement, tendant des serveurs au point d'arrêt avec des demandes des pages venant aussi rapidement que 7 pages par seconde. Nous avons découvert dans notre lancement du nouvel emplacement que Google et Yahoo ramperont l'emplacement si que vous employez un dossier de robots.txt, mais MSN semble L'EXIGER avant qu'ils commencent à ramper du tout. Tous les robots de Search Engine semblent inviter le dossier de façon régulière pour vérifier qu'il n'a pas changé. Alors quand vous le changez, ils cesseront de ramper pendant de brèves périodes et demanderont à plusieurs reprises ce dossier de robots.txt pendant ce temps sans ramper toutes les pages additionnelles. (Peut-être ils ont eu une liste de pages à visiter qu'inclus l'annuaire ou les dossiers vous leur avez demandés de rester hors de et devez maintenant ajuster leur programme de rampement pour éliminer ces dossiers de leur liste.) La plupart des webmasters demandent aux bots pour rester hors des annuaires de « image » et de l'annuaire de « cgi-casier » aussi bien que tous les annuaires contenant les dossiers privés ou de propriété industrielle destinés seulement aux utilisateurs d'un Intranet ou des sections protégées par mot de passe de votre emplacement. Clairement, vous devriez diriger les bots pour rester hors de tous les secteurs privés que vous ne voulez pas classé par les moteurs de recherche. L'importance de robots.txt est rarement discutée par les webmasters moyens et j'ai même fait me demander certains des webmasters de mes affaires de client ce qu'est il et comment la mettre en application quand je leur dis à quel point elle importante est à la sécurité d'emplacement et au rampement efficace par les moteurs de recherche. Ceci devrait être la connaissance standard par des webmasters aux compagnies substantielles, mais ceci illustre comment peu d'attention est prêtée à l'utilisation de robots.txt. Les araignées de Search Engine vraiment veulent vos conseils et ce dossier minuscule des textes est la meilleure manière de fournir des chenilles et des bots un poteau indicateur clair pour avertir outre des transgresseurs et pour protéger la propriété privée - et pour accueillir chaudement les invités invités, tels que les grands trois moteurs de recherche tout en les demandant bien de rester hors des secteurs privés. © le 17 août 2005 de copyright par Mike Banks Valentine Découvrez d'autres articles : © 2010 Fruitymag
Restez informé grâce à votre email |
























