Votre mag au contenu libre de droit |
|
ARTICLES EN LIBRE DE DROIT :: Informatique :: Comment les moteurs de recherche trouvent des documents Comment les moteurs de recherche trouvent des documentsChaque document sur le Web est associé à un URL (localisateur de ressources uniformes). Contexte d'Inthis, nous emploierons les termes « document » et « URL » l'un pour l'autre. C'est une simplification exagérée, en tant que quelques documents de retour d'URLs différents à l'utilisateur selon des facteurs tels que leur endroit, type de navigateur, entrée etc. de forme, mais costumes ce terminologiques nos buts pour maintenant. Trouver chaque document sur le Web signifierait plus que trouvant chaque URL sur le Web. Pour cette raison, les moteurs de recherche n'essayent pas actuellement de localiser chaque document unique possible, bien que la recherche soit toujours en cours dans ce secteur. Au lieu de cela, les moteurs de recherche de rampement concentrent leur attention sur URLs unique ; bien que quelques emplacements dynamiques puissent montrer le contenu différent au même URL (par l'intermédiaire des entrées de forme ou d'autres variables dynamiques), les moteurs de recherche verront cet URL en tant que d'une seule page. Le Search Engine de rampement typique emploie trois ressources principales pour établir une liste d'URLs pour ramper. Non tous les moteurs de recherche emploient toute la ces derniers : Hyperliens de · sur les pages Web existantes La partie de l'URLs a trouvé dans les bases de données de la plupart des moteurs de recherche de rampement se compose des liens trouvés sur des pages Web que l'araignée a déjà rampé. La conclusion d'un lien à un document à une page implique que quelqu'un a trouvé ce lien assez important pour l'ajouter à leur page. Le · a soumis URLs Tous moteurs de recherche de rampement ont une certaine sorte de processus qui permet à des utilisateurs ou à des propriétaires de site Web de soumettre URLs à ramper. Dans le passé, tous les moteurs de recherche ont offert un processus manuel libre de soumission, mais maintenant, beaucoup acceptent seulement des soumissions payées. Google est une exception notable, sans des plans apparents pour cesser d'accepter des soumissions libres, bien qu'il y ait grand doute de savoir si la soumission fait réellement n'importe quoi. Alimentations de données du · XML Programmes payés d'inclusion, tels que Yahoo! Situer le système de match, inclure les programmes de confiance d'alimentation qui permettent à des emplacements de soumettre les résumés contents XML-basés pour le rampement et l'inclusion. Pendant que le Web sémantique commence à émerger, et plus d'emplacements commencent à offrir des dossiers d'alimentation de nouvelles de RSS (résumé d'emplacement de RDF), quelques moteurs de recherche ont commencé à indiquer ces dossiers afin de trouver le contenu frais. Les moteurs de recherche exécutent des programmes multiples de chenille, et chaque programme de chenille (ou araignée) reçoit des instructions du programmateur au sujet duquel URL (ou ensemble d'URLs) de chercher après. Nous verrons comment les moteurs de recherche contrôlent le processus de établissement du programme sous peu, mais d'abord, jetons un coup d'oeil à la façon dont le programme de la chenille du Search Engine fonctionne. Le (24/03/2007) Découvrez d'autres articles : © 2009 Fruitymag
Restez informé grâce à votre email |
























