Google Bot : Comment fonctionnent les spiders de Google ?
L’indexation est une étape essentielle pour permettre à votre site d’apparaître dans les résultats de recherche de Google.
Pour indexer les sites, le moteur de réponses utilise les spiders (aussi appelés robots, , bots, agents ou crawlers). Dans cet article, notre agence de référencement SEO Tactee a étudié le fonctionnement des spiders de Google, leur relation avec l’expérience utilisateur et le budget de crawl (offert par Google) .
Quel est le rôle des spiders de Google ?
Le rôle principal des spiders de Google ou du Googlebot est de crawler. Autrement dit, ils parcourent toutes les pages sur internet et les indexent dans le moteur de recherche de la firme de Mountain View.
Pour cela, les spiders effectuent une visite de vos pages web, puis chargent les contenus sur une base de données. Le texte de vos pages est décomposé en mots et ces derniers seront placés dans l’index de Google.
Voici une liste illustrant les principaux rôles des spiders de Google :
- Parcourir les pages d’un site web en se déplaçant d’URL en URL.
- Déterminer le nombre de pages liées à un site web.
- Créer un répertoire de tous les domaines, liens, mises à jour, liens morts à indexer.
- Mettre à jour régulièrement l’index de Google.
L’index de Google désigne le répertoire de Google composé de milliards de sites web mis à disposition des utilisateurs. Concernant le rôle de Googlebot, il est important de stipuler qu’il ne joue pas directement un rôle d’indexation, mais ne fait que parcourir les divers contenus (domaine, site web, article, page, liens, etc.) à indexer.
L’User-Agent de Google privilégie l’expérience utilisateur
Les spiders de Google agissent comme de vrais internautes afin d’optimiser l’expérience utilisateur de Google lors des requêtes. En effet, l’User-Agent détermine une fréquence du crawl selon divers critères liés au site comme la popularité ou le choix technique.
Ainsi, les spiders vont tester le site pour ne pas compromettre l’expérience utilisateur. Par conséquent, la fréquence du crawl sera plus élevée pour les pages dont les contenus sont régulièrement mis à jour que pour les pages statiques. Par exemple, un site d’actualité comme Agro-media est crawlé puis indexé plusieurs fois en une journée.
Afin de permettre aux utilisateurs de trouver des sites répondant à leurs requêtes, Google doit ainsi augmenter la fréquence du crawl pour les sites pertinents. Toutefois, la popularité n’est pas le seul critère pris en compte pour déterminer la fréquence du crawl. Le paramètre est également lié à :
- La connexion serveur : un site qui répond vite augmentera sa fréquence du crawl et inversement.
- La limite du crawl appliquée par les webmasters : une limite peut être imposée par les webmasters.
Comprendre le budget de crawl de Google
Le budget crawl de Google est étroitement lié à la fréquence du crawl de votre site. En effet, il correspond au nombre de pages limites que les spiders de Google vont parcourir sur votre site web. Cette limite va être fixée en fonction de plusieurs critères, et plus ces derniers seront optimisés plus votre budget de crawl de Google sera important.
Les différents critères à optimiser sont :
- Le temps de réponse de vos serveurs : il vous faut ainsi choisir un bon hébergeur et optimiser le code source de votre site.
- La profondeur des pages : évitez de mettre des pages trop profondes, car cela va augmenter le temps de traitement des spiders de Google.
- Le maillage interne de votre site : liez les différentes pages de votre site de façon logique pour que les spiders et les utilisateurs les comprennent facilement.
- Les mises à jour au sein de votre site : il est important de mettre à jour régulièrement les contenus au sein de votre site pour profiter d’un budget plus important.