Page 404 : Est-ce que Google suit les liens ?

Par  le 01 février 2015 - 7:00 dans

404 error of not found

Existe-il un seul site qui ne présente aucune erreur 404 ? Hum, pas à notre connaissance. Les bonnes pratiques recommandent l’utilisation d’une page d’erreur 404 personnalisée.

Google conseille notamment de créer des pages d’erreur 404 utiles pour inciter les visiteurs à rester sur votre site et les aider à trouver les informations qu’ils recherchent :

404 google

La recommandation officielle de Google concernant les pages 404 personnalisées (source)

La saviez-vous, Google propose même un widget d’amélioration des pages 404 pour ajouter une zone de recherche à votre page 404 personnalisée !

Certains sites redoublent d’imagination pour nous proposer de magnifiques pages 404, quelques beaux exemples sont recensés sur bonjour404.fr ou sur 404notfound.fr. Cela peut-même être l’occasion de dynamiser votre linkbaiting comme le raconte Romain Brasier.

Google crawle plusieurs dizaines de milliards de pages web chaque jour !

Compte-tenu de l’appétit sans fin de GoogleBot, nous pourrions penser que Google va aller crawler les liens présents dans ce type de page.

Par exemple, on sait que Google Webmaster Tools peut parfois remonter des erreurs 404 inattendues dans les erreurs d’exploration. Cela est lié au fait que GoogleBot va tester des liens dans du JavaScript, des fichiers Flash ou dans d’autres contenus intégrés.

Par exemple, pour le cas ci-dessous, Google peut tenter d’explorer l’URL http://www.example.com/télécharger-bonjour, même s’il ne s’agit pas d’une vraie page et qu’elle renverra un 404 :

<a href="bonjour.pdf" onClick="_gaq.push(['_trackPageview','/télécharger-bonjour']);">PDF Bonjour</a>

Liens des pages 404, qu’en dit Google ?

En 2008…

En 2008, les équipes de Google publiaient un billet de blog dans lequel ils indiquaient pouvoir suivre les liens d’une 404 si cela pouvait leur être utile pour mieux comprendre le site :

"Do you index content or follow links from a page with a 404 response code?"

« Do you index content or follow links from a page with a 404 response code? » (source)

En 2015…

Plus récemment (le 18 janvier 2015), John Mueller indiquait sur Twitter que Google ignorait tout ce qu’il trouvait sur une page répondant en 404 ou 410 (Gone) :

john mueller 404

La réponse de John Mueller à la question « Est-ce que les liens des pages 404 ou 410 transmettent du jus ? »

Voilà un bel exemple de communication floue de la part de Google.

Mais qu’en est-il aujourd’hui pour les liens dans une page 404 ?

Pour être fixé, nous avons effectué quelques tests visant à analyser le comportement de Google vis à vis des liens présents dans une page répondant avec un code d’erreur 404.

Attention, il s’agit bien ici d’une page avec un code réponse en « 404 Not Found » renvoyé par le serveur, à ne pas confondre avec une soft 404 ou une 410.

Résultat du 1er test

Pour ce premier test, nous avons créé volontairement une page 404 que nous avons maillée depuis la page d’accueil (à ne pas reproduire à la maison, , ce test est réalisé par des professionnels entraînés !). Cette page 404 présentait un lien texte classique vers une page répondant en 200, nouvellement créé et maillée depuis nulle par ailleurs.

Résultat : Après plusieurs semaines d’attente, Google s’est finalement décidé à crawler et à indexer la page test. John Mueller ne nous dirait pas tout ?

Test de lien vers une page depuis une 404

Test de lien vers une page depuis une 404

Résultat du 2ème test

Pour ne pas tirer de conclusions trop hâtives, nous avons renouvelé l’expérience sur notre blog (oui, on aime prendre des risques !).

Particularité de ce 2ème test, le lien a été fait sur une image.

2nd test pour analyse le comportement de Google face aux liens d'une page 404

Google 404 netlinking

Résultat : Cela a pris du temps (au moins un mois) mais la page maillée s’est finalement retrouvée dans l’index du moteur.

Conclusion : Google suit les liens présents dans une page 404, mais…

Contrairement à ce qu’à pu affirmer récemment John Mueller sur Twitter, Google semble bien suivre les liens que l’on peut retrouver dans les pages 404, même si le délai d’indexation fut très long.

Il est toutefois possible que la popularité transmise soit faible voire nulle et que Google ne se serve de ces contenus que dans une démarche d’identification de nouvelles URLs…

Bien entendu, il est également possible que Google ait indexé ces pages par d’autres biais, c’est pour cela que nous aimerions savoir si vous avez déjà observé la même chose. N’hésitez pas à nous partager votre expérience !

Edit 03/02:

Résultat du 3ème test:

Par acquis de conscience, un 3ème test a été effectué en parallèle: page crée sur WordPress et liée depuis la 404 personnalisée, avec une ancre de lien dont nous seuls avons le secret (quelque chose du genre « zerdifpotremolichan »).

Nous avons constaté via les logs que Google a mis 5 jours avant de crawler la page. Et pour répondre aux questions de certains:

- Aucune commande site:, info:, cache:  ou autre n’a été effectuée

- Page absente du sitemap.xml

- Page qui n’a jamais été ouverte dans un navigateur (surtout pas Chrome // Don’t be evil)

La page liée depuis la 404 via notre ancre tordue « zerdifpotremolichan » est bien indexée, mais elle ne remonte pas sur l’ancre: pas de transfert de sémantique donc via les 404, et donc a priori pas de popularité !

Tweet about this on TwitterShare on LinkedInShare on FacebookEmail this to someone
Partagez cet article!
Ajouter le votre
19 commentaires
Doeurf 01 février 2015 - 9:43 - Répondre

Hello, est-que le test a été fait avec une ancre (chaine de caractère) inexistante dans le moteur?

Vincent Brossas 01 février 2015 - 10:51 - Répondre

Etude intéressante mais êtes vous sûr qu’elle n’était pas référencée dans votre sitemap.xml ? Ne serait-ce pas cette page : http://blog.resoneo.com/erreur-404-2/ par hasard ?
(Source : http://blog.resoneo.com/page-sitemap.xml)

Sébastien Bulté 01 février 2015 - 11:48 - Répondre

C’est probable, les pages sont bien listées dans un sitemap XML. Il faut que nous vérifions si Google va visiter ces fichiers qui ne sont pas spécifiés dans le robots.txt et non déclarés dans GWT.

Vincent Brossas 01 février 2015 - 12:07 - Répondre

Oui cela serait intéressant car le test pourrait avoir été biaisé par le sitemap dans ce cas là…

Olivier de Segonzac 01 février 2015 - 13:55 - Répondre

Hello

Bien vu le coup du sitemap ;)
A priori on a fait d’autres tests (sans sitemap) qui confirment le passage de Google sur les 404.
Mais si vous avez des retours sur le comportement de GGbot sur des cas similaires on est preneurs :)
Dans tous les cas la conclusion est que meme si Google peut se servir des liens dans les 404 pour la « découverte » de nouvelles URL, ces liens ne propagent probablement pas ou peu de popularité.
Donc la strat qui consisterait à dire qu’il faut se servir de ces pages pour optimiser son maillage interne n’est pas très fiable.
C’est le message principal de ce post

Bon dimanche !

Pierre 01 février 2015 - 14:52 - Répondre

Pour moi, il manque clairement les détails concernant les conditions du test. Utiliser Google Chrome sur la page concernée est par exemple largement suffisant pour qu’une page soit indexée…
Bref, le test est incomplet.

Aurélien 01 février 2015 - 17:59 - Répondre

Dans un site assez vieux, Google me remonte (en erreur) dans webmaster tools des pages qui ne reçoivent plus de liens depuis 4 ans (date de la refonte) alors qu’elles n’ont aucun lien interne ou externe vers elles donc ça m’étonnerais que Google n’accorde pas d’importance aux liens interne du site sur une page 404.

Nickargall 02 février 2015 - 10:33 - Répondre

Bonjour
Cette page Test at-elle déjà été ouverte dans un navigateur Chrome, ou avec une Toolbar d’installée, avec un code Google Analytics dessus, ou tout autre script ou outil Google ? (ce qui pourrait avoir déclenché son indexation)

nicodesh 03 février 2015 - 16:22 - Répondre

Très intéressant ! En revanche, plutôt que le sitemap, la première chose qui me vient à l’esprit est le ping : toutes les publications WordPress sont pinguées via pingomatic ! Ce qui bien entendu suffit largement à indexer une page, si peu intéressante sémantiquement soit-elle.

Le Juge 03 février 2015 - 22:36 - Répondre

C’était à prévoir ce genre de résultats – Si le signal popularité « positif » des pages 404 était plus fort que le signal « négatif » (j’insiste sur les guillemets hein!) qu’elles envoient, on se mettrait tous a générer des 404 à Gogo avec des liens placé et ancré histoire de faire monter les pages qui existent.

Ceci dit encore une fois le test montre qu’entre ce que Gégé dit et ce qu’il fait il y a une différence.

Yeca 10 février 2015 - 12:51 - Répondre

C’est toujours compliqué, même en prenant tous les soins possibles au monde, de valider à 100% un test comme ça. Même avec toutes les précautions il y a peut être encore des choses qu’on ne maitrise pas.

Qui sait si un visiteur extérieur avec Chrome n’a pas suivi le chemin 404 -> page de test ?

411 23 février 2015 - 16:00 - Répondre

Merci pour ces précisions, dans le texte et dans les commentaires! Je devrai donc faire les changements nécessaires sur l’ensemble de mes blogs. pas grave, ça vaut la peine!

Infofeti 18 mars 2015 - 17:49 - Répondre

Article Très intéressant car je suis justement en train de créer ma page 404 pour mon site web. Pour le moment je n’en n’ai pas. Comment faut ti appeler la page pour qu’elle si se déclenche à chaque fois qu’une erreur intervient ? Dernières remarques je voulais justement découvrir le widget de recherche pour les pages 404 et surprise on tombe sur une page d’erreur 404… quelqu’un a t’il le bon lien ?

Pierre

Sébastien Bulté 18 mars 2015 - 18:08 - Répondre

Bonjour,

Si vous utilisez un serveur apache, je vous invite à lire ceci http://httpd.apache.org/docs/2.4/fr/custom-error.html

Concernant le widget, je pense qu’il n’est plus maintenu par Google, mais il est toujours visible ici : http://web.archive.org/web/20140208003705/https://support.google.com/webmasters/answer/136085?hl=fr.

Infofeti 19 mars 2015 - 10:27 - Répondre

Merci pour les liens.

Pour le moteur de recherche, je pense avoir trouvé quelques choses de plus récent pour le créer. Cela se passe à la page ci dessous.

https://www.google.fr/cse/

971 29 mars 2015 - 15:16 - Répondre

J’avoue que je n’ai jamais eu le temps de tester ces pages 404. Le résultat est assez étonnant quand même, Google ne répète-t-il pas que ce qui est important c’est l’ergonomie pour l’internaute, ces pages servent à ça.

Yakaferci 18 mai 2015 - 11:05 - Répondre

Super cool votre teste…j’avais observé aussi que les pages en 404 étaient indexées par Google..Matt Cutts disait d’ailleurs que si on obtient une erreur 404, 401 ou 403,on va protéger cette page pour 24 heures dans le système d’exploration, car cela peut être disons un 404 transitoire, et il était vraiment pas destiné à être une page non trouvée…
J’ai trouvé aussi pas mal d’infos ici: http://www.yakaferci.com/erreur-404-seo/

claude 08 août 2015 - 15:53 - Répondre

Salut Seb,

si le lien est cassé aucune chance pour google de le crawler!

Ramenos 08 août 2016 - 19:07 - Répondre

Toujours bon de tester pour vérifier les dires de Google. J’ai trouvé ton article en cherchant un cas pratique sur une question relative :

Est-ce que Google transfert de la performance depuis un lien externe dofollow d’un domaine externe vers une page 404 du domaine ciblé ?

Est-ce qu’on peut dire que ça transfert 100%, 50%, 25% ou 0% des performances ? J’opterais plus pour du 20% mais je peux me tromper.