Technique et outils, de quoi doper votre référencement sur tous les fronts

Par  le 10 avril 2013 - 13:11 dans

Le SEO n’est pas qu’un levier marketing et le SEO Campus nous l’a encore une fois démontré avec plusieurs conférences sur l’aspect technique et les outils à notre disposition sur le marché.

On retrouve notamment le sujet principal de 2013 du côté de la technique : l’analyse de logs.

Le Top 20 des outils à utiliser en SEO en 2013

Marie Pourreyron et Alexandra Martin nous ont présenté un large panel d’outils SEO en mettant en avant leurs avantages et inconvénients.

Les crawlers

Parmi les outils permettant de simuler le passage d’un robots sur un site et ainsi d’analyser sa structure et identifier les axes d’optimisation (erreurs 404, redirections inutiles, incohérence de structure, duplication de contenu, etc) Marie et Alexandra ont cité Xenu, Google Webmaster Tools, Scrutiny (une alternative à Xenu pour les Mac addicts), Screaming Frog et wannaBrowser.

La mesure des temps de chargement

Après avoir rappelé l’importance de l’amélioration du chargement d’un site, les 2 intervenantes nous ont présenté les outils permettant de mesurer ces temps pour permettre d’identifier les pistes d’optimisation. 3 outils ont été mis en avant : GTmetrix, Web Page Test et Google Page Speed.

Les scrapers

Ce type d’outil permet d’extraire des informations provenant d’une page en ligne. Dans la pratique, un scraper peut être utilisé pour récupérer tous les TITLEs d’un site, s’assurer que le marqueur Google Analytics soit bien implémenté sur toutes les pages d’un site, récupérer le PR d’une liste d’url mais cela peut également permettre d’extraire les résultats de Google.

Les 2 scrapers recommandés sont : ScrapeBox et le frenchie RDDZ Scraper.

Prévoyez des proxy avant d’utiliser ce type d’outil ;)

Les outils sémantiques

Du coté du travail spécifique sur le contenu, 6 outils ont été cités : Google Trends, Google’s Keyword Tool, Alyse (pour analyser notamment la densité de mot clés sur une page), SEMrush, SEMvisu, et Plagium pour chasser la duplication de contenu.

Les outils d’analyse de backlinks

Concernant l’analyse de votre profil de lien, Google Webmaster Tools, Majestic SEO (présenté le matin même par Dixon Jones en personne), Ahrefs et l’outil de SEOmoz Open Site Explorer vous seront extrêmement utiles !

Les outils de suivi de positionnement

Pour le suivi régulier de son positionnement dans les résultats des moteurs, Marie et Alexandra ont mis en avant Ranks.fr (merci à eux pour les super tshirts !), MyposeoSeoMioche Tool et SeeURank.

Et s’il ne devait en rester qu’un ?… Ce serait un développeur ! (Tiens on a déjà entendu ça quelque part ;))

Les indicateurs de visibilité

La conférence, présentée par Antoine Leven, se portait sur l’outil Searchmetrics, qui collecte des informations sur une base importante de mots clés. “Electrocardiogramme de votre site”, l’outil vous permet d’avoir une vision d’ensemble, et la plus représentative possible, de la visibilité de votre site Internet, tandis que les outils de suivi de position donnent des indicateurs uniquement sur un échantillon de mots clés sélectionnés.

La présentation mettait donc en avant les différents indicateurs de visibilités, comme le nombre de mots clés sur lesquels un site est indexé, le nombre de fois qu’une URL apparaît, ou par exemple le trafic “virtuel” (trafic estimé en fonction des mots clés et leurs positions).

Pour compléter les données proposées par l’outil, Searchmetrics propose également une API et la possibilité d’intégrer des données d’outils tiers, tels que AT Internet, ou Omniture.

Petits bémols soulevés lors des Questions / Réponses avec le public : l’outil ne tient pas compte de la recherche universelle dans le positionnement d’un site. De plus, Searchmetrics ne prend pas en compte les tendances du moment (un buzz par exemple ne sera pas pris en compte dans l’estimation de trafic).

Antoine Leven répond ainsi que Searchmetrics ne fournit que des indicateurs, à l’utilisateur de faire la part des choses.

Analyseur de logs, crawler de site : prenez des mesures pour analyser et évaluer vos résultats SEO

Deux conférences avaient lieu le jeudi pour discuter de l’exploitation avec tout d’abord Adrien Ménard de Botify puis Jean-Benoît Moingt de chez Pages Jaunes.

Introduction aux logs

Aujourd’hui, Google connaît plus de 30 trillions d’urls uniques (source). Pour recrawler toutes les urls de son index, Google devrait donc traiter 330 milliard de page par jours pendant 3 mois, ce qui est techniquement quasi-impossible !

On comprend donc facilement qu’il lui faut faire des choix, et que Google aura une priorité de crawl importante pour les sites avec une structure cohérente, des pages pertinentes (pas de page en doublon par exemple) et des temps de réponse faibles.

 L’étape de simulation de crawl d’un site pour en mesurer la volumétrie couplée à l’analyse des données fiables des logs permet par exemple :

  • d’identifier les pages orphelines que Google visite mais qui ne sont pas accessibles depuis le site
  • d’identifier les pages actives des pages inactives (une page active est une page ayant reçu au moins une visite depuis Google)
  • de voir le niveau de profondeur limite (crawl < 50% des pages) pour Googlebot

On ajoutera qu’une page qui n’est pas crawlée aura peu de chance de se positionner en tête des résultats de recherche.

Si vous avez des problèmes d’indexation de nouvelles pages, la mesure via les logs des pages connues des moteurs VS celles qui sont vues pour la première fois par Googlebot peut être intéressante.

Les mesures en détail

Adrien Ménard et l'analyse de logs

Adrien Ménard et l’analyse de logs

La conférence d’Adrien Ménard ne s’est pas vraiment portée sur toutes les mesures qui permettent d’évaluer les résultats SEO. Celle-ci était principalement axée sur les données dites structurelles du site, ne faisant ainsi pas mention des données de positions, du trafic SEO et du linking externe (intentionnel car clairement annoncé dès le départ).

Les différents indicateurs présentés permettent entre autre d’optimiser le site et de maîtriser son indexation (vivement encouragé par Google dixit Adrien).

1) Etudier la structure du site

Afin d’analyser la structure technique du site, il est essentiel de pouvoir lancer un crawl depuis la home, afin de simuler le comportement classique des moteurs : suivi du robots.txt, nofollow, limite d’url/temps/profondeur, …

Dans l’idéal, les URLs sont dimensionnées, c’est-à-dire les différents types de pages doivent être catégorisés. Les données seront ainsi analysées par dimensions (/blog, /produit, /category, …). Quelques exemples de données à récupérer pour les analyses :

  • Taux de remplissage des balises meta, h1, title

  • Nombre de duplications (objectif zéro duplication bien évidemment)

  • Temps de réponse moyen par type de page (Adrien parle ainsi d’une norme de 500 millisecondes de temps de réponse par page)

  • Linking entrant : nombre de liens pointant une page donnée (ne concerne que les pages internes au site)

  • Linking sortant : nombre de liens existant sur une page donnée (permet de maîtriser la dilution du PR)

  • Profondeur des pages

Ces datas seront la base de l’analyse des logs

2) Analyser les logs

Les logs couplés aux résultats de crawl vont permettre d’approfondir sur les résultats et performances SEO, par exemple  :

  • Est-ce que vos pages stratégiques sont bien valorisées ?

  • Quelles sont les pages actives ou non actives (pages maillées sur le site, mais non visitées par Google) ?

  • Existe-t-il des pages inutiles (Certaines pages ne rentrant pas dans la structure du site, c’est-à-dire isolées et maillées nulle part, sont tout de même visitées par les moteurs de recherche de Google) ?

  • Vos top pages SEO reçoivent-elles plus de liens que votre page de contact ?

Les bases de la réflexion sur votre site se posent à ce moment là afin de pouvoir affiner au jour le jour l’analyse.

3) Suivre des Indicateurs quotidien

L’analyse des logs pousse très rapidement à affiner de plus en plus l’activité de son site au point d’en arriver à vouloir un contrôle maximal de son site et de son trafic.

L’idée derrière l’analyse journalière des logs serveurs est de pouvoir remonter plusieurs données comme :

  • Les IP Googlebot, identifier les passages du robot à travers un listing des IP associées à l’User-Agent et/ou le nom d’hôte et éventuellement repérer des passages de crawler se faisant passer pour Googlebot…

  • Le volume de pages crawlées par Googlebot / une période antérieure pour détecter une éventuelle anomalie ou d’éventuels points bloquant dans le site

  • Les visites en provenance de Google (pages actives) déclenchées chaque jour permettant d’être alerté en cas de baisse de position voire une sanction (pratique pour des sites non traqués via analytics et sans GWT, Xiti, …)

  • Le nombre de nouvelles pages crawlées par les bots, pouvoir comparer le nombre de pages mises en lignes vs le nombre de pages crawlées par jour et identifier les zones moins faciles d’accès pour les bots

  • Le nombre de nouvelles pages actives, de la même manière, identifier la vitesse d’indexation et d’acquisition de trafic des entités d’un site

  • Les réponses serveurs, point essentiel, ne pas attendre un retour utilisateur ou GWT pour s’alarmer des pages 404 ou des erreurs 500 qui impactent la popularité du site en cas de négligence

  • Le nombre de pages inutiles, il est rapide de comparer les pages actives et par opposition les pages inactives (sans trafic SEO) et la fréquence de crawl/activité de ces pages pour favoriser d’autres contenus potentiellement plus riches et plus générateurs de trafic

Pour effectuer ces analyses plusieurs choix s’offrent à nous, Botify ici présenté ou l’outil de Jean-Benoît sur http://box.watussi.fr/ mais également via un simple export des datas et un traitement en bash sous Cygwin ou son Terminal des fichiers de crawl et de logs.

En parallèle de ça, il est intéressant de réaliser ponctuellement des crawls de son site via les outils du marché cités plus haut ou ceux d’agences pour confronter ce crawl dit “théorique” avec le crawl pratique que l’on observe dans les logs.

De la même manière, on va chercher à mettre en avant les éléments suivant :

  • L’état du maillage interne, en récupérant toutes les pages et leurs liens, il est possible de voir la balance des liens du site et de comparer les zones les plus maillées avec les pages actives, les pages générant le plus de trafic, …

  • L’état du maillage externe, comme pour le maillage interne, il est important de contrôler la fuite du PR vers les sites externes sur des pages stratégiques

  • Le traitement des temps de réponses, il en est de plus en plus question et pas uniquement pour les sites e-commerce, mais aussi pour le mobile, le temps de réponse, bien que pour le crawler, permet de trouver des axes d’optimisations assez facilement en un simple passage

  • Le duplicate de contenus, balises, meta, en agrégeant toutes les données il est très simple de les croiser pour faire ressortir, selon les leviers que l’on veut, (profondeur, catégorie, trafic, maillage, …) les problématique de title, h1 ou page dupliquées

  • L’efficacité du robots.txt, en configurant le crawler pour prendre en compte le fichier, c’est une meilleure approche du crawl théorique

L’analyse de logs et l’analyse du crawl théorique sont 2 éléments intrinsèquement liés et couplés avec une veille quotidienne de ses logs. Ils permettent d’avoir une mise à jour quotidienne des problèmes et alertes de son site, tout en comparant, à chaque crawl, l’évolution des recommandations SEO mises en place.

Au final, ces présentations abordant à la fois les aspects techniques et les outils montrent un autre aspect moins porté sur le contenu et la popularité et qui démultiplie la puissance de ces autres leviers.

Tweet about this on TwitterShare on LinkedInShare on FacebookShare on Google+Email this to someone
Partagez cet article!
Ajouter le votre
4 commentaires
Lionel - Yooda 10 avril 2013 - 13:31 - Répondre

Tiens, Yooda SeeUrank a été retiré de la liste… un oubli ?

Xavier Naudeau 10 avril 2013 - 14:02 - Répondre

Petit oubli, c’est corrigé :)

Marie 10 avril 2013 - 13:50 - Répondre

Et oui, c’était une dédicace à Olivier ! J’ai donc repris sa conclusion qui était parfaite !

Cédric 10 avril 2013 - 13:56 - Répondre

Je n’ai pas pu suivre la conférence de Jean-Benoît mais son intervention sur le même sujet dans un des podcast de Laurent était passionnante.
Quant à l’intervention de Marie et Alexandra, c’était très bien et même si la plupart des outils étaient déjà connus, c’est toujours important de faire ce genre de rappels :) Et puis j’y ai quand même découvert Alyse !!
Bravo les filles.