Résumé de l'article What search engines don't like
Il est important de savoir ce que les moteurs de recherche n'aiment pas. Autrement, un site parfaitement optimisé peut ne pas être indexé ou, pire, peut être banni des moteurs de recherche.
L'article que je résume sur cette page n'est ni récent, ni exhaustif. Cependant il reste instructif.
Source : searchengines.com/mistakes.html
Spam - le plus grand ennemi des moteurs de recherche
Les moteurs de recherche détestent quand on essaie de les tromper pour améliorer la visibilité de pages qu'ils estiment peu pertinentes. Cette tactique est appelée "spam". Les moteurs s'efforcent de fournir les résultats les plus appropriés à leurs utilisateurs, tandis que le spam encombre leurs bases de données avec des informations sans rapport.
Certains webmasters créent du spam en s'inspirant des critères que les moteurs de recherche utilisent pour classer des pages. Par exemple, les moteurs de recherche notent bien les pages remplies de mots-clés. Les webmasters ont alors inventé une façon d'ajouter des mots-clés sans sacrifier l'aspect d'un site : ils utilisaient le texte invisible ou le texte de la même couleur que le fond de l'écran. Autrefois, cela a fonctionné ; aujourd'hui, les moteurs de recherche connaissent ces techniques et les considèrent comme du spam. Les sites qui les utilisent sont bannis de la plupart de moteurs de recherche.
Les techniques suivantes sont considérées comme du spam :
- Balises "Meta refresh"
- Texte invisible et abus de texte minuscule
- Mots-clés sans rapport dans le titre et les balises Meta
- Répétition excessive de mots-clés
- L'abus de sites miroirs (les mêmes sites qui pointent vers des adresses différentes)
- Soumission de nombreuses pages en un jour
- Pages identiques ou presque identiques
- Soumission à une catégorie inappropriée des répertoires
- "Fermes" de liens
Cadres, contenu dynamique et introduction en Flash
Bien que les moteurs de recherche ne pénalisent pas l'utilisation des cadres (frameset), des pages dynamiques et de multimédia, il leur est difficile d'indexer ces contenus.
Voici une liste de fichiers que les moteurs de recherche n'indexent pas ou ont du mal à indexer :
- Texte sous forme d'images (utilisez l'attribut "alt")
- Les pages qui exigent l'enregistrement, acceptation des cookies ou un mot de passe
- Applets Java
- PDF (à l'exception de Google)
- Liens contenant un point d'interrogation "?" (à l'exception de Google, Altavista, Fast et Inktomi)
- Fichiers multimédia (Flash, Shockwave, streaming video)
Pages alternatives
Si votre site repose sur des fichiers que les moteurs de recherche n'indexent pas, créez des pages alternatives qui contournent le problème. Ces pages devraient contenir les informations les plus importantes sur vos produits ou services, et devraient être optimisées comme des pages d'accueil.
Les moteurs de recherche indexeront ses pages même s'ils ne peuvent pas indexer le reste d'un site. Faites des liens vers ces pages dans votre Plan du site pour vous assurer que les spiders (robots indexateurs) les trouvent, et soumettez ces pages plutôt que les pages qui ne sont pas optimisées.