Mon site Web comporte moins de 10 pages: pourquoi mon plan de site contient-il 448 URL découvertes?
J'ai tenté d'améliorer le référencement de mon site Web en soumettant un plan du site à Google Search Console.
Le statut est un succès mais j'ai 448 URL découvertes avec moins de 10 pages sur mon site Web: clientsforcounsellors.com/sitemap.xml
De plus, lorsque je tape mon nom de domaine dans la barre d'adresse, suivi d'un slug, par exemple clientsforcounsellors.com/sdlkgr, je suis redirigé vers ma page d'accueil au lieu d'afficher une page 404.
Quel est le problème ici? Les soft 404 ont-ils quelque chose à voir avec ça?
Réponses
Les Soft 404 n'ont rien à voir avec ce problème, bien que pour la convivialité et le référencement, vous devriez afficher des erreurs 404 au lieu de rediriger vers la page d'accueil.
Ce plan du site semble être généré par un robot d'exploration. Tu ne devrais pas faire ça. Google dit que ce n'est pas une bonne idée: Google dit de ne pas explorer votre site pour créer un fichier Sitemap . Si vous n'avez que 10 pages sur votre site, vous devriez avoir un plan du site qui ne répertorie que ces 10 pages. À 10 pages, vous pouvez créer ce plan du site à la main. Votre système de gestion de contenu peut également avoir des plugins qui créent un plan du site pour vous à partir de sa base de données.
Vous devez également savoir que les sitemaps XML n'ont presque rien à voir avec le référencement. Ils peuvent amener Googlebot à explorer toutes vos pages, mais ils n'aident pas à indexer ou à bien classer votre contenu. Si votre site est explorable (et le vôtre semble l'être), Googlebot peut de toute façon trouver et explorer toutes vos pages. Les avantages d'un plan de site XML sont des statistiques supplémentaires dans la console de recherche Google et un signal à Google sur les URL que vous préférez (une fois que vous avez réduit le plan du site à seulement vos 10 pages.) Consultez le paradoxe du plan de site pour plus de détails.
Il vaut la peine d'exécuter un robot d'exploration SEO sur votre site Web. Cela peut révéler des problèmes qui doivent être résolus. Le robot d'exploration qui a généré votre plan de site a rencontré des problèmes lors de l'exploration de votre site. Googlebot et d'autres robots d'exploration des moteurs de recherche vont également avoir ces problèmes. Jetons un coup d'œil à certaines des pages qui ont été incluses dans votre plan de site:
/blog/counsellor-needs-website.html
/blog/blog/counsellor-needs-website.html
/blog/blog/blog/counsellor-needs-website.html
/blog/blog/blog/blog/counsellor-needs-website.html
/blog/blog/blog/blog/blog/counsellor-needs-website.html
- ...
Pourquoi la même page est-elle incluse plusieurs fois avec de plus en plus de répétitions /blog
dans le chemin? Vous avez des liens rompus sur votre site. Vos liens ressemblent à
<a href="blog/counsellor-needs-website.html">
qui est un lien relatif. Une fois que vous êtes blog/
déjà dans le répertoire, il ajoutera un autre répertoire de blog. Il serait préférable de changer cela en "lien relatif racine" qui commence par une barre oblique. Ce type de lien est relatif à votre nom de domaine, plutôt qu'à la page actuelle:
<a href="/blog/counsellor-needs-website.html">
Vous rencontrez des problèmes similaires avec vos images et CSS. Ils devraient tous utiliser la liaison relative racine
<img src="/images/main/money-icon.png"
au lieu de<img src="images/main/money-icon.png"
href="/css/style.css"
au lieu dehref="css/style.css"
Voir À quoi sert la barre oblique principale dans les URL HTML? et Website crawler renvoie des centaines d'erreurs 404 pour des pages qui n'existent pas contenant des répertoires en double dans lesquels quelqu'un a à peu près le même problème mais avec sa page "à propos de nous".
Maintenant que votre site a été publié avec ces liens, vous devez rediriger toutes les URL mal formées vers leur forme préférée. Si vous utilisez Apache, vous devriez pouvoir faire quelque chose comme ceci en haut de votre .htaccess
fichier:
RewriteEngine On
# Redirect /blog/blog/blog/... URLs
RewriteRule (blog/)+((blog|images|css)/.*) /$2 [R=301,L]
Où
RewriteEngine On
active les règles de mod_rewrite(blog/)+
correspond à un ou plusieurs des/blog
répertoires supplémentaires(blog|images|css)
correspond au répertoire final à conserver/.*
correspond à tout ce qui vient après$2
correspond à tout dans le deuxième jeu de parenthèses ((blog|images|css)/.*
)[R=301]
en fait une redirection permanente[L]
en fait la dernière règle de réécriture (donc aucune règle de réécriture ultérieure n'essaie également de s'appliquer)