Meu site tem menos de 10 páginas: por que meu mapa do site tem 448 URLs descobertos?

Dec 12 2020

Tentei melhorar o SEO do meu site enviando um mapa do site ao Google Search Console.

O status é um sucesso, mas descobri 448 URLs com menos de 10 páginas em meu site: clientsforcounsellors.com/sitemap.xml

Além disso, quando eu digito meu nome de domínio na barra de endereço, seguido por qualquer slug, por exemplo, clientsforcounsellors.com/sdlkgr, sou redirecionado para minha página inicial em vez de ter uma página 404 exibida.

Qual é o problema aqui? O soft 404 tem algo a ver com isso?

Respostas

4 StephenOstermiller Dec 12 2020 at 18:38

Soft 404s não têm nada a ver com esse problema, embora para usabilidade e SEO você deva mostrar erros 404 em vez de redirecionar para a página inicial.

Este mapa do site parece ter sido gerado por um rastreador. Você não deveria fazer isso. Google diz que não é uma boa idéia: Google diz não indexar o seu site para construir Arquivo Um Sitemap . Se você tiver apenas 10 páginas em seu site, deverá ter um mapa do site que liste apenas essas 10 páginas. Com 10 páginas, você pode construir o mapa do site manualmente. Seu sistema de gerenciamento de conteúdo também pode ter plug-ins que criam um mapa do site para você a partir de seu banco de dados.

Você também deve saber que os sitemaps XML não têm quase nada a ver com SEO. Eles podem fazer o Googlebot rastrear todas as suas páginas, mas não ajudam a indexar ou classificar bem o seu conteúdo. Se o seu site for rastreável (e o seu parece ser), o Googlebot pode localizar e rastrear todas as suas páginas de qualquer maneira. As vantagens de um sitemap XML são estatísticas extras no Google Search Console e um sinal para o Google sobre quais URLs você prefere (depois de reduzir o sitemap a apenas 10 páginas). Consulte The Sitemap Paradox para obter mais detalhes.

Vale a pena executar um rastreador de SEO em seu site. Isso pode revelar problemas que precisam ser corrigidos. O rastreador que gerou o mapa do site encontrou problemas ao rastrear o seu site. O Googlebot e outros rastreadores de mecanismos de pesquisa também terão esses problemas. Vamos dar uma olhada em algumas das páginas que foram incluídas no seu mapa do site:

  • /blog/counsellor-needs-website.html
  • /blog/blog/counsellor-needs-website.html
  • /blog/blog/blog/counsellor-needs-website.html
  • /blog/blog/blog/blog/counsellor-needs-website.html
  • /blog/blog/blog/blog/blog/counsellor-needs-website.html
  • ...

Por que a mesma página está sendo incluída muitas vezes com mais e mais repetições de /blogno caminho? Você quebrou links em seu site. Seus links parecem

<a href="blog/counsellor-needs-website.html">

que é um link relativo. Quando você já estiver no blog/diretório, outro diretório de blog será adicionado. Seria melhor mudar isso para um "link relativo à raiz" que começa com uma barra. Esse tipo de link é relativo ao seu nome de domínio, e não à página atual:

<a href="/blog/counsellor-needs-website.html">

Você tem problemas semelhantes com suas imagens e CSS. Todos eles devem usar links relativos à raiz

  • <img src="/images/main/money-icon.png" em vez de <img src="images/main/money-icon.png"
  • href="/css/style.css" em vez de href="css/style.css"

Consulte Qual é a finalidade da barra inicial em URLs HTML? e o rastreador de sites retorna centenas de erros 404 para páginas que não existem contendo diretórios duplicados em que alguém tem praticamente o mesmo problema, mas com sua página "sobre nós".


Agora que seu site foi publicado com esses links, você deve redirecionar todos os URLs malformados para o formato de sua preferência. Se você estiver usando o Apache, deverá ser capaz de fazer algo assim na parte superior do seu .htaccessarquivo:

RewriteEngine On
# Redirect /blog/blog/blog/... URLs
RewriteRule (blog/)+((blog|images|css)/.*) /$2 [R=301,L]

Onde

  • RewriteEngine Onativa as regras do mod_rewrite
  • (blog/)+corresponde a um ou mais dos /blogdiretórios extras
  • (blog|images|css) corresponde ao diretório final que deve ser mantido
  • /.* corresponde a tudo o que vem depois
  • $2corresponde a tudo no segundo conjunto de parênteses ( (blog|images|css)/.*)
  • [R=301] torna-o um redirecionamento permanente
  • [L] torna-a a última regra de reescrita (portanto, nenhuma regra de reescrita posterior também tenta se aplicar)