Como excluir ou marcar conteúdo gerado pelo usuário que compartilha o nome do host com o site primário
Estou executando um aplicativo SaaS example.com
que, além de suas páginas de destino, tem várias páginas de conteúdo "original", por exemplo:
example.com/features
example.com/pricing
example.com/support
Depois que um cliente se inscreve, o design do aplicativo é que ele nomeie e use um subcaminho, onde gerencia o conteúdo personalizado. Por exemplo:
example.com/joes-place
example.com/bobs-place
Para obter um exemplo real desse padrão, olhe no GitHub: você se inscreve e depois obtém github.com/:username
.
Desafio: Estou procurando as melhores práticas para distinguir claramente o conteúdo original (como /pricing
) do conteúdo de terceiros (como /joes-place
), quando se trata de pesquisa e SEO. Especificamente:
- Ocasionalmente, o Google decidiu fazer os clientes auto-onebox curtirem
/joes-place
; Eu gostaria que não fizesse isso. - Quero que os mecanismos de pesquisa continuem rastreando o conteúdo de terceiros, já que é importante para os clientes que eles apareçam na pesquisa.
- Por vaidade / razões estéticas, não posso mover o conteúdo de terceiros para seu próprio domínio (por exemplo, quero continuar fazendo o que o github faz).
Até agora, o que fiz:
- O conteúdo próprio e do cliente usa contas diferentes do Google Analytics
- O conteúdo original está disponível
sitemap.xml
, o conteúdo do cliente não é mencionado de forma alguma.
Existem outras práticas recomendadas que eu deveria seguir aqui?
Respostas
Você pode excluir o conteúdo de terceiros da pesquisa ou incluir. Pelo que eu sei, não existe uma maneira especial de marcar a partir da perspectiva de um mecanismo de pesquisa. Da perspectiva do usuário, você pode diferenciar visualmente entre o conteúdo original e o de terceiros.
Abaixo estão minhas opiniões em resposta aos seus pontos.
Ocasionalmente, o Google decidiu fazer os clientes auto-onebox curtirem
/joes-place
; Eu gostaria que não fizesse isso.
Eu não acho que você pode controlar isso. No entanto, o Google exibe apenas onebox sempre que sentir que o snippet / extração responde bem à consulta.
Quero que os mecanismos de pesquisa continuem rastreando o conteúdo de terceiros, já que é importante para os clientes que eles apareçam na pesquisa.
A menos que você esteja deliberadamente evitando o rastreamento (como usando o robots.txt), você não deve se preocupar. (Presumo que o conteúdo de terceiros não esteja por trás dos logins.)
Por vaidade / razões estéticas, não posso mover o conteúdo de terceiros para seu próprio domínio (por exemplo, quero continuar fazendo o que o github faz).
Isso está perfeitamente bem. Você nunca precisa ir para domínios separados. (Na verdade, ter um único domínio pode ajudar a aumentar a autoridade do domínio de maneira coletiva. Conteúdo excepcional em páginas de terceiros pode ajudar a autoridade do domínio geral.)
O conteúdo próprio e do cliente usa contas diferentes do Google Analytics
GA não tem nada a ver com SEO.
O conteúdo original está no sitemap.xml, o conteúdo do cliente não é mencionado de forma alguma.
O mapa do site não é uma preocupação, desde que o conteúdo de terceiros possa ser descoberto em locais como a página inicial, páginas populares etc. As páginas órfãs nunca podem ser encontradas pelo Google.
Ref: O Paradoxo do Sitemap
Parece que você está tentando evitar que essas páginas de "terceiros" apareçam como snippets ou resultados em destaque. Lily Ray, do Search Engine Land, postou uma recomendação exatamente sobre isso:
Para evitar apenas que o conteúdo apareça em trechos em destaque, mas permitir que trechos regulares sejam exibidos, experimente a tag max-snippet, que é usada para especificar o número máximo de caracteres que podem ser exibidos em um trecho. Isso permite que as meta descrições ainda sejam exibidas, mas impede que outro conteúdo apareça nos snippets em destaque, desde que o conteúdo selecionado tenha mais caracteres do que o max-snippet especificado.
(https://www.searchenginejournal.com/google-featured-snippets-guide/351272/#:~:text=To%20only%20prevent%20content%20from%20appearing)
Como o limite superior de uma meta-descrição exibida tem cerca de 160 caracteres, eu tentaria colocar a seguinte tag nas seções <head> dessas páginas de terceiros:
<meta name="robots" content="max-snippet:160">
Edit : Se suas meta-descrições forem mais longas do que isso por qualquer motivo, então descubra a mais longa e use seu valor de comprimento. Eles não deveriam ser embora! ;)