Comment exclure ou baliser le contenu généré par l'utilisateur qui partage le nom d'hôte avec le site propriétaire
J'exécute une application SaaS example.com
, qui en plus de ses landing pages a plusieurs pages de contenu "first party", par exemple:
example.com/features
example.com/pricing
example.com/support
Une fois qu'un client s'est inscrit, la conception de l'application est qu'il peut nommer et utiliser un sous-chemin, où il gère le contenu personnalisé. Par exemple:
example.com/joes-place
example.com/bobs-place
Pour un exemple concret de ce modèle, regardez GitHub: vous vous inscrivez, puis obtenez github.com/:username
.
Défi: je recherche les meilleures pratiques pour distinguer clairement le contenu de première partie (comme /pricing
) du contenu de tiers (comme /joes-place
), en ce qui concerne la recherche et le référencement. Plus précisément:
- Google a parfois décidé d'auto-onebox des clients comme
/joes-place
; J'aimerais qu'il ne fasse pas ça. - Je souhaite que les moteurs de recherche continuent d'explorer le contenu tiers, car il est important pour les clients qu'ils apparaissent dans la recherche.
- Pour des raisons de vanité / esthétique, je ne peux pas déplacer le contenu tiers vers son propre domaine (par exemple, je veux continuer à faire ce que fait github).
Jusqu'à présent, ce que j'ai fait:
- Les contenus propriétaires et clients utilisent différents comptes Google Analytics
- Le contenu interne est présent
sitemap.xml
, le contenu client n'est pas du tout mentionné.
Y a-t-il d'autres bonnes pratiques que je devrais suivre ici?
Réponses
Soit vous pouvez exclure le contenu tiers de la recherche, soit l'inclure. D'après ce que je sais, il n'y a pas de moyen spécial de marquer du point de vue d'un moteur de recherche. Du point de vue de l'utilisateur, vous pouvez différencier visuellement le contenu propriétaire du contenu tiers.
Voici mes opinions en réponse à vos points.
Google a parfois décidé d'auto-onebox des clients comme
/joes-place
; J'aimerais qu'il ne fasse pas ça.
Je ne pense pas que vous puissiez contrôler cela. Cependant, Google n'affiche qu'une boîte chaque fois qu'il estime que l'extrait / extrait répond bien à la requête.
Je souhaite que les moteurs de recherche continuent d'explorer le contenu tiers, car il est important pour les clients qu'ils apparaissent dans la recherche.
À moins que vous n'empêchiez délibérément l'exploration (comme en utilisant le fichier robots.txt), vous ne devriez pas vous inquiéter. (Je suppose que le contenu tiers n'est pas derrière les connexions.)
Pour des raisons de vanité / esthétique, je ne peux pas déplacer le contenu tiers vers son propre domaine (par exemple, je veux continuer à faire ce que fait github).
C'est parfaitement bien. Vous n'avez jamais à opter pour des domaines distincts. (En fait, avoir un seul domaine peut aider à augmenter l'autorité du domaine de manière collective. Un contenu exceptionnel dans des pages tierces peut aider l'autorité du domaine global.)
Les contenus propriétaires et clients utilisent différents comptes Google Analytics
GA n'a rien à voir avec le référencement.
Le contenu de première partie se trouve dans sitemap.xml, le contenu client n'est pas du tout mentionné.
Le plan du site n'est pas un problème à condition que le contenu tiers soit détectable à partir d'endroits tels que la page d'accueil, les pages populaires, etc. Les pages orphelines ne peuvent jamais être trouvées par Google.
Réf: Le paradoxe du plan du site
Il semble que vous cherchiez à empêcher ces pages "tierces" d'apparaître en tant qu'extraits ou résultats en vedette. Lily Ray de Search Engine Land a publié une recommandation à ce sujet:
Pour empêcher uniquement le contenu d'apparaître dans les extraits de code, tout en autorisant l'affichage d'extraits de code standard, testez la balise max-snippet, qui est utilisée pour spécifier le nombre maximal de caractères pouvant être affichés dans un extrait de code. Cela permet aux méta-descriptions d'être toujours affichées, mais empêche tout autre contenu d'apparaître dans les extraits de code, tant que le contenu sélectionné contient plus de caractères que l'extrait de code max spécifié.
(https://www.searchenginejournal.com/google-featured-snippets-guide/351272/#:~:text=To%20only%20prevent%20content%20from%20appearing)
Étant donné que la limite supérieure d'une méta-description affichée fait environ 160 caractères, j'essaierais de mettre la balise suivante dans les sections <head> de ces pages tierces:
<meta name="robots" content="max-snippet:160">
Edit : Si vos méta-descriptions sont plus longues que cela pour une raison quelconque, déterminez la plus longue et utilisez sa valeur de longueur. Mais ils ne devraient pas l'être! ;)