Bônus de associação (+100 repetições) e bug de desconexão do site?
Bug 1: Bônus de associação sem motivo aparente.
Este usuário entrou em nossa pilha com 101 representantes (do bônus de associação). Ao verificar o representante, vejo uma outra pilha com 101 repetições e uma pilha com 1 representante.
O 101 na outra pilha parecia um pouco coincidente (exatamente 10 votos positivos? Possivelmente.) Então eu verifiquei - nenhuma atividade. Então isso também foi um bônus de associação.
No terceiro site, a página do usuário é 404.
Então pensei "bem, talvez haja um banimento temporário e o representante 404/1 seja um artefato do banimento". Então, pesquisei aquele site de várias maneiras; nada.
Bug 2: contas de sites separadas / desconectadas umas das outras
O que eu encontrei foi uma quarta conta de site que está "isolada" das outras, ela não lista as outras 3 pilhas e eles não a listam. (observe que o ícone do usuário é o mesmo; divisas roxas). Novamente o bônus de associação; novamente, não há atividade de site suficiente para suportá-lo.
Como tinkeringbell discute, está provando que a conta do site "ilhada" é na verdade uma conta oculta. Eu descobri isso por meio de uma pesquisa geral na web em um mecanismo de pesquisa [bem comportado] [4]. Portanto, isso pode estar se transformando em um relatório de bug / solicitação de recurso para tornar isso mais difícil.
Respostas
As pessoas podem manter seu bônus de associação, porque isso não está vinculado ao perfil no qual você ganhou 200 reputação, mas à conta da rede :
Mesmo se você excluir todos os perfis e o de stackexchange.com, sua conta de rede subjacente ainda existirá e é onde o bônus de associação será armazenado.
Portanto, neste caso, há um perfil excluído que já teve mais de 200 reputação, o que agora garante que sempre que esse usuário criar um perfil para um site, ele receberá o bônus de associação.
O perfil do datascience parece excluído, embora seja meio estranho ainda estar aparecendo. Parece haver algum tipo de cache envolvido que pode significar que ainda precisa ser excluído da lista de perfis de rede.
Quanto ao segundo 'bug', é causado por comunidades ocultas . Os moderadores ainda podem ver isso , é como eu tenho certeza.
Conforme Tinkeringbell discute, estou vendo coisas que devem ser escondidas.
Eu resolvo problemas como esse para viver, então posso falar sobre como isso aconteceu e o que fazer a respeito. Descobri isso em um mecanismo de pesquisa geral da web que é bem comportado , o que significa que obedece às regras para direcionar a indexação da web e a inclusão de conteúdo nos mecanismos de pesquisa. Observe que essas são regras voluntárias e uma aranha de chapéu negro pode não obedecer.
Como a aranha encontrou
- encontrou um link contemporâneo para a página em algum lugar do StackExchange,
- encontrou um link contemporâneo em um site de terceiros,
- ele já sabia da existência da página desde o rastreamento anterior.
Eu os separei em 3 casos para que eu possa resolver os equívocos comuns.
O segundo caso é aquele em que um webmaster (ou seja, StackExchange) não cria nenhum link interno, mas um estranho sim. Suponha que a página de um usuário tenha um link para sua página da Web em sfu.edu . Sem o conhecimento deles, SFU publica dados agregados de seus registros da web, incluindo Referer . O mecanismo de pesquisa os considera uma fonte de dados rica, para descoberta de URL (embora não para relevância do link, também conhecido como PageRank). SFU usa rel=nofollow
, mas isso não é uma diretiva "não siga o link", que é uma diretiva "desconsiderar a relevância do link".
O terceiro caso é o mais provável aqui. Depois que um mecanismo de pesquisa tem um URL, ele não o descarta quando todos os links para o URL desaparecem. Isso tem um efeito na relevância do link, mas afeta apenas a classificação . Se o pesquisador for específico o suficiente para onde existem apenas dezenas de resultados , mesmo uma página de baixa classificação aparecerá.
Como escondê-lo de motores bem comportados
... Supondo que o StackExchange deseje. Existem argumentos nos dois sentidos.
A melhor opção é a meta tag HTML "noindex" (ou X-Robots equivalente em HTTP), como tal:
<meta name="robots" content="noindex">
Esta tag diz "não inclua esta página nos resultados da pesquisa". A tag também pode ter elementos como nofollow
(o que na verdade significa "o rastreador deve desconsiderar os links encontrados nesta página", ao contrário rel=
).
Observe que o mecanismo de busca deve buscar a página para ver esta tag; não há nada com que se preocupar. Suponho que você poderia exibi-lo no campo HTTP X-Robots e exibir conteúdo de página em branco. No entanto, nesse ponto, você poderia facilmente retornar 403 Forbidden, 404 Not Found ou 410 Gone. Observe que um 410 Gone significa que a URL está planejada para desaparecer para sempre; isso é importante para alguns mecanismos de pesquisa.
Bloquear o mecanismo de rastrear uma página, por exemplo, excluindo a página no robots.txt, não funcionará. Robots.txt apenas direciona o rastreamento, não a indexação. Um mecanismo de pesquisa ainda pode criar um resultado de pesquisa para a página, inferindo o conteúdo da página a partir de links e dados arquivados.