Bonus di associazione (+100 ripetizioni) e bug di disconnessione del sito?
Bug 1: bonus di associazione senza motivo apparente.
Questo utente si è unito al nostro stack con 101 rep (dal bonus associazione). Al controllo della ripetizione vedo un altro stack con 101 rep e uno stack con 1 rep.
Il 101 sull'altro stack sembrava un po 'casuale (esattamente 10 voti positivi? Forse.) Quindi ho controllato - nessuna attività. Quindi anche quello era un bonus di associazione.
Sul terzo sito, la pagina dell'utente è 404.
Allora ho pensato "beh, forse c'è un ban temporaneo e 404/1 rep è un artefatto del ban". Quindi ho cercato quel sito in diversi modi; Niente.
Bug 2: account del sito separati / scollegati l'uno dall'altro
Quello che ho trovato è stato un quarto account del sito che è "isolato" dagli altri, non elenca gli altri 3 stack e loro non lo elencano. (notare che l'icona dell'utente è la stessa; chevron viola). Ancora il bonus dell'associazione; ancora una volta l'attività del sito non è sufficiente per supportarla.
Come discute Tinkeringbell, sta dimostrando che l'account del sito "isolato" è in realtà un account nascosto. L'ho scoperto attraverso una ricerca web generale su un motore di ricerca [ben educato] [4]. Quindi questo potrebbe trasformarsi in una segnalazione di bug / richiesta di funzionalità per renderlo più difficile.
Risposte
Le persone possono mantenere il loro bonus di associazione, perché non è legato al profilo su cui guadagni 200 reputazione ma all'account di rete :
Anche se elimini ogni singolo profilo e quello su stackexchange.com, il tuo account di rete sottostante esiste ancora ed è lì che viene memorizzato il bonus di associazione.
Quindi, in questo caso c'è un profilo eliminato che una volta aveva oltre 200 reputazione, il che ora fa in modo che ogni volta che questo utente crea un profilo per un sito, guadagni il bonus di associazione.
Il profilo di datascience sembra cancellato, anche se è un po 'strano che sia ancora visualizzato. Sembra che sia coinvolto un qualche tipo di memorizzazione nella cache che potrebbe significare che è ancora necessario eliminarlo dall'elenco dei profili di rete.
Per quanto riguarda il secondo "bug", è causato dal nascondere le comunità . I moderatori possono ancora vederli , ecco come lo so per certo.
Come discute Tinkeringbell, vedo cose che dovrebbero essere nascoste.
Risolvo problemi del genere per vivere, quindi posso parlare di come è successo e cosa fare al riguardo. L'ho scoperto in un motore di ricerca web generale che si comporta bene , il che significa che obbedisce alle regole per dirigere sia lo spidering del web che l'inclusione dei contenuti nei motori di ricerca. Nota che queste sono regole volontarie e un ragno blackhat potrebbe non obbedire.
Come l'ha trovato il ragno
- ha trovato un collegamento contemporaneo alla pagina da qualche parte su StackExchange,
- ha trovato un collegamento contemporaneo su un sito web di terze parti,
- si sapeva già dell'esistenza della pagina dalla scansione passato.
Li ho suddivisi in 3 casi in modo da poter affrontare idee sbagliate comuni.
Il secondo caso è quello in cui un webmaster (cioè StackExchange) non crea alcun link interno, ma un esterno lo fa. Supponiamo che la pagina utente di qualcuno si colleghi alla sua pagina Web su sfu.edu . A loro insaputa, SFU pubblica dati aggregati dai propri registri web, incluso Referer . Il motore di ricerca considera questi come una ricca fonte di dati, per la scoperta di URL (sebbene non per la pertinenza dei link, ovvero PageRank). SFU utilizza rel=nofollow
, ma questa non è una direttiva "non seguire il collegamento" , ma una direttiva "ignora la rilevanza del collegamento".
Il terzo caso è il più probabile qui. Una volta che un motore di ricerca ha un URL, non rilascia l'URL quando tutti i collegamenti all'URL scompaiono. Ciò ha un effetto sulla pertinenza del collegamento, ma influisce solo sul posizionamento . Se il ricercatore è sufficientemente specifica da dove solo decine di risultati esistono , anche una pagina di basso rango verrà a galla.
Come nasconderlo da motori ben educati
... Supponendo che StackExchange lo desideri. Ci sono argomenti in entrambi i modi.
L'opzione migliore è il meta-tag HTML "noindex" (o l'equivalente X-Robots in HTTP), in quanto tale:
<meta name="robots" content="noindex">
Questo tag dice "non includere questa pagina nei risultati di ricerca". Il tag può anche contenere elementi come nofollow
(che in realtà significa che "il crawler deve ignorare i link trovati in questa pagina", a differenza di rel=
).
Nota che il motore di ricerca deve recuperare la pagina per vedere questo tag; non c'è niente di cui preoccuparsi. Suppongo che potresti pubblicarlo nel campo HTTP di X-Robots e pubblicare il contenuto di una pagina vuota. Tuttavia a quel punto potresti facilmente restituire 403 Forbidden, 404 Not Found o 410 Gone. Nota che 410 Gone significa che l'URL è pianificato per essere perso per sempre; questo è importante per alcuni motori di ricerca.
Impedire al motore di eseguire la scansione di una pagina, ad esempio escludendo la pagina nel file robots.txt, non funzionerà. Robots.txt indirizza solo la scansione, non l'indicizzazione. Un motore di ricerca può comunque creare un risultato di ricerca per la pagina, deducendo il contenuto della pagina da collegamenti e dati archiviati.