Dokumenty, które wyciekły, ujawniają, jak brama wyszukiwarki Google chroni Internet

Wyszukiwarka Google jest często nazywana progiem Internetu – dla większości ludzi jest pierwszym przystankiem w drodze do informacji online. Jednak Google nie mówi zbyt wiele o tym, jak organizuje Internet, czyniąc z wyszukiwarki gigantyczną czarną skrzynkę, która dyktuje, co wiemy, a czego nie. W tym tygodniu wyciek na 2500 stron, po raz pierwszy zgłoszony przez Randa Fishkina , weterana optymalizacji wyszukiwarek (SEO) , dał światu wgląd w istniejącą od 26 lat tajemnicę wyszukiwarki Google.
powiązana zawartość
„Myślę, że najważniejszy wniosek jest taki, że to, co mówią publiczni przedstawiciele Google, a to, co robi wyszukiwarka Google, to dwie różne rzeczy” – stwierdził Fishkin w oświadczeniu przesłanym e-mailem do Gizmodo.
powiązana zawartość
- Wyłączony
- język angielski
Dokumenty te dają bardziej szczegółowy obraz tego, jak wyszukiwarka Google kontroluje informacje, które wykorzystujemy. Przeniesienie odpowiedniej strony internetowej na Twój komputer nie jest zadaniem pasywnym, ponieważ tysiące decyzji redakcyjnych podejmuje w Twoim imieniu tajemnicza grupa pracowników Google. Dla SEO, branży, która żyje i umiera dzięki algorytmom Google, wyciekające dokumenty to trzęsienie ziemi. To tak, jakby sędziowie NFL napisali na nowo zasady gry w piłkę nożną w połowie sezonu, a ty dowiadujesz się o tym podczas meczu Super Bowl.
Kilku ekspertów SEO mówi Gizmodo, że wyciek zawiera listę 14 000 funkcji rankingowych, które stanowią przynajmniej plan tego, jak Google organizuje wszystko w sieci. Niektóre z tych czynników obejmują określenie przez Google autorytetu witryny internetowej w danej dziedzinie, rozmiar witryny lub liczbę kliknięć, jakie uzyskuje ona. Google wcześniej zaprzeczał, jakoby korzystał z niektórych z tych funkcji rankingowych w wyszukiwarce, ale firma potwierdziła, że te dokumenty są prawdziwe, aczkolwiek według niej niedoskonałe.
„Przestrzegamy przed dokonywaniem błędnych założeń na temat wyszukiwarki w oparciu o informacje wyrwane z kontekstu, nieaktualne lub niekompletne” – powiedział rzecznik Google w e-mailu do Gizmodo. „Udostępniliśmy obszerne informacje o działaniu wyszukiwarki i rodzajach czynników branych pod uwagę przez nasze systemy, jednocześnie pracując nad ochroną integralności naszych wyników przed manipulacją”.
With respect to Google’s “caution,” the company won’t confirm what is or isn’t right about these documents. Google says it’s incorrect to assume this is comprehensive information about Search, and tells Gizmodo that giving away too much information could enable bad actors. Ultimately, we don’t know what goes into determining these factors, or how much weight Google Search gives to each one, if any.
“We’re just looking at different variables they’re considering,” said Mike King, an SEO expert who was one of the first to analyze the leak, in an interview with Gizmodo. “This is the granularity of which [Google] looks at websites.”
This leak was first noticed by Erfan Azimi, an SEO practitioner who found the API documentation publicly on GitHub. It’s unclear if these documents were truly “leaked” or somehow published by Google in a quiet corner of the web, perhaps by accident. Azimi aimed to publicize these documents by bringing them to Fishkin last week, who asked King to help make sense of them.
King notes that one ranking feature “homepagePagerankNs” suggests the notoriety of a website’s homepage could prop up everything it publishes. Fishkin writes the leak references a system called NavBoost—first referenced by Google’s VP of Search, Pandu Nayak, in his Department of Justice testimony—which purportedly measures clicks to boost rankings on Google Search. Many in the SEO industry are taking these documents as confirmation of what the industry has long suspected: A website deemed popular by Google may receive a higher Search ranking for a query even though a lesser-known site may have better information.
In recent months, several small publishers have seen their Google Search traffic vanish. When The Verge’s Nilay Patel asked Google CEO Sundar Pichai about this last week, Pichai said he was not clear “if that’s a uniform trend.” One ranking feature King calls out seems to categorize those small sites uniformly.
“They have a feature in there called ‘smallPersonalSite,’ and we don’t know how that’s used of course, but that’s an indication that [Google] is looking to understand whether these are smaller sites,” King said. “Being that so many of these small sites are getting crushed right now, it just goes to show that [Google] is not doing something to offset what these big brand signals are.”
Notably, Pichai later mentioned in that interview with The Verge that, at other times, Google has thrown more traffic toward small sites. These ranking features could indicate the levers Google can pull. As more and more national media organizations license their content to appear on ChatGPT, Google Search also appears to be skewing towards larger publishers. Broadly, this could have a squashing effect, compressing what most people hear into just mainstream media organizations.
The ripple effects of these leaked Google documents were felt widely. Kristen Ruby, CEO of Ruby Media Group who has worked in digital public relations and SEO for more than 15 years, tells Gizmodo she received an ominous text on Monday night: “Shit is going down with Google tomorrow.”
Ruby quickly found the leak and noted two ranking features that stuck out to her: “isElectionAuthority” and “isCovidLocalAuthority.” These features seem to be Google’s way of ranking a web page’s credibility for providing proper information about elections and COVID-19, respectively. In 2019, Ruby wrote extensively about how Google’s measure of trustworthy web pages (which Google refers to as E-E-A-T, standing for Experience, Expertise, Authoritativeness, and Trust) is inherently political. She notes that Google’s measure of these factors tends to skew along political lines.
“It is problematic to me that Google is providing no context on critical items in the data such as ‘isElectionAuthority’ or ‘isCovidLocalAuthority.’ How is Google defining an authority in these critical domains?” Ruby said in an emailed statement. “I should not have to guess at what the answer is. Google should be forthcoming and tell me what the answer is.”
Even though Google is a business, with a right to private information, Ruby argues that Google has an obligation to answer questions on these ranking features that shape the world around us. King and Fishkin also noticed the ‘isCovidLocalAuthority” and “isElectionAuthority” in their writeups of the leak, both pointing out the importance of search engines in elevating quality information.
“I think it’s really important they do provide that sort of discernment for information because like it or not, Google is effectively a public service,” said King. “They probably push back on me saying that, but we think of it as the primary source of how you get to information on the web.”
How Google ranks information in these examples is a microcosm of the entire Search ecosystem. On any given day, there are millions of questions about what information to amplify and what to silence. While Google, and several tech companies, have long tried to paint themselves as opinion-less algorithms, these ranking features show that’s not quite the case. There are many more examples of ranking features revealed in the 2,500-page leak.
Searching For Answers Amid Google’s Algorithm
Since Google won’t elaborate on these documents, telling Gizmodo that giving away too much information could enable bad actors, SEO experts are left to make sense of this on behalf of everyone who uses Google Search. Several of these 14,000 ranking features identified in the last week are things that Google explicitly claimed it has not used over the years.
W filmie z 2016 r. przedstawiciel wyszukiwarki Google oświadczył: „ Nie mamy oceny autorytetu witryny. W wywiadzie z 2015 roku inny Googler powiedział: „ Wykorzystywanie kliknięć bezpośrednio w rankingu byłoby błędem. ” Trudno teraz zrozumieć te komentarze w świetle dokumentów, które wyciekły i reakcji Google.
„Ta odpowiedź jest doskonałym przykładem tego, dlaczego ludzie nie lubią Google i nie ufają mu” – powiedział Fishkin. „To nie oświadczenie, które nie odnosi się do wycieku, nie wnosi żadnej wartości i równie dobrze mogło zostać napisane przez sztuczną inteligencję przeszkoloną w zakresie najbardziej bezdusznego przekazu korporacyjnego ostatniej dekady”.
Ruby zauważa, że w erze odpowiedzi na sztuczną inteligencję sposób, w jaki Google ocenia strony internetowe, jest ważniejszy niż kiedykolwiek. Zamiast serii linków do różnych punktów widzenia, możesz uzyskać jedną prostą odpowiedź dzięki nowym przeglądom sztucznej inteligencji Google . Widzieliśmy jednak, że posty na Reddicie sprzed 10 lat zyskały dziwny autorytet i nakazały niektórym użytkownikom dodać klej do pizzy . Sposób, w jaki Google wybiera władzę, staje się coraz ważniejszy, ponieważ najwyższy wynik może być teraz jedynym, który ma głos.
„Zmieniamy biegi. Przechodzimy z jednego systemu wyszukiwania do drugiego” – powiedziała Ruby. „Sztuczna inteligencja wywiera ogromny wpływ na wyniki wyszukiwania”.
Ostatecznie trudno powiedzieć, co Google naprawdę robi dzięki tym funkcjom rankingu. Jasne jest, że Google stworzył te klasyfikatory, a potencjalnie ma ich jeszcze więcej, aby oceniać strony internetowe w Internecie. Rankingi te wyraźnie wymagają oceny, co stanowi kolejny dowód na to, że wyszukiwarka Google nie jest obiektywnym doświadczeniem, ale raczej serią wyborów redakcyjnych dokonywanych przez pracowników Google.

