Tài liệu bị rò rỉ tiết lộ cách Google Search Gate giữ Internet

Google Tìm kiếm thường được coi là cánh cửa dẫn đến Internet—đó là điểm dừng đầu tiên trên hành trình tìm kiếm thông tin trực tuyến của hầu hết mọi người. Tuy nhiên, Google không nói nhiều về cách tổ chức internet, biến Tìm kiếm thành một hộp đen khổng lồ chỉ ra những gì chúng ta biết và những gì chúng ta không biết. Tuần này, một vụ rò rỉ dài 2.500 trang, lần đầu tiên được báo cáo bởi cựu chiến binh tối ưu hóa công cụ tìm kiếm (SEO) Rand Fishkin , đã mang đến cho thế giới cái nhìn sâu sắc về bí ẩn 26 năm tuổi của Google Tìm kiếm.
Nội dung liên quan
“Tôi nghĩ điều rút ra được lớn nhất là những gì đại diện công chúng của Google nói và những gì công cụ tìm kiếm Google làm là hai điều khác nhau,” Fishkin nói trong một tuyên bố gửi qua email cho Gizmodo.
Nội dung liên quan
- Tắt
- Tiếng Anh
Những tài liệu này cung cấp cái nhìn chi tiết hơn về cách Google Tìm kiếm kiểm soát thông tin chúng ta sử dụng. Đưa đúng trang web vào máy tính của bạn không phải là một nhiệm vụ thụ động vì hàng nghìn quyết định biên tập được thực hiện thay mặt bạn bởi một nhóm nhân viên Google bí mật. Đối với SEO, một ngành sống chết bởi thuật toán của Google, những tài liệu bị rò rỉ chính là một trận động đất. Nó giống như việc các trọng tài của NFL viết lại luật bóng đá trong nửa mùa giải và bạn chỉ phát hiện ra điều đó khi chơi Super Bowl.
Một số chuyên gia SEO nói với Gizmodo rằng danh sách rò rỉ 14.000 tính năng xếp hạng, ít nhất, đặt ra một kế hoạch chi tiết về cách Google tổ chức mọi thứ trên web. Một số yếu tố này bao gồm việc Google xác định thẩm quyền của trang web đối với một chủ đề nhất định, quy mô của trang web hoặc số lần nhấp chuột mà trang web nhận được. Google trước đây đã phủ nhận việc họ sử dụng một số tính năng xếp hạng này trong Tìm kiếm, nhưng công ty đã xác nhận những tài liệu này là có thật, mặc dù theo cách nói của họ thì không hoàn hảo.
Người phát ngôn của Google cho biết trong email gửi Gizmodo: “Chúng tôi thận trọng trước việc đưa ra các giả định không chính xác về Tìm kiếm dựa trên thông tin ngoài ngữ cảnh, lỗi thời hoặc không đầy đủ”. “Chúng tôi đã chia sẻ thông tin sâu rộng về cách hoạt động của Tìm kiếm và các loại yếu tố mà hệ thống của chúng tôi cân nhắc, đồng thời nỗ lực bảo vệ tính toàn vẹn của kết quả của chúng tôi khỏi bị thao túng.”
Theo “sự thận trọng” của Google, công ty sẽ không xác nhận điều gì là đúng hoặc không đúng về những tài liệu này. Google cho biết sẽ không chính xác nếu cho rằng đây là thông tin toàn diện về Tìm kiếm và nói với Gizmodo rằng việc cung cấp quá nhiều thông tin có thể tạo điều kiện cho những kẻ xấu. Cuối cùng, chúng tôi không biết điều gì quyết định những yếu tố này hoặc tầm quan trọng của Google Tìm kiếm đối với mỗi yếu tố, nếu có.
Mike King, một chuyên gia SEO, một trong những người đầu tiên phân tích vụ rò rỉ, cho biết trong một cuộc phỏng vấn với Gizmodo: “Chúng tôi chỉ đang xem xét các biến số khác nhau mà họ đang xem xét”. “Đây là mức độ chi tiết mà [Google] xem xét các trang web.”
Sự rò rỉ này lần đầu tiên được chú ý bởi Erfan Azimi, một chuyên gia SEO, người đã tìm thấy tài liệu API một cách công khai trên GitHub. Không rõ liệu những tài liệu này có thực sự bị “rò rỉ” hay bằng cách nào đó được Google xuất bản ở một góc yên tĩnh trên mạng, có lẽ là do vô tình. Azimi nhằm mục đích công khai những tài liệu này bằng cách đưa chúng đến Fishkin vào tuần trước, người đã yêu cầu King giúp hiểu chúng.
King lưu ý rằng một tính năng xếp hạng “homepagePagerankNs” cho thấy danh tiếng của trang chủ của một trang web có thể hỗ trợ mọi thứ mà nó xuất bản . Fishkin viết vụ rò rỉ đề cập đến một hệ thống có tên là NavBoost—lần đầu tiên được đề cập đến bởi Phó chủ tịch phụ trách Tìm kiếm của Google, Pandu Nayak, trong lời khai của Bộ Tư pháp—hệ thống này có mục đích đo lường số lần nhấp chuột để tăng thứ hạng trên Google Tìm kiếm . Nhiều người trong ngành SEO đang lấy những tài liệu này làm xác nhận cho điều mà ngành này đã nghi ngờ từ lâu: Một trang web được Google coi là phổ biến có thể nhận được thứ hạng Tìm kiếm cao hơn cho một truy vấn mặc dù trang web ít được biết đến hơn có thể có thông tin tốt hơn.
Trong những tháng gần đây, một số nhà xuất bản nhỏ đã thấy lưu lượng truy cập trên Google Tìm kiếm của họ biến mất . Khi Nilay Patel của The Verge hỏi Giám đốc điều hành Google Sundar Pichai về điều này vào tuần trước, Pichai nói rằng ông không rõ “liệu đó có phải là một xu hướng thống nhất hay không. ” Một tính năng xếp hạng mà King nêu ra dường như giúp phân loại các trang web nhỏ đó một cách thống nhất.
“Họ có một tính năng được gọi là 'smallPersonalSite' và tất nhiên chúng tôi không biết nó được sử dụng như thế nào, nhưng đó là dấu hiệu cho thấy [Google] đang tìm hiểu xem liệu đây có phải là những trang web nhỏ hơn hay không," King nói. “Hiện tại có rất nhiều trang web nhỏ đang bị nghiền nát, điều đó cho thấy rằng [Google] không làm gì đó để bù đắp những tín hiệu thương hiệu lớn này”.
Đáng chú ý, Pichai sau đó đã đề cập trong cuộc phỏng vấn với The Verge rằng, vào những thời điểm khác, Google đã thu hút nhiều lưu lượng truy cập hơn vào các trang web nhỏ. Những tính năng xếp hạng này có thể chỉ ra những đòn bẩy mà Google có thể sử dụng. Khi ngày càng nhiều tổ chức truyền thông quốc gia cấp phép cho nội dung của họ xuất hiện trên ChatGPT, Google Tìm kiếm dường như cũng thiên về các nhà xuất bản lớn hơn. Nhìn rộng ra, điều này có thể có tác động đè bẹp, nén những gì hầu hết mọi người nghe được vào các tổ chức truyền thông chính thống.
Hiệu ứng gợn sóng của những tài liệu Google bị rò rỉ này đã được cảm nhận rộng rãi. Kristen Ruby, Giám đốc điều hành của Ruby Media Group, người đã làm việc trong lĩnh vực quan hệ công chúng kỹ thuật số và SEO hơn 15 năm, nói với Gizmodo rằng cô đã nhận được một tin nhắn đáng ngại vào tối thứ Hai: “Ngày mai Google sẽ gặp chuyện tồi tệ”.
Ruby nhanh chóng phát hiện ra điểm rò rỉ và ghi nhận hai tính năng xếp hạng khiến cô chú ý: “isElectionAuthority” và “isCovidLocalAuthority”. Những tính năng này dường như là cách Google xếp hạng độ tin cậy của một trang web trong việc cung cấp thông tin chính xác về các cuộc bầu cử và COVID-19. Vào năm 2019, Ruby đã viết rất nhiều về cách thước đo các trang web đáng tin cậy của Google (mà Google gọi là EEAT , viết tắt của Kinh nghiệm, Chuyên môn, Quyền hạn và Độ tin cậy) vốn mang tính chính trị. Cô lưu ý rằng cách đo lường các yếu tố này của Google có xu hướng thiên về đường lối chính trị.
“Tôi gặp vấn đề khi Google không cung cấp ngữ cảnh cho các mục quan trọng trong dữ liệu, chẳng hạn như 'isElectionAuthority' hoặc 'isCovidLocalAuthority'. Google xác định thẩm quyền trong các lĩnh vực quan trọng này như thế nào?” Ruby cho biết trong một tuyên bố gửi qua email. “Tôi không cần phải đoán câu trả lời là gì. Google sẽ sớm xuất hiện và cho tôi biết câu trả lời là gì.”
Mặc dù Google là một doanh nghiệp có quyền tiếp cận thông tin cá nhân, Ruby lập luận rằng Google có nghĩa vụ trả lời các câu hỏi về các đặc điểm xếp hạng này định hình thế giới xung quanh chúng ta. King và Fishkin cũng chú ý đến 'isCovidLocalAuthority' và 'isElectionAuthority' trong bài viết của họ về vụ rò rỉ, cả hai đều chỉ ra tầm quan trọng của các công cụ tìm kiếm trong việc nâng cao chất lượng thông tin.
King cho biết: “Tôi nghĩ điều thực sự quan trọng là họ phải cung cấp khả năng phân biệt thông tin như vậy vì dù muốn hay không, Google thực sự là một dịch vụ công”. “Họ có thể phản đối việc tôi nói điều đó, nhưng chúng tôi coi đó là nguồn chính giúp bạn truy cập thông tin trên web.”
Cách Google xếp hạng thông tin trong các ví dụ này là một mô hình thu nhỏ của toàn bộ hệ sinh thái Tìm kiếm. Vào bất kỳ ngày nào, có hàng triệu câu hỏi về thông tin nào cần khuếch đại và thông tin nào cần im lặng. Trong khi Google và một số công ty công nghệ từ lâu đã cố gắng tự coi mình là những thuật toán không có quan điểm, thì các tính năng xếp hạng này cho thấy điều đó không hoàn toàn đúng. Còn rất nhiều ví dụ khác về tính năng xếp hạng được tiết lộ trong bản rò rỉ dài 2.500 trang.
Tìm kiếm câu trả lời bằng thuật toán của Google
Vì Google sẽ không giải thích chi tiết về các tài liệu này và nói với Gizmodo rằng việc cung cấp quá nhiều thông tin có thể tạo điều kiện cho những kẻ xấu, các chuyên gia SEO sẽ thay mặt cho tất cả những người sử dụng Google Tìm kiếm hiểu rõ điều này. Một số trong số 14.000 tính năng xếp hạng được xác định trong tuần trước là những thứ mà Google tuyên bố rõ ràng rằng họ đã không sử dụng trong nhiều năm.
Trong một video từ năm 2016, đại diện Google Tìm kiếm đã tuyên bố: “Chúng tôi không có điểm thẩm quyền trang web. Trong một cuộc phỏng vấn từ năm 2015, một nhân viên khác của Google cho biết: “ Sử dụng các cú nhấp chuột trực tiếp vào bảng xếp hạng sẽ là một sai lầm. ” Bây giờ thật khó để hiểu những nhận xét này dựa trên các tài liệu bị rò rỉ và phản hồi của Google.
“Phản hồi này là một ví dụ hoàn hảo về lý do tại sao mọi người không thích hoặc tin tưởng Google,” Fishkin nói. “Đó là một tuyên bố không đề cập đến vụ rò rỉ, không mang lại giá trị và có thể được viết bởi một AI được đào tạo về thông điệp vô hồn nhất của công ty trong thập kỷ qua.”
Trong kỷ nguyên của câu trả lời AI, Ruby lưu ý rằng cách Google xếp hạng các trang web quan trọng hơn bao giờ hết. Thay vì một loạt liên kết đến nhiều góc nhìn khác nhau, bạn có thể chỉ nhận được một câu trả lời thẳng thắn nhờ Tổng quan về AI mới của Google . Tuy nhiên, chúng tôi đã thấy các bài đăng trên Reddit 10 năm tuổi đã nhận được nhiều quyền lực một cách kỳ lạ, yêu cầu một số người dùng bôi keo vào chiếc bánh pizza của họ . Cách Google lựa chọn quyền hạn ngày càng quan trọng vì kết quả hàng đầu có thể là kết quả duy nhất hiện có tiếng nói.
“Chúng tôi đang chuyển đổi bánh răng. Chúng tôi đang chuyển từ hệ thống tìm kiếm này sang hệ thống tìm kiếm khác,” Ruby nói. “AI đang tác động sâu sắc đến kết quả tìm kiếm.”
Cuối cùng, thật khó để nói Google thực sự đang làm gì với những tính năng xếp hạng này. Điều rõ ràng là Google đã tạo ra những bộ phân loại này và thậm chí có thể còn có nhiều bộ phân loại hơn nữa để xếp hạng các trang web trên internet. Những thứ hạng này rõ ràng đòi hỏi sự phán xét, bổ sung thêm bằng chứng cho thấy Google Tìm kiếm không phải là một trải nghiệm khách quan mà là một loạt các lựa chọn biên tập do những người trong Google thực hiện.