Discrepância entre o robots.txt e o TOS

Dec 02 2020

Essa pergunta me fez pensar em uma situação:

  • Alice pede a Bob para rastrear o site realestate.example.com e retornar os resultados da expressão regular "Price:([0-9]*).*Size:([0-9]*)"
  • Bob aponta um grande rastreador da web de código aberto que implementa a implementação de leitura de robots.txt do googles (e, portanto, é totalmente consistente com as práticas padrão da indústria) em realestate.example.com, executa o greps no resultado e envia os dados para Alice. Ele nunca visita o site manualmente, ele gasta cerca de 2 minutos do tempo humano em todo o trabalho e não precisa disso.
  • realestate.example.com tem um robots.txt que diz "Leve tudo" e um sitemap.xml que descreve as páginas de interesse porque elas se preocupam com o SEO . Ele tem um TOS legível por humanos que diz "Raspar não é permitido".

Bob fez algo errado?

Respostas

2 DavidSiegel Dec 02 2020 at 23:13

Provavelmente não

Não tem havido muitos casos nesta área da lei, e a maioria deles lidou com "links diretos", particularmente casos em que uma pessoa conscientemente ligou a uma página ignorando um login ou página introdutória, quando o site foi projetado de forma que normalmente um o visitante só poderia acessar outras páginas acessando essa página de login ou de introdução. Nos casos em que priva o proprietário do site de renda ou prejudica a reputação do site ao contornar as isenções de responsabilidade, isso foi considerado acionável. Veja a página de Nolo sobre Linking, Framing e Inlining E o artigo da Wikipedia sobre links diretos

In Intellectual Reserve, Inc. v. Utah Lighthouse Ministry , Inc, 75 F. Supp. Os links diretos 2d 1290 (D. Utah 1999) foram considerados violação de direitos autorais por contribuição. Consulte o artigo da Wikipedia sobre o caso. Nesse caso, o conteúdo vinculado foi postado sem a autorização do detentor dos direitos autorais, e nenhuma questão de uso justo foi levantada pela defesa.

Em geral, os tribunais descobriram que publicar uma página na web convida outras pessoas a visitá-la e criar um link para ela. No artigo da Wikipedia sobre "Links profundos" (link acima), é dito que:

Em uma decisão de fevereiro de 2006, o Tribunal Marítimo e Comercial dinamarquês (Copenhagen) considerou o rastreamento sistemático, a indexação e os links profundos do site ofir.dk do site imobiliário Home.dk não conflitantes com a lei dinamarquesa ou a diretiva de banco de dados da União Europeia . O Tribunal afirmou que os motores de busca são desejáveis ​​para o funcionamento da Internet e que, ao publicar informações na Internet, deve-se presumir - e aceitar - que os motores de pesquisa têm links profundos para páginas individuais do seu site.

Em Perfect 10, Inc. v. Amazon.com, Inc. 508 F.3d 1146 (9º Cir. 2007), um tribunal dos EUA considerou que links para imagens protegidas por direitos autorais como parte de uma pesquisa de imagem não eram violação de direitos autorais. O tribunal de apelações do Nono Circuito considerou que a exibição e o cache de miniaturas do Google eram de uso justo, principalmente porque eram "altamente transformadoras".

No Craigslist vs 3Taps (veja o artigo de Jaxenter ), o Cragslist se opôs a repetidos scraping pelo PadMapper, enviou uma ordem de cessar e desistir ao PadMapper e bloqueou seus endereços IP. O PadMapper usou os serviços da 3Taps para contornar este bloco com um proxy. O Craigslist processou e ganhou. O tribunal considerou que, de acordo com a Lei de Fraude e Abuso de Computador dos Estados Unidos (CFAA), a ordem de cessação e desistência e o bloqueio de IP eram avisos suficientes de negação de acesso e que o acesso posterior não era autorizado e constituía uma violação da lei. O edital individual foi considerado fundamental para esta participação.

O caso Ryanair vs PR Aviation foi levado ao Tribunal de Justiça Europeu. Lá, a Ryanair argumentou que a eliminação contínua era uma violação de seus TOS e uma violação de direitos autorais. O tribunal considerou que os proprietários de bancos de dados disponíveis ao público tinham o direito de impor restrições de acesso. Além disso, considerou que a aplicabilidade de um TOS cabia aos tribunais nacionais determinar.

Consulte também este artigo sobre "Questões jurídicas essenciais associadas ao Web Scraping" . Lá é enfatizado que muitos scraping são legais, exceto quando direitos autorais são violados ou quando restrições de acesso específicas sob o CFAA dos EUA (ou leis semelhantes) foram violadas.

Fatos individuais, como preços e tamanhos de residências, não estão sujeitos à proteção de direitos autorais, embora a seleção e organização de tais fatos possam estar, e um banco de dados consistindo de tais fatos possa ser protegido. As páginas postadas na web estão se tornando publicamente acessíveis, a menos que medidas específicas sejam tomadas para torná-las privadas, como proteção por senha, requerendo um login ou aviso individual para não acessar. O arquivo ROBOTS.TXT, embora não seja tecnicamente aplicado, é um padrão amplamente aceito, e um visitante provavelmente tem o direito de presumir que o acesso de acordo com o arquivo de robôs local é autorizado, na ausência de notificação específica do proprietário do site em contrário . O acesso repetido que afeta negativamente a largura de banda ou o desempenho do site pode ser uma questão diferente.