Écart entre robots.txt et TOS

Dec 02 2020

Cette question m'a fait penser à une situation:

  • Alice demande à Bob d'explorer le site Web realestate.example.com et de renvoyer les résultats de l'expression régulière "Price:([0-9]*).*Size:([0-9]*)"
  • Bob pointe un robot d'exploration Web open source majeur qui implémente l' implémentation de la lecture de googles robots.txt (et il est donc parfaitement conforme aux pratiques standard de l'industrie) sur realestate.example.com, greps le résultat, envoie des données à Alice. Il ne visite jamais le site manuellement, il a passé environ 2 minutes de temps humain sur l'ensemble du travail et n'en avait pas besoin.
  • realestate.example.com a un fichier robots.txt qui dit "Prenez tout" et un sitemap.xml décrivant les pages d'intérêt parce qu'ils se soucient du référencement . Il a un TOS lisible par l'homme qui dit "Le grattage n'est pas autorisé".

Bob a-t-il fait quelque chose de mal?

Réponses

2 DavidSiegel Dec 02 2020 at 23:13

Probablement pas

Il n'y a pas eu beaucoup de cas dans ce domaine de la loi, et ceux-ci concernaient principalement des "liens profonds", en particulier des cas où une personne sciemment liée à une page contournant une page de connexion ou d'introduction, alors que le site était conçu de manière à le visiteur ne pouvait accéder à d'autres pages qu'en passant par une telle page de connexion ou d'introduction. Dans les cas où cela prive le propriétaire du site de revenus, ou nuit à la réputation du site en contournant les clauses de non-responsabilité, cela a été jugé passible de poursuites. Voir la page de Nolo sur les liens, le cadrage et l'intégration et l'article de Wikipedia sur les liens profonds

Dans Intellectual Reserve, Inc. c. Utah Lighthouse Ministry , Inc., 75 F. Supp. Les liens profonds 2d 1290 (D. Utah 1999) ont été considérés comme une violation de copyright contributive. Voir l'article de Wikipédia sur l'affaire Dans ce cas, le contenu auquel le lien avait été mis en ligne avait été publié sans l'autorisation du détenteur des droits d'auteur, et aucun problème d'utilisation équitable n'a été soulevé par la défense.

En général, les tribunaux ont constaté que la publication d'une page sur le Web invite d'autres personnes à la visiter et à y créer un lien. Dans l'article de Wikipédia sur les "liens profonds" (lien ci-dessus), il est dit que:

Dans une décision de février 2006, le tribunal maritime et commercial danois (Copenhague) a constaté que l'exploration, l'indexation et les liens profonds systématiques par le site portail ofir.dk du site immobilier Home.dk ne sont pas en conflit avec la loi danoise ou la directive sur les bases de données de l'Union européenne. . La Cour a déclaré que les moteurs de recherche sont souhaitables pour le fonctionnement d'Internet et que, lors de la publication d'informations sur Internet, il faut supposer - et accepter - que les moteurs de recherche établissent des liens profonds vers des pages individuelles de son site Web.

Dans Perfect 10, Inc. c. Amazon.com, Inc. 508 F.3d 1146 (9th Cir. 2007), un tribunal américain a jugé que les liens vers des images protégées par le droit d'auteur dans le cadre d'une recherche d'images ne constituaient pas une violation du droit d'auteur. La cour d'appel du Nineth Circuit a estimé que l'affichage et la mise en cache des vignettes par Google étaient un usage loyal, principalement parce qu'ils étaient «hautement transformateurs».

Dans Craigslist vs 3Taps (voir l' article Jaxenter ), Cragslist s'est opposé au grattage répété par PadMapper, a envoyé un ordre de cesser et de s'abstenir à PadMapper et a bloqué ses adresses IP. PadMapper a utilisé les services de 3Taps pour contourner ce bloc avec un proxy. Craigslist a poursuivi et gagné. Le tribunal a estimé qu'en vertu de la Computer Fraud and Abuse Act (CFAA) des États-Unis, l'ordonnance de cesser et de s'abstenir et le blocage de la propriété intellectuelle constituaient un préavis suffisant de refus d'accès, et qu'un accès supplémentaire était non autorisé et constituait une violation de la loi. L'avis individuel a été jugé essentiel à cette exploitation.

L'affaire Ryanair contre PR Aviation a été portée devant la Cour européenne de justice. Là, Ryanair avait fait valoir que la poursuite du grattage était une violation de ses CGU et une violation du droit d'auteur. Le tribunal a estimé que les propriétaires de bases de données accessibles au public avaient le droit d'imposer des restrictions d'accès. Il a en outre estimé que l'applicabilité d'une TOS était du ressort des tribunaux nationaux.

Consultez également cet article sur les «Questions juridiques essentielles liées au raclage Web» . Là, il est souligné qu'une grande partie du grattage est légale, sauf en cas de violation du droit d'auteur ou lorsque des restrictions d'accès spécifiques en vertu de la CFAA américaine (ou de lois similaires) ont été violées.

Les faits individuels, tels que les prix et les dimensions des maisons, ne sont pas soumis à la protection du droit d'auteur, bien que la sélection et l'organisation de ces faits puissent l'être, et une base de données constituée de ces faits puisse être protégée. Les pages publiées sur le Web sont rendues accessibles au public à moins que des mesures spécifiques ne soient prises pour les rendre privées, telles que la protection par mot de passe, la nécessité d'une connexion ou une notification individuelle pour ne pas y accéder. Le fichier ROBOTS.TXT, bien que non appliqué techniquement, est une norme largement acceptée, et un visiteur est probablement en droit de supposer que l'accès conformément au fichier robots local est autorisé, en l'absence d'avis spécifique du propriétaire du site indiquant le contraire. . Un accès répété qui a un impact négatif sur la bande passante ou les performances du site peut être une autre affaire.