Discrepanza tra robots.txt e TOS

Dec 02 2020

Questa domanda mi ha fatto pensare a una situazione:

  • Alice chiede a Bob di eseguire la scansione del sito web realestate.example.com e di restituire i risultati dell'espressione regolare "Price:([0-9]*).*Size:([0-9]*)"
  • Bob indica un importante web crawler open source che implementa l' implementazione della lettura di googles robots.txt (e quindi completamente coerente con le pratiche standard del settore) su realestate.example.com, greps il risultato, invia i dati ad Alice. Non visita mai il sito manualmente, ha impiegato circa 2 minuti di tempo umano sull'intero lavoro e non ne ha avuto bisogno.
  • realestate.example.com ha un robots.txt che dice "Prendi tutto" e un sitemap.xml che descrive le pagine di interesse perché hanno a cuore la SEO . Ha un TOS leggibile dall'uomo che dice "Scraping non è consentito".

Bob ha fatto qualcosa di sbagliato?

Risposte

2 DavidSiegel Dec 02 2020 at 23:13

Probabilmente no

Non ci sono stati molti casi in quest'area della legge, e quelli si sono occupati principalmente di "deep linking", in particolare casi in cui una persona si è collegata consapevolmente a una pagina bypassando un login o una pagina introduttiva, quando il sito è stato progettato in modo che normalmente un il visitatore può accedere ad altre pagine solo tramite tale pagina di accesso o introduzione. Nei casi in cui ciò priva il proprietario del sito di reddito o danneggia la reputazione del sito aggirando le dichiarazioni di non responsabilità, ciò è stato ritenuto perseguibile. Vedi la pagina di Nolo su Linking, Framing e Inlining e l' articolo di Wikipedia su Deep linking

In Intellectual Reserve, Inc. contro Utah Lighthouse Ministry , Inc, 75 F. Supp. 2d 1290 (D. Utah 1999) è stato ritenuto che il deep linking costituisse una violazione del copyright. Vedere l'articolo di Wikipedia sul caso In quel caso, il contenuto a cui era stato collegato il collegamento era stato pubblicato senza l'autorizzazione del titolare del copyright e la difesa non ha sollevato alcun problema di fair use.

In generale, i tribunali hanno riscontrato che la pubblicazione di una pagina sul Web invita altri a visitarla e collegarsi ad essa. Nell'articolo di Wikipedia su "Deep linking" (linkato sopra) si dice che:

In una sentenza del febbraio 2006, il tribunale marittimo e commerciale danese (Copenaghen) ha rilevato che la scansione, l'indicizzazione e il deep linking sistematici da parte del sito portale ofir.dk del sito immobiliare Home.dk non sono in conflitto con la legge danese o la direttiva sui database dell'Unione europea . La Corte ha affermato che i motori di ricerca sono desiderabili per il funzionamento di Internet e che, quando si pubblicano informazioni su Internet, si deve presumere - e accettare - che i motori di ricerca effettuino link diretti a singole pagine del proprio sito web.

In Perfect 10, Inc. v. Amazon.com, Inc. 508 F.3d 1146 (9 ° cir. 2007) un tribunale degli Stati Uniti ha dichiarato che i collegamenti alle immagini protette da copyright nell'ambito di una ricerca di immagini non costituivano una violazione del copyright. La corte d'appello del Nono Circuito ha ritenuto che la visualizzazione e la memorizzazione nella cache delle miniature da parte di Google fosse un uso corretto, principalmente perché erano "altamente trasformative".

In Craigslist vs 3Taps (vedi articolo su Jaxenter ) Cragslist si è opposto a ripetuti scraping da parte di PadMapper, ha inviato un ordine di cessazione e desistenza a PadMapper e ha bloccato i suoi indirizzi IP. PadMapper ha utilizzato i servizi di 3Taps per aggirare questo blocco con un proxy. Craigslist fece causa e vinse. La corte ha ritenuto che, ai sensi del Computer Fraud and Abuse Act (CFAA) degli Stati Uniti, l'ordine Cease and Desist e il blocco della PI costituissero un preavviso sufficiente per negare l'accesso e che l'ulteriore accesso non fosse autorizzato e costituisse una violazione dell'atto. Il bando individuale è stato considerato essenziale per questa azienda.

Il caso Ryanair contro PR Aviation è stato portato alla Corte di giustizia europea. Lì, Ryanair aveva sostenuto che lo scraping continuato era una violazione dei suoi TOS e una violazione del copyright. La corte ha ritenuto che i proprietari di banche dati pubblicamente disponibili avevano il diritto di imporre restrizioni di accesso. Ha inoltre ritenuto che l'applicabilità di un TOS fosse una questione che spettava ai tribunali nazionali determinare.

Vedere anche questo articolo su "Problemi legali essenziali associati allo scraping del web" . Qui si sottolinea che gran parte dello scraping è legale, tranne quando il copyright viene violato o quando sono state violate specifiche restrizioni di accesso ai sensi del CFAA statunitense (o leggi simili).

I fatti individuali, come i prezzi e le dimensioni delle case, non sono soggetti alla protezione del diritto d'autore, sebbene la selezione e l'organizzazione di tali fatti possano esserlo, e un database costituito da tali fatti possa essere protetto. Le pagine pubblicate sul Web vengono rese pubblicamente accessibili a meno che non vengano prese misure specifiche per renderle private, come la protezione con password, la richiesta di un accesso o una notifica individuale per non accedere. Il file ROBOTS.TXT, pur non essendo tecnicamente applicato, è uno standard ampiamente accettato e un visitatore ha probabilmente il diritto di presumere che l'accesso in accordo con il file robot locale sia autorizzato, in assenza di specifica comunicazione contraria da parte del proprietario del sito . L'accesso ripetuto che influisce negativamente sulla larghezza di banda o sulle prestazioni del sito potrebbe essere una questione diversa.