Diskrepanz zwischen robots.txt und TOS

Dec 02 2020

Diese Frage ließ mich an eine Situation denken:

  • Alice bittet Bob, die Website realestate.example.com zu crawlen und die Ergebnisse des regulären Ausdrucks zurückzugeben "Price:([0-9]*).*Size:([0-9]*)"
  • Bob verweist auf einen wichtigen Open-Source-Webcrawler, der die Leseimplementierung von googles robots.txt implementiert (und daher vollständig mit den branchenüblichen Praktiken übereinstimmt), auf realestate.example.com, erfasst das Ergebnis und sendet Daten an Alice. Er besucht die Site nie manuell, er verbrachte ungefähr 2 Minuten menschliche Zeit mit der gesamten Arbeit und musste es nicht.
  • realestate.example.com hat eine robots.txt mit der Aufschrift "Nimm alles" und eine sitemap.xml, die die Seiten von Interesse beschreibt, weil sie sich für SEO interessieren . Es hat eine von Menschen lesbare Nutzungsbedingungen, die besagt, dass "Schaben nicht erlaubt ist".

Hat Bob etwas falsch gemacht?

Antworten

2 DavidSiegel Dec 02 2020 at 23:13

Wahrscheinlich nicht

Es gab nicht viele Fälle in diesem Bereich des Rechts, und diese befassten sich hauptsächlich mit "Deep Linking", insbesondere Fällen, in denen eine Person wissentlich mit einer Seite verlinkt hat, die ein Login oder eine Einführungsseite umgeht, als die Site so gestaltet wurde, dass normalerweise a Besucher konnten nur über eine solche Anmelde- oder Einführungsseite zu anderen Seiten gelangen. In Fällen, in denen dies dem Websitebesitzer das Einkommen entzieht oder den Ruf der Website durch Umgehung von Haftungsausschlüssen beeinträchtigt, wurde dies als umsetzbar angesehen. Siehe Nolos Seite über Linking, Framing und Inlining sowie den Wikipedia-Artikel über Deep Linking

In Intellectual Reserve, Inc. gegen Utah Lighthouse Ministry , Inc, 75 F. Supp. 2d 1290 (D. Utah 1999) Deep Linking wurde als mitwirkende Urheberrechtsverletzung angesehen. Siehe den Wikipedia-Artikel zu diesem Fall. In diesem Fall wurde der Inhalt, auf den verlinkt wird, ohne Genehmigung des Copyright-Inhabers veröffentlicht, und die Verteidigung hat kein Problem der fairen Verwendung angesprochen.

Im Allgemeinen haben Gerichte festgestellt, dass die Veröffentlichung einer Seite im Internet andere dazu einlädt, sie zu besuchen und darauf zu verlinken. In dem Wikipedia-Artikel über "Deep Linking" (oben verlinkt) heißt es:

In einem Urteil vom Februar 2006 stellte das dänische See- und Handelsgericht (Kopenhagen) fest, dass systematisches Crawlen, Indexieren und Deep Linking auf der Portalseite ofir.dk der Immobilienseite Home.dk nicht gegen das dänische Recht oder die Datenbankrichtlinie der Europäischen Union verstößt . Der Hof stellte fest, dass Suchmaschinen für das Funktionieren des Internets wünschenswert sind und dass man bei der Veröffentlichung von Informationen im Internet davon ausgehen und akzeptieren muss, dass Suchmaschinen einen Deep-Link zu einzelnen Seiten der eigenen Website erstellen.

In Perfect 10, Inc. gegen Amazon.com, Inc. 508 F.3d 1146 (9th Cir. 2007) entschied ein US-Gericht, dass Links zu urheberrechtlich geschützten Bildern im Rahmen einer Bildsuche keine Urheberrechtsverletzung darstellen. Das Berufungsgericht des Nineth Circuit entschied, dass die Anzeige und das Zwischenspeichern von Miniaturansichten durch Google eine faire Verwendung darstellt, vor allem, weil sie "hochgradig transformativ" sind.

In Craigslist vs 3Taps (siehe Jaxenter-Artikel ) lehnte Cragslist das wiederholte Scraping durch PadMapper ab, sandte eine Unterlassungsverfügung an PadMapper und blockierte seine IP-Adressen. PadMapper nutzte die Dienste von 3Taps, um diesen Block mit einem Proxy zu umgehen. Craigslist verklagt und gewonnen. Das Gericht entschied, dass nach dem US-amerikanischen Computer Fraud and Abuse Act (CFAA) die Cease and Desist-Verordnung und der IP-Block eine ausreichende Benachrichtigung über die Verweigerung des Zugriffs waren und dass der weitere Zugriff nicht autorisiert war und einen Verstoß gegen das Gesetz darstellte. Die individuelle Bekanntmachung wurde als wesentlich für diese Beteiligung angesehen.

Der Fall Ryanair gegen PR Aviation wurde vor den Europäischen Gerichtshof gebracht. Dort hatte Ryanair argumentiert, dass fortgefahrenes Scraping eine Verletzung seiner AGB und eine Urheberrechtsverletzung darstellt. Das Gericht entschied, dass die Eigentümer öffentlich zugänglicher Datenbanken berechtigt waren, Zugangsbeschränkungen aufzuerlegen. Die Anwendbarkeit der AGB sei ferner Sache der nationalen Gerichte.

Siehe auch diesen Artikel zu "Grundlegende rechtliche Probleme im Zusammenhang mit Web Scraping" . Dort wird betont, dass viel Scraping legal ist, außer wenn das Urheberrecht verletzt wird oder wenn bestimmte Zugriffsbeschränkungen gemäß der US CFAA (oder ähnlichen Gesetzen) verletzt wurden.

Einzelne Tatsachen, wie Immobilienpreise und -größen, unterliegen keinem Urheberrechtsschutz, obwohl die Auswahl und Organisation solcher Tatsachen möglich ist und eine Datenbank, die aus solchen Tatsachen besteht, geschützt werden kann. Im Internet veröffentlichte Seiten werden öffentlich zugänglich gemacht, es sei denn, es werden bestimmte Schritte unternommen, um sie privat zu machen, z. B. Kennwortschutz, Anmeldung oder individuelle Benachrichtigung, um nicht darauf zuzugreifen. Die ROBOTS.TXT-Datei ist zwar technisch nicht durchgesetzt, aber ein weithin akzeptierter Standard, und ein Besucher kann wahrscheinlich davon ausgehen, dass der Zugriff gemäß der lokalen Roboterdatei autorisiert ist, sofern der Websitebesitzer nicht ausdrücklich etwas anderes bestimmt . Wiederholter Zugriff, der sich negativ auf die Bandbreite oder Leistung der Site auswirkt, kann eine andere Sache sein.