Perbedaan antara robots.txt dan TOS
Pertanyaan ini membuat saya memikirkan sebuah situasi:
- Alice meminta Bob untuk merayapi situs web realestate.example.com dan mengembalikan hasil ekspresi reguler
"Price:([0-9]*).*Size:([0-9]*)"
- Bob menunjuk crawler web open source utama yang mengimplementasikan implementasi membaca robots.txt di Google (dan karenanya sepenuhnya konsisten dengan praktik standar industri) di realestate.example.com, mengambil hasilnya, mengirim data ke Alice. Dia tidak pernah mengunjungi situs secara manual, dia menghabiskan sekitar 2 menit waktu manusia di seluruh pekerjaan dan tidak perlu.
- realestate.example.com memiliki robots.txt yang bertuliskan "Ambil semuanya" dan sitemap.xml yang mendeskripsikan halaman yang diminati karena peduli dengan SEO . Ini memiliki TOS yang dapat dibaca manusia yang mengatakan "Scraping tidak diperbolehkan".
Apakah Bob melakukan kesalahan?
Jawaban
Mungkin tidak
Tidak banyak kasus di bidang hukum ini, dan sebagian besar berurusan dengan "deep linking", terutama kasus di mana seseorang dengan sengaja menautkan ke halaman melewati halaman login atau pengantar, ketika situs itu dirancang sedemikian rupa sehingga biasanya pengunjung hanya bisa sampai ke halaman lain dengan melalui halaman login atau halaman intro tersebut. Jika hal ini merampas pendapatan pemilik situs, atau merusak reputasi situs dengan mengabaikan penafian, tindakan ini dianggap dapat ditindaklanjuti. Lihat halaman Nolo di Linking, Framing, and Inlining Dan artikel Wikipedia tentang Deep linking
Dalam Intellectual Reserve, Inc. v. Utah Lighthouse Ministry , Inc, 75 F. Supp. 2d 1290 (D. Utah 1999) deep linking dianggap sebagai pelanggaran hak cipta terkait. Lihat artikel Wikipedia tentang kasus tersebut. Dalam hal ini, konten yang ditautkan telah diposting tanpa izin dari pemegang hak cipta, dan tidak ada masalah penggunaan wajar yang diangkat oleh pihak tergugat.
Secara umum, pengadilan telah menemukan bahwa menerbitkan halaman di web mengundang orang lain untuk mengunjunginya dan menautkannya. Dalam artikel Wikipedia tentang "Deep linking" (ditautkan di atas) dikatakan bahwa:
Dalam keputusan Februari 2006, Pengadilan Maritim dan Komersial Denmark (Kopenhagen) menemukan perayapan sistematis, pengindeksan, dan tautan dalam oleh situs portal ofir.dk dari situs real estat Home.dk tidak bertentangan dengan hukum Denmark atau arahan basis data Uni Eropa. . Pengadilan menyatakan bahwa mesin telusur diinginkan untuk memfungsikan Internet, dan bahwa, ketika menerbitkan informasi di Internet, seseorang harus berasumsi — dan menerima — bahwa mesin telusur melakukan deep-link ke halaman individual situs web seseorang.
Dalam Perfect 10, Inc. v. Amazon.com, Inc. 508 F.3d 1146 (9 Cir. 2007) pengadilan AS menyatakan bahwa link ke gambar berhak cipta sebagai bagian dari pencarian gambar bukanlah pelanggaran hak cipta. Pengadilan Banding Nineth Circuit menyatakan bahwa tampilan dan penyimpanan thumbnail Google adalah penggunaan wajar, terutama karena thumbnail tersebut "sangat transformatif".
Dalam Craigslist vs 3Taps (lihat artikel Jaxenter ) Cragslist keberatan dengan pengikisan berulang oleh PadMapper, mengirim perintah berhenti dan berhenti ke PadMapper, dan memblokir alamat IP-nya. PadMapper menggunakan layanan 3Taps untuk melewati blokir ini dengan proxy. Craigslist menggugat dan menang. Pengadilan memutuskan bahwa berdasarkan Undang-Undang Penipuan dan Penyalahgunaan Komputer AS (CFAA), perintah Cease and Desist dan blok IP adalah pemberitahuan yang memadai tentang penolakan akses, dan bahwa akses lebih lanjut tidak sah dan merupakan pelanggaran terhadap tindakan tersebut. Pemberitahuan individu dianggap penting untuk penahanan ini.
Kasus Ryanair vs PR Aviation dibawa ke Pengadilan Eropa. Di sana, Ryanair berargumen bahwa pengikisan yang berkelanjutan merupakan pelanggaran terhadap TOS-nya dan pelanggaran hak cipta. Pengadilan memutuskan bahwa pemilik database yang tersedia untuk umum berhak untuk memberlakukan pembatasan akses. Lebih lanjut dinyatakan bahwa penerapan KL adalah masalah yang harus ditentukan oleh pengadilan nasional.
Lihat juga artikel ini di "Masalah Hukum Penting Terkait Dengan Web Scraping" . Di sana ditekankan bahwa banyak scraping adalah legal, kecuali jika hak cipta dilanggar, atau ketika pembatasan akses tertentu di bawah US CFAA (atau undang-undang serupa) dilanggar.
Fakta individu, seperti harga dan ukuran rumah, tidak tunduk pada perlindungan hak cipta, meskipun pemilihan dan pengorganisasian fakta tersebut mungkin saja dilakukan, dan database yang terdiri dari fakta tersebut dapat dilindungi. Halaman yang diposting di web sedang dibuat dapat diakses publik kecuali langkah-langkah khusus diambil untuk menjadikannya pribadi, seperti perlindungan kata sandi, memerlukan login, atau pemberitahuan individu untuk tidak mengakses. File ROBOTS.TXT, meskipun tidak diberlakukan secara teknis, adalah standar yang diterima secara luas, dan pengunjung mungkin berhak untuk menganggap bahwa akses yang sesuai dengan file robot lokal diotorisasi, jika tidak ada pemberitahuan khusus dari pemilik situs yang sebaliknya . Akses berulang yang berdampak negatif pada bandwidth atau kinerja situs mungkin merupakan masalah yang berbeda.