ความถูกต้องตามกฎหมายของการขูดเว็บ
ด้วย Python เราสามารถขูดเว็บไซต์หรือองค์ประกอบเฉพาะของหน้าเว็บ แต่คุณมีความคิดว่าถูกกฎหมายหรือไม่? ก่อนที่จะขูดเว็บไซต์ใด ๆ เราต้องรู้เกี่ยวกับกฎหมายของการขูดเว็บ บทนี้จะอธิบายแนวคิดที่เกี่ยวข้องกับความชอบด้วยกฎหมายของการขูดเว็บ
บทนำ
โดยทั่วไปหากคุณจะใช้ข้อมูลที่คัดลอกมาเพื่อการใช้งานส่วนตัวก็อาจไม่มีปัญหาใด ๆ แต่ถ้าคุณกำลังจะเผยแพร่ข้อมูลนั้นอีกครั้งก่อนที่จะดำเนินการเช่นเดียวกันคุณควรส่งคำขอดาวน์โหลดไปยังเจ้าของหรือทำการค้นคว้าข้อมูลพื้นฐานเกี่ยวกับนโยบายรวมทั้งข้อมูลที่คุณกำลังจะขูด
การวิจัยที่จำเป็นก่อนการขูด
หากคุณกำหนดเป้าหมายเว็บไซต์เพื่อคัดลอกข้อมูลจากเว็บไซต์เราจำเป็นต้องเข้าใจขนาดและโครงสร้างของเว็บไซต์นั้น ต่อไปนี้เป็นไฟล์บางส่วนที่เราต้องวิเคราะห์ก่อนเริ่มการขูดเว็บ
การวิเคราะห์ robots.txt
จริงๆแล้วผู้เผยแพร่โฆษณาส่วนใหญ่อนุญาตให้โปรแกรมเมอร์รวบรวมข้อมูลเว็บไซต์ของตนได้ในระดับหนึ่ง ในอีกแง่หนึ่งผู้เผยแพร่ต้องการให้มีการรวบรวมข้อมูลบางส่วนของเว็บไซต์ ในการกำหนดสิ่งนี้เว็บไซต์ต้องวางกฎเกณฑ์บางประการเพื่อระบุว่าส่วนใดบ้างที่สามารถรวบรวมข้อมูลได้และไม่สามารถรวบรวมข้อมูลได้ กฎดังกล่าวกำหนดไว้ในไฟล์ที่เรียกว่าrobots.txt.
robots.txtเป็นไฟล์ที่มนุษย์สามารถอ่านได้ซึ่งใช้เพื่อระบุส่วนของเว็บไซต์ที่อนุญาตให้โปรแกรมรวบรวมข้อมูลและไม่อนุญาตให้ขูด ไม่มีรูปแบบไฟล์ robots.txt มาตรฐานและผู้เผยแพร่เว็บไซต์สามารถแก้ไขได้ตามความต้องการ เราสามารถตรวจสอบไฟล์ robots.txt สำหรับเว็บไซต์หนึ่ง ๆ ได้โดยใส่เครื่องหมายทับและ robots.txt หลัง url ของเว็บไซต์นั้น ตัวอย่างเช่นหากเราต้องการตรวจสอบ Google.com เราก็ต้องพิมพ์https://www.google.com/robots.txt และเราจะได้รับสิ่งต่อไปนี้ -
User-agent: *
Disallow: /search
Allow: /search/about
Allow: /search/static
Allow: /search/howsearchworks
Disallow: /sdch
Disallow: /groups
Disallow: /index.html?
Disallow: /?
Allow: /?hl=
Disallow: /?hl=*&
Allow: /?hl=*&gws_rd=ssl$
and so on……..
กฎทั่วไปบางส่วนที่กำหนดไว้ในไฟล์ robots.txt ของเว็บไซต์มีดังนี้ -
User-agent: BadCrawler
Disallow: /
กฎข้างต้นหมายความว่าไฟล์ robots.txt ขอโปรแกรมรวบรวมข้อมูลด้วย BadCrawler ตัวแทนผู้ใช้ไม่ให้รวบรวมข้อมูลเว็บไซต์ของตน
User-agent: *
Crawl-delay: 5
Disallow: /trap
กฎข้างต้นหมายความว่าไฟล์ robots.txt จะทำให้โปรแกรมรวบรวมข้อมูลล่าช้าเป็นเวลา 5 วินาทีระหว่างคำขอดาวน์โหลดสำหรับ User-agent ทั้งหมดเพื่อหลีกเลี่ยงการทำงานของเซิร์ฟเวอร์ที่ทำงานหนักเกินไป /trapลิงก์จะพยายามบล็อกโปรแกรมรวบรวมข้อมูลที่เป็นอันตรายซึ่งติดตามลิงก์ที่ไม่ได้รับอนุญาต มีกฎอื่น ๆ อีกมากมายที่ผู้เผยแพร่เว็บไซต์สามารถกำหนดได้ตามข้อกำหนด บางส่วนมีการกล่าวถึงที่นี่ -
การวิเคราะห์ไฟล์แผนผังไซต์
คุณควรทำอย่างไรหากต้องการรวบรวมข้อมูลเว็บไซต์เพื่อดูข้อมูลล่าสุด คุณจะรวบรวมข้อมูลทุกหน้าเว็บเพื่อรับข้อมูลที่อัปเดต แต่จะเพิ่มปริมาณการใช้งานเซิร์ฟเวอร์ของเว็บไซต์นั้น ๆ นั่นคือเหตุผลที่เว็บไซต์จัดเตรียมไฟล์แผนผังเว็บไซต์เพื่อช่วยให้โปรแกรมรวบรวมข้อมูลค้นหาเนื้อหาที่อัปเดตโดยไม่จำเป็นต้องรวบรวมข้อมูลทุกหน้าเว็บ มาตรฐานแผนผังเว็บไซต์กำหนดไว้ที่http://www.sitemaps.org/protocol.html.
เนื้อหาของไฟล์แผนผังไซต์
ต่อไปนี้เป็นเนื้อหาของไฟล์แผนผังเว็บไซต์ของ https://www.microsoft.com/robots.txt ที่ถูกค้นพบในไฟล์ robot.txt -
Sitemap: https://www.microsoft.com/en-us/explore/msft_sitemap_index.xml
Sitemap: https://www.microsoft.com/learning/sitemap.xml
Sitemap: https://www.microsoft.com/en-us/licensing/sitemap.xml
Sitemap: https://www.microsoft.com/en-us/legal/sitemap.xml
Sitemap: https://www.microsoft.com/filedata/sitemaps/RW5xN8
Sitemap: https://www.microsoft.com/store/collections.xml
Sitemap: https://www.microsoft.com/store/productdetailpages.index.xml
Sitemap: https://www.microsoft.com/en-us/store/locations/store-locationssitemap.xml
เนื้อหาข้างต้นแสดงให้เห็นว่าแผนผังเว็บไซต์แสดงรายการ URL บนเว็บไซต์และช่วยให้ผู้ดูแลเว็บสามารถระบุข้อมูลเพิ่มเติมบางอย่างเช่นวันที่อัปเดตล่าสุดการเปลี่ยนแปลงเนื้อหาความสำคัญของ URL ที่เกี่ยวข้องกับผู้อื่นเป็นต้นเกี่ยวกับ URL แต่ละรายการ
ขนาดของเว็บไซต์คืออะไร?
ขนาดของเว็บไซต์เช่นจำนวนหน้าเว็บของเว็บไซต์มีผลต่อวิธีที่เรารวบรวมข้อมูลหรือไม่? ใช่แน่นอน เนื่องจากหากเรามีจำนวนหน้าเว็บในการรวบรวมข้อมูลน้อยประสิทธิภาพก็จะไม่ใช่ปัญหาร้ายแรง แต่สมมติว่าหากเว็บไซต์ของเรามีหน้าเว็บหลายล้านหน้าเช่น Microsoft.com การดาวน์โหลดแต่ละหน้าเว็บตามลำดับจะใช้เวลาหลายเดือนและ ประสิทธิภาพจะเป็นปัญหาอย่างมาก
ตรวจสอบขนาดของเว็บไซต์
ด้วยการตรวจสอบขนาดของผลลัพธ์ของโปรแกรมรวบรวมข้อมูลของ Google เราสามารถประมาณขนาดของเว็บไซต์ได้ ผลลัพธ์ของเราสามารถกรองได้โดยใช้คำหลักsiteขณะทำการค้นหาโดย Google ตัวอย่างเช่นการประมาณขนาดของhttps://authoraditiagarwal.com/ ได้รับด้านล่าง -
คุณสามารถเห็นผลลัพธ์ประมาณ 60 รายการซึ่งหมายความว่าไม่ใช่เว็บไซต์ขนาดใหญ่และการรวบรวมข้อมูลจะไม่นำไปสู่ปัญหาด้านประสิทธิภาพ
เว็บไซต์ใช้เทคโนโลยีใด
คำถามสำคัญอีกประการหนึ่งคือเทคโนโลยีที่เว็บไซต์ใช้มีผลต่อวิธีการรวบรวมข้อมูลหรือไม่? ใช่มันมีผลต่อ แต่เราจะตรวจสอบเกี่ยวกับเทคโนโลยีที่เว็บไซต์ใช้งานได้อย่างไร? มีไลบรารี Python ชื่อbuiltwith ด้วยความช่วยเหลือซึ่งเราสามารถค้นหาข้อมูลเกี่ยวกับเทคโนโลยีที่เว็บไซต์ใช้
ตัวอย่าง
ในตัวอย่างนี้เราจะตรวจสอบเทคโนโลยีที่ใช้ในเว็บไซต์ https://authoraditiagarwal.com ด้วยความช่วยเหลือของไลบรารี Python builtwith. แต่ก่อนที่จะใช้ไลบรารีนี้เราจำเป็นต้องติดตั้งดังนี้ -
(base) D:\ProgramData>pip install builtwith
Collecting builtwith
Downloading
https://files.pythonhosted.org/packages/9b/b8/4a320be83bb3c9c1b3ac3f9469a5d66e0
2918e20d226aa97a3e86bddd130/builtwith-1.3.3.tar.gz
Requirement already satisfied: six in d:\programdata\lib\site-packages (from
builtwith) (1.10.0)
Building wheels for collected packages: builtwith
Running setup.py bdist_wheel for builtwith ... done
Stored in directory:
C:\Users\gaurav\AppData\Local\pip\Cache\wheels\2b\00\c2\a96241e7fe520e75093898b
f926764a924873e0304f10b2524
Successfully built builtwith
Installing collected packages: builtwith
Successfully installed builtwith-1.3.3
ตอนนี้ด้วยความช่วยเหลือของบรรทัดรหัสง่ายๆต่อไปนี้เราสามารถตรวจสอบเทคโนโลยีที่ใช้โดยเว็บไซต์เฉพาะได้ -
In [1]: import builtwith
In [2]: builtwith.parse('http://authoraditiagarwal.com')
Out[2]:
{'blogs': ['PHP', 'WordPress'],
'cms': ['WordPress'],
'ecommerce': ['WooCommerce'],
'font-scripts': ['Font Awesome'],
'javascript-frameworks': ['jQuery'],
'programming-languages': ['PHP'],
'web-servers': ['Apache']}
เจ้าของเว็บไซต์คือใคร?
เจ้าของเว็บไซต์ก็มีความสำคัญเช่นกันเนื่องจากหากเจ้าของเป็นที่รู้จักในการบล็อกโปรแกรมรวบรวมข้อมูลโปรแกรมรวบรวมข้อมูลจะต้องระมัดระวังในขณะที่ขูดข้อมูลจากเว็บไซต์ มีโปรโตคอลที่ชื่อWhois ด้วยความช่วยเหลือซึ่งเราสามารถค้นหาเกี่ยวกับเจ้าของเว็บไซต์ได้
ตัวอย่าง
ในตัวอย่างนี้เราจะตรวจสอบเจ้าของเว็บไซต์ว่าmicrosoft.comด้วยความช่วยเหลือของ Whois แต่ก่อนที่จะใช้ไลบรารีนี้เราจำเป็นต้องติดตั้งดังนี้ -
(base) D:\ProgramData>pip install python-whois
Collecting python-whois
Downloading
https://files.pythonhosted.org/packages/63/8a/8ed58b8b28b6200ce1cdfe4e4f3bbc8b8
5a79eef2aa615ec2fef511b3d68/python-whois-0.7.0.tar.gz (82kB)
100% |¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦| 92kB 164kB/s
Requirement already satisfied: future in d:\programdata\lib\site-packages (from
python-whois) (0.16.0)
Building wheels for collected packages: python-whois
Running setup.py bdist_wheel for python-whois ... done
Stored in directory:
C:\Users\gaurav\AppData\Local\pip\Cache\wheels\06\cb\7d\33704632b0e1bb64460dc2b
4dcc81ab212a3d5e52ab32dc531
Successfully built python-whois
Installing collected packages: python-whois
Successfully installed python-whois-0.7.0
ตอนนี้ด้วยความช่วยเหลือของบรรทัดรหัสง่ายๆต่อไปนี้เราสามารถตรวจสอบเทคโนโลยีที่ใช้โดยเว็บไซต์เฉพาะได้ -
In [1]: import whois
In [2]: print (whois.whois('microsoft.com'))
{
"domain_name": [
"MICROSOFT.COM",
"microsoft.com"
],
-------
"name_servers": [
"NS1.MSFT.NET",
"NS2.MSFT.NET",
"NS3.MSFT.NET",
"NS4.MSFT.NET",
"ns3.msft.net",
"ns1.msft.net",
"ns4.msft.net",
"ns2.msft.net"
],
"emails": [
"[email protected]",
"[email protected]",
"[email protected]",
"[email protected]"
],
}