웹 스크래핑의 합법성

Python을 사용하면 웹 사이트 나 웹 페이지의 특정 요소를 긁어 낼 수 있지만 그것이 합법적인지 아닌지 아십니까? 웹 사이트를 스크래핑하기 전에 웹 스크래핑의 합법성에 대해 알아야합니다. 이 장에서는 웹 스크래핑의 합법성과 관련된 개념을 설명합니다.

소개

일반적으로 스크랩 된 데이터를 개인적인 용도로 사용하려는 경우 문제가 없을 수 있습니다. 그러나 해당 데이터를 다시 게시하려는 경우 동일한 작업을 수행하기 전에 소유자에게 다운로드 요청을하거나 스크랩 할 데이터에 대한 정책에 대한 배경 조사를 수행해야합니다.

스크래핑 전에 필요한 연구

데이터 스크랩을 위해 웹 사이트를 타겟팅하는 경우 해당 웹 사이트의 규모와 구조를 이해해야합니다. 다음은 웹 스크래핑을 시작하기 전에 분석해야하는 파일 중 일부입니다.

robots.txt 분석

실제로 대부분의 게시자는 프로그래머가 어느 정도 웹 사이트를 크롤링 할 수 있도록 허용합니다. 다른 의미에서 게시자는 웹 사이트의 특정 부분이 크롤링되기를 원합니다. 이를 정의하기 위해 웹 사이트는 크롤링 할 수있는 부분과 크롤링 할 수없는 부분을 지정하는 몇 가지 규칙을 설정해야합니다. 이러한 규칙은 다음과 같은 파일에 정의됩니다.robots.txt.

robots.txt웹 사이트에서 크롤러가 허용되는 부분과 스크래핑이 허용되지 않는 부분을 식별하는 데 사용되는 사람이 읽을 수있는 파일입니다. robots.txt 파일의 표준 형식은 없으며 웹 사이트 게시자는 필요에 따라 수정할 수 있습니다. 특정 웹 사이트의 URL 뒤에 슬래시와 robots.txt를 제공하여 특정 웹 사이트의 robots.txt 파일을 확인할 수 있습니다. 예를 들어 Google.com에서 확인하려면 다음을 입력해야합니다.https://www.google.com/robots.txt 그리고 우리는 다음과 같은 것을 얻을 것입니다.

User-agent: *
Disallow: /search
Allow: /search/about
Allow: /search/static
Allow: /search/howsearchworks
Disallow: /sdch
Disallow: /groups
Disallow: /index.html?
Disallow: /?
Allow: /?hl=
Disallow: /?hl=*&
Allow: /?hl=*&gws_rd=ssl$
and so on……..

웹 사이트의 robots.txt 파일에 정의 된 가장 일반적인 규칙 중 일부는 다음과 같습니다.

User-agent: BadCrawler
Disallow: /

위의 규칙은 robots.txt 파일이 크롤러에게 BadCrawler 사용자 에이전트는 웹 사이트를 크롤링하지 않습니다.

User-agent: *
Crawl-delay: 5
Disallow: /trap

위의 규칙은 robots.txt 파일이 서버 과부하를 피하기 위해 모든 사용자 에이전트에 대한 다운로드 요청 사이에 5 초 동안 크롤러를 지연 시킨다는 것을 의미합니다. 그만큼/trap링크는 허용되지 않은 링크를 따르는 악의적 인 크롤러를 차단합니다. 요구 사항에 따라 웹 사이트 게시자가 정의 할 수있는 더 많은 규칙이 있습니다. 그들 중 일부는 여기서 논의됩니다.

Sitemap 파일 분석

업데이트 된 정보를 얻기 위해 웹 사이트를 크롤링하려면 어떻게해야합니까? 업데이트 된 정보를 얻기 위해 모든 웹 페이지를 크롤링하지만 이로 인해 해당 특정 웹 사이트의 서버 트래픽이 증가합니다. 그렇기 때문에 웹 사이트는 크롤러가 모든 웹 페이지를 크롤링 할 필요없이 업데이트 된 콘텐츠를 찾을 수 있도록 사이트 맵 파일을 제공합니다. 사이트 맵 표준은http://www.sitemaps.org/protocol.html.

Sitemap 파일의 내용

다음은 사이트 맵 파일의 내용입니다. https://www.microsoft.com/robots.txt 그것은 robot.txt 파일에서 발견됩니다-

Sitemap: https://www.microsoft.com/en-us/explore/msft_sitemap_index.xml
Sitemap: https://www.microsoft.com/learning/sitemap.xml
Sitemap: https://www.microsoft.com/en-us/licensing/sitemap.xml
Sitemap: https://www.microsoft.com/en-us/legal/sitemap.xml
Sitemap: https://www.microsoft.com/filedata/sitemaps/RW5xN8
Sitemap: https://www.microsoft.com/store/collections.xml
Sitemap: https://www.microsoft.com/store/productdetailpages.index.xml
Sitemap: https://www.microsoft.com/en-us/store/locations/store-locationssitemap.xml

위의 내용은 사이트 맵이 웹 사이트의 URL을 나열하고 웹 마스터가 각 URL에 대한 최종 업데이트 날짜, 내용 변경, 다른 URL과의 중요도 등과 같은 추가 정보를 지정할 수 있음을 보여줍니다.

웹 사이트의 크기는 얼마입니까?

웹 사이트의 크기, 즉 웹 사이트의 웹 페이지 수가 크롤링 방식에 영향을 미칩니 까? 물론 그렇습니다. 크롤링 할 웹 페이지 수가 적 으면 효율성은 심각한 문제가 아니지만 Microsoft.com과 같이 웹 사이트에 수백만 개의 웹 페이지가 있다고 가정하면 각 웹 페이지를 순차적으로 다운로드하는 데 몇 달이 걸리며 효율성은 심각한 문제가 될 것입니다.

웹 사이트 크기 확인

Google 크롤러의 결과 크기를 확인하여 웹 사이트 크기를 추정 할 수 있습니다. 결과는 키워드를 사용하여 필터링 할 수 있습니다.siteGoogle 검색을하는 동안. 예를 들어, 크기 추정https://authoraditiagarwal.com/ 아래에 주어진다-

큰 웹 사이트가 아니고 크롤링이 효율성 문제를 일으키지 않음을 의미하는 약 60 개의 결과가 있음을 알 수 있습니다.

웹 사이트에서 사용하는 기술은 무엇입니까?

또 다른 중요한 질문은 웹 사이트에서 사용하는 기술이 크롤링 방식에 영향을 미치는지 여부입니다. 예, 영향을 미칩니다. 하지만 웹 사이트에서 사용하는 기술을 어떻게 확인할 수 있습니까? Python 라이브러리가 있습니다.builtwith 이를 통해 웹 사이트에서 사용하는 기술에 대해 알아볼 수 있습니다.

이 예에서는 웹 사이트에서 사용하는 기술을 확인하겠습니다. https://authoraditiagarwal.com Python 라이브러리의 도움으로 builtwith. 그러나이 라이브러리를 사용하기 전에 다음과 같이 설치해야합니다.

(base) D:\ProgramData>pip install builtwith
Collecting builtwith
   Downloading
https://files.pythonhosted.org/packages/9b/b8/4a320be83bb3c9c1b3ac3f9469a5d66e0
2918e20d226aa97a3e86bddd130/builtwith-1.3.3.tar.gz
Requirement already satisfied: six in d:\programdata\lib\site-packages (from
builtwith) (1.10.0)
Building wheels for collected packages: builtwith
   Running setup.py bdist_wheel for builtwith ... done
   Stored in directory:
C:\Users\gaurav\AppData\Local\pip\Cache\wheels\2b\00\c2\a96241e7fe520e75093898b
f926764a924873e0304f10b2524
Successfully built builtwith
Installing collected packages: builtwith
Successfully installed builtwith-1.3.3

이제 간단한 코드 줄을 따라 특정 웹 사이트에서 사용하는 기술을 확인할 수 있습니다.

In [1]: import builtwith
In [2]: builtwith.parse('http://authoraditiagarwal.com')
Out[2]:
{'blogs': ['PHP', 'WordPress'],
   'cms': ['WordPress'],
   'ecommerce': ['WooCommerce'],
   'font-scripts': ['Font Awesome'],
   'javascript-frameworks': ['jQuery'],
   'programming-languages': ['PHP'],
   'web-servers': ['Apache']}

웹 사이트 소유자는 누구입니까?

웹 사이트의 소유자도 중요합니다. 소유자가 크롤러를 차단하는 것으로 알려진 경우 크롤러는 웹 사이트에서 데이터를 스크랩하는 동안주의해야합니다. 명명 된 프로토콜이 있습니다.Whois 이를 통해 웹 사이트 소유자에 대해 알 수 있습니다.

이 예에서는 Whois의 도움을 받아 microsoft.com 이라는 웹 사이트 소유자를 확인합니다 . 그러나이 라이브러리를 사용하기 전에 다음과 같이 설치해야합니다.

(base) D:\ProgramData>pip install python-whois
Collecting python-whois
   Downloading
https://files.pythonhosted.org/packages/63/8a/8ed58b8b28b6200ce1cdfe4e4f3bbc8b8
5a79eef2aa615ec2fef511b3d68/python-whois-0.7.0.tar.gz (82kB)
   100% |¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦| 92kB 164kB/s
Requirement already satisfied: future in d:\programdata\lib\site-packages (from
python-whois) (0.16.0)
Building wheels for collected packages: python-whois
   Running setup.py bdist_wheel for python-whois ... done
   Stored in directory:
C:\Users\gaurav\AppData\Local\pip\Cache\wheels\06\cb\7d\33704632b0e1bb64460dc2b
4dcc81ab212a3d5e52ab32dc531
Successfully built python-whois
Installing collected packages: python-whois
Successfully installed python-whois-0.7.0

이제 간단한 코드 줄을 따라 특정 웹 사이트에서 사용하는 기술을 확인할 수 있습니다.

In [1]: import whois
In [2]: print (whois.whois('microsoft.com'))
{
   "domain_name": [
      "MICROSOFT.COM",
      "microsoft.com"
   ],
   -------
   "name_servers": [
      "NS1.MSFT.NET",
      "NS2.MSFT.NET",
      "NS3.MSFT.NET",
      "NS4.MSFT.NET",
      "ns3.msft.net",
      "ns1.msft.net",
      "ns4.msft.net",
      "ns2.msft.net"
   ],
   "emails": [
      "[email protected]",
      "[email protected]",
      "[email protected]",
      "[email protected]"
   ],
}