Scrapy-개요

Scrapy는 Python으로 작성된 빠른 오픈 소스 웹 크롤링 프레임 워크로, XPath 기반 선택기의 도움으로 웹 페이지에서 데이터를 추출하는 데 사용됩니다.

Scrapy는 2008 년 6 월 26 일 BSD에 따라 라이선스가 부여 된 처음 출시되었으며, 마일스톤 1.0은 2015 년 6 월에 출시되었습니다.

왜 Scrapy를 사용합니까?

  • 대규모 크롤링 프로젝트를 빌드하고 확장하는 것이 더 쉽습니다.

  • 웹 사이트에서 데이터를 추출하기위한 선택기라는 내장 메커니즘이 있습니다.

  • 요청을 비동기 적으로 처리하며 빠릅니다.

  • 자동 조절 메커니즘을 사용하여 크롤링 속도를 자동 으로 조정합니다 .

  • 개발자 접근성을 보장합니다.

Scrapy의 특징

  • Scrapy는 오픈 소스이며 웹 크롤링 프레임 워크를 무료로 사용할 수 있습니다.

  • Scrapy는 JSON, CSV 및 XML과 같은 형식으로 피드 내보내기를 생성합니다.

  • Scrapy에는 XPath 또는 CSS 표현식을 통해 소스에서 데이터를 선택하고 추출하는 기능이 내장되어 있습니다.

  • 크롤러를 기반으로 한 Scrapy는 웹 페이지에서 자동으로 데이터를 추출 할 수 있습니다.

장점

  • Scrapy는 쉽게 확장 가능하고 빠르고 강력합니다.

  • 크로스 플랫폼 애플리케이션 프레임 워크 (Windows, Linux, Mac OS 및 BSD)입니다.

  • Scrapy 요청은 비동기 적으로 예약되고 처리됩니다.

  • Scrapy에는 Scrapyd JSON 웹 서비스를 사용하여 프로젝트를 업로드하고 스파이더를 제어 할 수 있습니다.

  • 웹 사이트에 원시 데이터 액세스를위한 API가 없지만 모든 웹 사이트를 스크랩 할 수 있습니다.

단점

  • Scrapy는 Python 2.7 전용입니다. +

  • 운영 체제에 따라 설치가 다릅니다.