Scrapy-퀵 가이드
Scrapy는 Python으로 작성된 빠른 오픈 소스 웹 크롤링 프레임 워크로 XPath 기반 선택기의 도움으로 웹 페이지에서 데이터를 추출하는 데 사용됩니다.
Scrapy는 2008 년 6 월 26 일 BSD 라이센스를 받아 처음 출시되었으며, 마일스톤 1.0은 2015 년 6 월에 출시되었습니다.
왜 Scrapy를 사용합니까?
대규모 크롤링 프로젝트를 빌드하고 확장하는 것이 더 쉽습니다.
웹 사이트에서 데이터를 추출하기위한 선택기라는 내장 메커니즘이 있습니다.
요청을 비동기 적으로 처리하고 빠릅니다.
자동 조절 메커니즘을 사용하여 크롤링 속도를 자동 으로 조정합니다 .
개발자 접근성을 보장합니다.
Scrapy의 특징
Scrapy는 오픈 소스이며 웹 크롤링 프레임 워크를 무료로 사용할 수 있습니다.
Scrapy는 JSON, CSV 및 XML과 같은 형식으로 피드 내보내기를 생성합니다.
Scrapy는 XPath 또는 CSS 표현식으로 소스에서 데이터를 선택하고 추출하기위한 기본 제공 지원을 제공합니다.
크롤러를 기반으로 한 Scrapy는 웹 페이지에서 데이터를 자동으로 추출 할 수 있습니다.
장점
Scrapy는 쉽게 확장 가능하고 빠르고 강력합니다.
크로스 플랫폼 애플리케이션 프레임 워크 (Windows, Linux, Mac OS 및 BSD)입니다.
Scrapy 요청은 비동기 적으로 예약되고 처리됩니다.
Scrapy에는 Scrapyd JSON 웹 서비스를 사용하여 프로젝트를 업로드하고 스파이더를 제어 할 수 있습니다.
웹 사이트에 원시 데이터 액세스를위한 API가 없지만 모든 웹 사이트를 스크랩 할 수 있습니다.
단점
Scrapy는 Python 2.7 전용입니다. +
운영 체제에 따라 설치가 다릅니다.
이 장에서는 Scrapy를 설치하고 설정하는 방법에 대해 설명합니다. Scrapy는 Python과 함께 설치해야합니다.
Scrapy는 다음을 사용하여 설치할 수 있습니다. pip. 설치하려면 다음 명령을 실행하십시오-
pip install Scrapy
윈도우
Note − Python 3은 Windows OS에서 지원되지 않습니다.
Step 1− Python에서 Python 2.7 설치
PATH에 다음 경로를 추가하여 환경 변수를 설정하십시오-
C:\Python27\;C:\Python27\Scripts\;
다음 명령을 사용하여 Python 버전을 확인할 수 있습니다.
python --version
Step 2− OpenSSL을 설치합니다 .
환경 변수에 C : \ OpenSSL-Win32 \ bin을 추가합니다.
Note − OpenSSL은 Windows를 제외한 모든 운영 체제에 사전 설치되어 있습니다.
Step 3− Visual C ++ 2008 재배포 가능 패키지를 설치합니다 .
Step 4− pywin32를 설치합니다 .
Step 5− 2.7.9 이전 버전의 Python 용 pip 를 설치합니다 .
다음 명령을 사용하여 pip 버전을 확인할 수 있습니다.
pip --version
Step 6 − scrapy를 설치하려면 다음 명령을 실행하세요 −
pip install Scrapy
아나콘다
당신이있는 경우 아나콘다 또는 miniconda가 컴퓨터에 설치 명령 아래가 CONDA를 사용하여 Scrapy를 설치하는 실행 -
conda install -c scrapinghub scrapy
Scrapinghub 회사는 Linux, Windows 및 OS X 용 공식 conda 패키지를 지원합니다.
Note − pip를 통해 설치하는 데 문제가있는 경우 위 명령을 사용하여 Scrapy를 설치하는 것이 좋습니다.
Ubuntu 9.10 이상
최신 버전의 Python은 Ubuntu OS에 사전 설치되어 있습니다. Scrapinghub에서 제공하는 Ubuntu 패키지 aptgettable을 사용하십시오. 패키지를 사용하려면-
Step 1 − Scrapy 패키지에 서명하는 데 사용되는 GPG 키를 APT 키링으로 가져와야합니다.
sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 627220E7
Step 2 − 다음으로 다음 명령을 사용하여 /etc/apt/sources.list.d/scrapy.list 파일을 만듭니다. −
echo 'deb http://archive.scrapy.org/ubuntu scrapy main' | sudo tee
/etc/apt/sources.list.d/scrapy.list
Step 3 − 패키지 목록 업데이트 및 스크래피 설치 −
sudo apt-get update && sudo apt-get install scrapy
Archlinux
다음 명령을 사용하여 AUR Scrapy 패키지에서 Scrapy를 설치할 수 있습니다.
yaourt -S scrapy
맥 OS X
다음 명령을 사용하여 Xcode 명령 줄 도구를 설치하십시오.
xcode-select --install
시스템 Python을 사용하는 대신 시스템의 나머지 부분과 충돌하지 않는 새 업데이트 버전을 설치하십시오.
Step 1− homebrew를 설치합니다 .
Step 2 − 환경 PATH 변수를 설정하여 홈브류 패키지가 시스템 패키지보다 먼저 사용되도록 지정 −
echo "export PATH = /usr/local/bin:/usr/local/sbin:$PATH" >> ~/.bashrc
Step 3 − 변경이 완료되었는지 확인하려면 .bashrc 다음 명령을 사용하여-
source ~/.bashrc
Step 4 − 다음으로 다음 명령을 사용하여 Python을 설치합니다 −
brew install python
Step 5 − 다음 명령을 사용하여 Scrapy를 설치합니다 −
pip install Scrapy
기술
Scrapy 명령 줄 도구는 Scrapy를 제어하는 데 사용됩니다. 'Scrapy tool'. 여기에는 인수 및 옵션 그룹과 함께 다양한 개체에 대한 명령이 포함됩니다.
구성 설정
Scrapy는 다음에서 구성 설정을 찾습니다. scrapy.cfg파일. 다음은 몇 가지 위치입니다-
시스템의 C : \ scrapy (프로젝트 폴더) \ scrapy.cfg
~ / .config / scrapy.cfg ($ XDG_CONFIG_HOME) 및 ~ / .scrapy.cfg ($ HOME) 전역 설정
프로젝트의 루트에서 scrapy.cfg를 찾을 수 있습니다.
Scrapy는 다음 환경 변수를 사용하여 구성 할 수도 있습니다.
- SCRAPY_SETTINGS_MODULE
- SCRAPY_PROJECT
- SCRAPY_PYTHON_SHELL
기본 구조 스크래피 프로젝트
다음 구조는 Scrapy 프로젝트의 기본 파일 구조를 보여줍니다.
scrapy.cfg - Deploy the configuration file
project_name/ - Name of the project
_init_.py
items.py - It is project's items file
pipelines.py - It is project's pipelines file
settings.py - It is project's settings file
spiders - It is the spiders directory
_init_.py
spider_name.py
. . .
그만큼 scrapy.cfgfile은 프로젝트 설정과 함께 프로젝트 이름을 포함하는 프로젝트 루트 디렉토리입니다. 예를 들어-
[settings]
default = [name of the project].settings
[deploy]
#url = http://localhost:6800/
project = [name of the project]
Scrapy 도구 사용
Scrapy 도구는 다음과 같이 몇 가지 사용법과 사용 가능한 명령을 제공합니다.
Scrapy X.Y - no active project
Usage:
scrapy [options] [arguments]
Available commands:
crawl It puts spider (handle the URL) to work for crawling data
fetch It fetches the response from the given URL
프로젝트 생성
Scrapy에서 프로젝트를 생성하기 위해 다음 명령을 사용할 수 있습니다-
scrapy startproject project_name
그러면 다음과 같은 프로젝트가 생성됩니다. project_name예배 규칙서. 다음으로 다음 명령을 사용하여 새로 생성 된 프로젝트로 이동합니다.
cd project_name
프로젝트 제어
Scrapy 도구를 사용하여 프로젝트를 제어하고 관리 할 수 있으며 다음 명령을 사용하여 새 스파이더를 만들 수도 있습니다.
scrapy genspider mydomain mydomain.com
크롤링 등과 같은 명령은 Scrapy 프로젝트 내에서 사용해야합니다. 다음 섹션에서 Scrapy 프로젝트 내에서 어떤 명령을 실행해야하는지 알게 될 것입니다.
Scrapy에는 프로젝트에 사용할 수있는 몇 가지 기본 제공 명령이 포함되어 있습니다. 사용 가능한 명령 목록을 보려면 다음 명령을 사용하십시오.
scrapy -h
다음 명령을 실행하면 Scrapy는 사용 가능한 명령 목록을 표시합니다.
fetch − Scrapy 다운로더를 사용하여 URL을 가져옵니다.
runspider − 프로젝트를 생성하지 않고 자체 포함 된 스파이더를 실행하는 데 사용됩니다.
settings − 프로젝트 설정 값을 지정합니다.
shell − 주어진 URL에 대한 대화 형 스크래핑 모듈입니다.
startproject − 새로운 Scrapy 프로젝트를 생성합니다.
version − Scrapy 버전을 표시합니다.
view − Scrapy 다운로더를 이용하여 URL을 가져와 브라우저에 내용을 보여줍니다.
나열된대로 일부 프로젝트 관련 명령을 가질 수 있습니다-
crawl − 스파이더를 이용하여 데이터를 크롤링하는데 사용됩니다.
check − 크롤링 된 명령에 의해 반환 된 항목을 확인합니다.
list − 프로젝트에 존재하는 사용 가능한 스파이더 목록을 표시합니다.
edit − 편집기를 사용하여 거미를 편집 할 수 있습니다.
parse − 스파이더로 주어진 URL을 구문 분석합니다.
bench − 빠른 벤치 마크 테스트를 실행하는 데 사용됩니다 (Benchmark는 Scrapy가 분당 크롤링 할 수있는 페이지 수를 알려줍니다).
사용자 지정 프로젝트 명령
다음을 사용하여 사용자 지정 프로젝트 명령을 빌드 할 수 있습니다. COMMANDS_MODULEScrapy 프로젝트에서 설정합니다. 설정에 기본 빈 문자열이 포함됩니다. 다음 사용자 정의 명령을 추가 할 수 있습니다-
COMMANDS_MODULE = 'mycmd.commands'
다음과 같이 setup.py 파일의 scrapy.commands 섹션을 사용하여 Scrapy 명령을 추가 할 수 있습니다.
from setuptools import setup, find_packages
setup(name = 'scrapy-module_demo',
entry_points = {
'scrapy.commands': [
'cmd_demo = my_module.commands:CmdDemo',
],
},
)
위의 코드는 cmd_demo 명령 setup.py 파일.
기술
Spider는 웹 사이트를 통해 링크를 따라 가고 페이지에서 정보를 추출하는 방법을 정의하는 클래스입니다.
Scrapy의 기본 스파이더는 다음과 같습니다.
스크래피. 거미
다른 모든 거미가 물려 받아야하는 거미입니다. 그것은 다음과 같은 클래스가 있습니다-
class scrapy.spiders.Spider
다음 표는 scrapy.Spider 클래스의 필드를 보여줍니다-
Sr. 아니요 | 필드 및 설명 |
---|---|
1 | name 거미의 이름입니다. |
2 | allowed_domains 스파이더가 크롤링하는 도메인 목록입니다. |
삼 | start_urls 이는 스파이더가 크롤링을 시작하는 이후 크롤링의 루트가 될 URL 목록입니다. |
4 | custom_settings 이러한 설정은 스파이더를 실행할 때 프로젝트 전체 구성에서 무시됩니다. |
5 | crawler 스파이더 인스턴스가 바인딩 된 크롤러 개체에 연결하는 속성입니다. |
6 | settings 스파이더를 실행하기위한 설정입니다. |
7 | logger 로그 메시지를 보내는 데 사용되는 Python 로거입니다. |
8 | from_crawler(crawler,*args,**kwargs) 거미를 만드는 클래스 메서드입니다. 매개 변수는-
|
9 | start_requests() 특정 URL이 지정되지 않고 스파이더가 스크랩을 위해 열리면 Scrapy는 start_requests () 메서드를 호출합니다 . |
10 | make_requests_from_url(url) URL을 요청으로 변환하는 데 사용되는 방법입니다. |
11 | parse(response) 이 메서드는 응답을 처리하고 더 많은 URL을 따라 스크랩 된 데이터를 반환합니다. |
12 | log(message[,level,component]) 스파이더 로거를 통해 로그 메시지를 보내는 방법입니다. |
13 | closed(reason) 이 메서드는 스파이더가 닫힐 때 호출됩니다. |
스파이더 인수
스파이더 인수는 시작 URL을 지정하는 데 사용되며 다음과 함께 crawl 명령을 사용하여 전달됩니다. -a 다음과 같이 표시된 옵션-
scrapy crawl first_scrapy -a group = accessories
다음 코드는 스파이더가 인수를받는 방법을 보여줍니다.
import scrapy
class FirstSpider(scrapy.Spider):
name = "first"
def __init__(self, group = None, *args, **kwargs):
super(FirstSpider, self).__init__(*args, **kwargs)
self.start_urls = ["http://www.example.com/group/%s" % group]
일반 거미
일반 스파이더를 사용하여 스파이더의 하위 클래스를 만들 수 있습니다. 그들의 목표는 모든 페이지에서 데이터를 추출하기 위해 특정 규칙에 따라 웹 사이트의 모든 링크를 따르는 것입니다.
다음 스파이더에 사용 된 예제를 위해 다음 필드가있는 프로젝트가 있다고 가정 해 보겠습니다.
import scrapy
from scrapy.item import Item, Field
class First_scrapyItem(scrapy.Item):
product_title = Field()
product_link = Field()
product_description = Field()
CrawlSpider
CrawlSpider는 링크를 따르고 둘 이상의 페이지를 스크랩하기위한 일련의 규칙을 정의합니다. 그것은 다음과 같은 클래스가 있습니다-
class scrapy.spiders.CrawlSpider
다음은 CrawlSpider 클래스의 속성입니다-
규칙
크롤러가 링크를 따르는 방법을 정의하는 규칙 개체 목록입니다.
다음 표는 CrawlSpider 클래스의 규칙을 보여줍니다-
Sr. 아니요 | 규칙 및 설명 |
---|---|
1 | LinkExtractor 스파이더가 링크를 따라 가고 데이터를 추출하는 방법을 지정합니다. |
2 | callback 각 페이지가 스크랩 된 후 호출됩니다. |
삼 | follow 링크를 계속 따라 갈지 여부를 지정합니다. |
parse_start_url (응답)
초기 응답 구문 분석을 허용하여 항목 또는 요청 객체를 반환합니다.
Note − 구문 분석 기능은 CrawlSpider에서 논리를 구현하는 데 사용되므로 규칙을 작성하는 동안 구문 분석 이외의 구문 분석 기능의 이름을 변경해야합니다.
스파이더가 demoexample.com의 홈 페이지를 크롤링하기 시작하고 parse_items 메소드로 모든 페이지, 링크 및 구문 분석을 수집하는 다음 예제를 살펴 보겠습니다.
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
class DemoSpider(CrawlSpider):
name = "demo"
allowed_domains = ["www.demoexample.com"]
start_urls = ["http://www.demoexample.com"]
rules = (
Rule(LinkExtractor(allow =(), restrict_xpaths = ("//div[@class = 'next']",)),
callback = "parse_item", follow = True),
)
def parse_item(self, response):
item = DemoItem()
item["product_title"] = response.xpath("a/text()").extract()
item["product_link"] = response.xpath("a/@href").extract()
item["product_description"] = response.xpath("div[@class = 'desc']/text()").extract()
return items
XMLFeedSpider
XML 피드에서 스크래핑하고 노드를 반복하는 스파이더의 기본 클래스입니다. 그것은 다음과 같은 클래스가 있습니다-
class scrapy.spiders.XMLFeedSpider
다음 표는 반복기와 태그 이름을 설정하는 데 사용되는 클래스 속성을 보여줍니다.
Sr. 아니요 | 속성 및 설명 |
---|---|
1 | iterator 사용할 반복자를 정의합니다. iternodes, html 또는 xml 일 수 있습니다 . 기본값은 iternodes 입니다. |
2 | itertag 반복 할 노드 이름이있는 문자열입니다. |
삼 | namespaces register_namespace () 메서드를 사용하여 네임 스페이스를 자동으로 등록하는 (prefix, uri) 튜플 목록으로 정의됩니다 . |
4 | adapt_response(response) 스파이더가 파싱을 시작하기 전에 응답을 수신하고 스파이더 미들웨어에서 도착하자마자 응답 본문을 수정합니다. |
5 | parse_node(response,selector) 제공된 태그 이름과 일치하는 각 노드에 대해 호출 될 때 응답과 선택기를 수신합니다. Note −이 방법을 무시하지 않으면 스파이더가 작동하지 않습니다. |
6 | process_results(response,results) 스파이더가 반환 한 결과 및 응답 목록을 반환합니다. |
CSVFeedSpider
각 행을 반복하고 응답으로 CSV 파일을 수신하며 parse_row () 메소드를 호출합니다 . 그것은 다음과 같은 클래스가 있습니다-
class scrapy.spiders.CSVFeedSpider
다음 표는 CSV 파일에 대해 설정할 수있는 옵션을 보여줍니다.
Sr. 아니요 | 옵션 및 설명 |
---|---|
1 | delimiter 각 필드에 대한 쉼표 ( ',') 구분 기호를 포함하는 문자열입니다. |
2 | quotechar 각 필드에 대해 따옴표 ( ' "')를 포함하는 문자열입니다. |
삼 | headers 필드를 추출 할 수있는 명령문 목록입니다. |
4 | parse_row(response,row) 헤더에 대한 키와 함께 응답과 각 행을 수신합니다. |
CSVFeedSpider 예제
from scrapy.spiders import CSVFeedSpider
from demoproject.items import DemoItem
class DemoSpider(CSVFeedSpider):
name = "demo"
allowed_domains = ["www.demoexample.com"]
start_urls = ["http://www.demoexample.com/feed.csv"]
delimiter = ";"
quotechar = "'"
headers = ["product_title", "product_link", "product_description"]
def parse_row(self, response, row):
self.logger.info("This is row: %r", row)
item = DemoItem()
item["product_title"] = row["product_title"]
item["product_link"] = row["product_link"]
item["product_description"] = row["product_description"]
return item
SitemapSpider
Sitemaps 의 도움으로 SitemapSpider 는 robots.txt에서 URL을 찾아 웹 사이트를 크롤링합니다. 그것은 다음과 같은 클래스가 있습니다-
class scrapy.spiders.SitemapSpider
다음 표는 SitemapSpider의 필드를 보여줍니다-
Sr. 아니요 | 필드 및 설명 |
---|---|
1 | sitemap_urls 사이트 맵을 가리키는 크롤링 할 URL 목록입니다. |
2 | sitemap_rules 튜플 (정규식, 콜백)의 목록입니다. 여기서 regex는 정규식이고 콜백은 정규식과 일치하는 URL을 처리하는 데 사용됩니다. |
삼 | sitemap_follow 따라야 할 사이트 맵의 정규식 목록입니다. |
4 | sitemap_alternate_links 단일 URL에 대해 따라야 할 대체 링크를 지정합니다. |
SitemapSpider 예
다음 SitemapSpider는 모든 URL을 처리합니다-
from scrapy.spiders import SitemapSpider
class DemoSpider(SitemapSpider):
urls = ["http://www.demoexample.com/sitemap.xml"]
def parse(self, response):
# You can scrap items here
다음 SitemapSpider는 콜백으로 일부 URL을 처리합니다-
from scrapy.spiders import SitemapSpider
class DemoSpider(SitemapSpider):
urls = ["http://www.demoexample.com/sitemap.xml"]
rules = [
("/item/", "parse_item"),
("/group/", "parse_group"),
]
def parse_item(self, response):
# you can scrap item here
def parse_group(self, response):
# you can scrap group here
다음 코드는 URL에 포함 된 robots.txt의 사이트 맵을 보여줍니다. /sitemap_company −
from scrapy.spiders import SitemapSpider
class DemoSpider(SitemapSpider):
urls = ["http://www.demoexample.com/robots.txt"]
rules = [
("/company/", "parse_company"),
]
sitemap_follow = ["/sitemap_company"]
def parse_company(self, response):
# you can scrap company here
다음 명령과 같이 SitemapSpider를 다른 URL과 결합 할 수도 있습니다.
from scrapy.spiders import SitemapSpider
class DemoSpider(SitemapSpider):
urls = ["http://www.demoexample.com/robots.txt"]
rules = [
("/company/", "parse_company"),
]
other_urls = ["http://www.demoexample.com/contact-us"]
def start_requests(self):
requests = list(super(DemoSpider, self).start_requests())
requests += [scrapy.Request(x, self.parse_other) for x in self.other_urls]
return requests
def parse_company(self, response):
# you can scrap company here...
def parse_other(self, response):
# you can scrap other here...
기술
웹 페이지를 스크래핑 할 때 다음과 같은 메커니즘을 사용하여 HTML 소스의 특정 부분을 추출해야합니다. selectors, XPath 또는 CSS 표현식을 사용하여 얻을 수 있습니다. 선택기는lxml Python 언어로 XML 및 HTML을 처리하는 라이브러리.
선택 자의 다른 개념을 정의하려면 다음 코드 스 니펫을 사용하십시오.
<html>
<head>
<title>My Website</title>
</head>
<body>
<span>Hello world!!!</span>
<div class = 'links'>
<a href = 'one.html'>Link 1<img src = 'image1.jpg'/></a>
<a href = 'two.html'>Link 2<img src = 'image2.jpg'/></a>
<a href = 'three.html'>Link 3<img src = 'image3.jpg'/></a>
</div>
</body>
</html>
선택자 구성
선택기 클래스 인스턴스를 구성 할 수 있습니다. text 또는 TextResponse목적. 제공된 입력 유형에 따라 선택기는 다음 규칙을 선택합니다.
from scrapy.selector import Selector
from scrapy.http import HtmlResponse
위의 코드를 사용하여 텍스트에서 다음과 같이 구성 할 수 있습니다.
Selector(text = body).xpath('//span/text()').extract()
결과를 다음과 같이 표시합니다.
[u'Hello world!!!']
응답에서 다음과 같이 구성 할 수 있습니다.
response = HtmlResponse(url = 'http://mysite.com', body = body)
Selector(response = response).xpath('//span/text()').extract()
결과를 다음과 같이 표시합니다.
[u'Hello world!!!']
선택기 사용
위의 간단한 코드 스 니펫을 이용하여 아래와 같이 title 태그에 정의 된 텍스트를 선택하기위한 XPath를 구성 할 수 있습니다.
>>response.selector.xpath('//title/text()')
이제 다음을 사용하여 텍스트 데이터를 추출 할 수 있습니다. .extract() 다음과 같이 표시된 방법-
>>response.xpath('//title/text()').extract()
결과는 다음과 같습니다.
[u'My Website']
다음과 같이 표시된 모든 요소의 이름을 표시 할 수 있습니다.
>>response.xpath('//div[@class = "links"]/a/text()').extract()
요소를 다음과 같이 표시합니다.
Link 1
Link 2
Link 3
첫 번째 요소를 추출하려면 다음 방법을 사용하십시오. .extract_first(), 다음과 같이 표시-
>>response.xpath('//div[@class = "links"]/a/text()').extract_first()
요소를 다음과 같이 표시합니다.
Link 1
선택자 중첩
위 코드를 사용하면 선택기를 중첩하여 페이지 링크와 이미지 소스를 표시 할 수 있습니다. .xpath() 다음과 같이 표시된 방법-
links = response.xpath('//a[contains(@href, "image")]')
for index, link in enumerate(links):
args = (index, link.xpath('@href').extract(), link.xpath('img/@src').extract())
print 'The link %d pointing to url %s and image %s' % args
결과를 다음과 같이 표시합니다.
Link 1 pointing to url [u'one.html'] and image [u'image1.jpg']
Link 2 pointing to url [u'two.html'] and image [u'image2.jpg']
Link 3 pointing to url [u'three.html'] and image [u'image3.jpg']
정규식을 사용하는 선택자
Scrapy는 정규식을 사용하여 데이터를 추출 할 수 있습니다. .re()방법. 위의 HTML 코드에서 다음과 같이 이미지 이름을 추출합니다.
>>response.xpath('//a[contains(@href, "image")]/text()').re(r'Name:\s*(.*)')
위 줄은 이미지 이름을 다음과 같이 표시합니다.
[u'Link 1',
u'Link 2',
u'Link 3']
상대 XPath 사용
XPath로 작업 할 때 /, 중첩 된 선택기 및 XPath는 선택기의 상대 경로가 아니라 문서의 절대 경로와 관련됩니다.
추출하려는 경우 <p> 요소, 그런 다음 먼저 모든 div 요소를 얻습니다.
>>mydiv = response.xpath('//div')
다음으로, 모든 'p' XPath 앞에 점을 추가하여 .//p 아래와 같이-
>>for p in mydiv.xpath('.//p').extract()
EXSLT 확장 사용
EXSLT는 XML 문서를 XHTML 문서로 변환하는 XSLT (Extensible Stylesheet Language Transformations)에 대한 확장을 발행하는 커뮤니티입니다. 다음 표와 같이 XPath 표현식에 등록 된 네임 스페이스와 함께 EXSLT 확장을 사용할 수 있습니다.
Sr. 아니요 | 접두사 및 사용법 | 네임 스페이스 |
---|---|---|
1 | re 정규식 |
http://exslt.org/regexp/index.html |
2 | set 세트 조작 |
http://exslt.org/set/index.html |
이전 섹션에서 정규식을 사용하여 데이터를 추출하기위한 간단한 코드 형식을 확인할 수 있습니다.
Scrapy 선택기와 함께 XPath를 사용할 때 유용한 몇 가지 XPath 팁이 있습니다. 자세한 내용은이 링크를 클릭하십시오 .
기술
Scrapy 프로세스는 스파이더를 사용하여 웹 페이지와 같은 소스에서 데이터를 추출하는 데 사용할 수 있습니다. 스크래피 사용Item 클래스는 스크랩 된 데이터를 수집하는 데 사용되는 객체의 출력을 생성합니다.
항목 신고
다음과 같이 필드 객체와 함께 클래스 정의 구문을 사용하여 항목을 선언 할 수 있습니다.
import scrapy
class MyProducts(scrapy.Item):
productName = Field()
productLink = Field()
imageURL = Field()
price = Field()
size = Field()
항목 필드
항목 필드는 각 필드에 대한 메타 데이터를 표시하는 데 사용됩니다. 필드 개체의 값에는 제한이 없으므로 액세스 가능한 메타 데이터 키는 메타 데이터의 참조 목록을 포함하지 않습니다. 필드 개체는 모든 필드 메타 데이터를 지정하는 데 사용되며 프로젝트의 요구 사항에 따라 다른 필드 키를 지정할 수 있습니다. 필드 개체는 Item.fields 속성을 사용하여 액세스 할 수 있습니다.
항목 작업
항목으로 작업 할 때 정의 할 수있는 몇 가지 공통 기능이 있습니다. 자세한 내용은이 링크를 클릭하십시오 .
항목 확장
항목은 원래 항목의 하위 클래스를 지정하여 확장 할 수 있습니다. 예를 들어-
class MyProductDetails(Product):
original_rate = scrapy.Field(serializer = str)
discount_rate = scrapy.Field()
다음 코드와 같이 값을 더 추가하거나 기존 값을 변경하여 기존 필드 메타 데이터를 사용하여 필드 메타 데이터를 확장 할 수 있습니다.
class MyProductPackage(Product):
name = scrapy.Field(Product.fields['name'], serializer = serializer_demo)
항목 개체
항목 객체는 주어진 인수에서 새로 초기화 된 항목을 제공하는 다음 클래스를 사용하여 지정할 수 있습니다.
class scrapy.item.Item([arg])
Item은 생성자의 복사본을 제공하고 필드의 항목에서 제공하는 추가 속성을 제공합니다.
필드 개체
Field 클래스가 추가 프로세스 또는 속성을 발행하지 않는 다음 클래스를 사용하여 필드 객체를 지정할 수 있습니다.
class scrapy.item.Field([arg])
기술
아이템 로더는 웹 사이트에서 스크랩 한 아이템을 채울 수있는 편리한 방법을 제공합니다.
아이템 로더 선언
아이템 로더의 선언은 아이템과 같습니다.
예를 들면-
from scrapy.loader import ItemLoader
from scrapy.loader.processors import TakeFirst, MapCompose, Join
class DemoLoader(ItemLoader):
default_output_processor = TakeFirst()
title_in = MapCompose(unicode.title)
title_out = Join()
size_in = MapCompose(unicode.strip)
# you can continue scraping here
위의 코드에서 입력 프로세서는 _in 접미사 및 출력 프로세서는 다음을 사용하여 선언됩니다. _out 접미사.
그만큼 ItemLoader.default_input_processor 과 ItemLoader.default_output_processor 속성은 기본 입 / 출력 프로세서를 선언하는 데 사용됩니다.
항목 로더를 사용하여 항목 채우기
항목 로더를 사용하려면 먼저 dict-like 개체를 사용하거나 항목이 다음에 지정된 Item 클래스를 사용하는 개체없이 인스턴스화합니다. ItemLoader.default_item_class 속성.
선택기를 사용하여 항목 로더에 값을 수집 할 수 있습니다.
동일한 항목 필드에 더 많은 값을 추가 할 수 있습니다. 여기서 항목 로더는 적절한 핸들러를 사용하여 이러한 값을 추가합니다.
다음 코드는 항목 로더를 사용하여 항목을 채우는 방법을 보여줍니다-
from scrapy.loader import ItemLoader
from demoproject.items import Demo
def parse(self, response):
l = ItemLoader(item = Product(), response = response)
l.add_xpath("title", "//div[@class = 'product_title']")
l.add_xpath("title", "//div[@class = 'product_name']")
l.add_xpath("desc", "//div[@class = 'desc']")
l.add_css("size", "div#size]")
l.add_value("last_updated", "yesterday")
return l.load_item()
위에 표시된 것처럼 두 개의 다른 XPath가 있습니다. title 필드는 다음을 사용하여 추출됩니다. add_xpath() 방법-
1. //div[@class = "product_title"]
2. //div[@class = "product_name"]
그 후 유사한 요청이 desc들. 크기 데이터는 다음을 사용하여 추출됩니다.add_css() 방법 및 last_updated 다음을 사용하여 "어제"값으로 채워집니다. add_value() 방법.
모든 데이터가 수집되면 ItemLoader.load_item() 다음을 사용하여 추출 된 데이터로 채워진 항목을 반환하는 메서드 add_xpath(), add_css() 과 add_value() 행동 양식.
입력 및 출력 프로세서
항목 로더의 각 필드에는 하나의 입력 프로세서와 하나의 출력 프로세서가 있습니다.
데이터가 추출되면 입력 프로세서가이를 처리하고 그 결과는 ItemLoader에 저장됩니다.
다음으로 데이터를 수집 한 후 ItemLoader.load_item () 메서드를 호출하여 채워진 Item 객체를 가져옵니다.
마지막으로 출력 프로세서의 결과를 항목에 할당 할 수 있습니다.
다음 코드는 특정 필드에 대한 입력 및 출력 프로세서를 호출하는 방법을 보여줍니다.
l = ItemLoader(Product(), some_selector)
l.add_xpath("title", xpath1) # [1]
l.add_xpath("title", xpath2) # [2]
l.add_css("title", css) # [3]
l.add_value("title", "demo") # [4]
return l.load_item() # [5]
Line 1 − 제목의 데이터는 xpath1에서 추출되어 입력 프로세서를 통해 전달되고 그 결과는 ItemLoader에 수집되어 저장됩니다.
Line 2 − 마찬가지로 제목은 xpath2에서 추출되어 동일한 입력 프로세서를 통해 전달되며 그 결과는 [1]에 대해 수집 된 데이터에 추가됩니다.
Line 3 − css 선택기에서 제목을 추출하여 동일한 입력 프로세서를 거쳐 [1]과 [2]에 대해 수집 된 데이터에 결과가 추가됩니다.
Line 4 − 다음으로 "demo"값이 할당되고 입력 프로세서를 통해 전달됩니다.
Line 5 − 마지막으로 데이터는 모든 필드에서 내부적으로 수집되어 출력 프로세서로 전달되고 최종 값이 항목에 할당됩니다.
입력 및 출력 프로세서 선언
입력 및 출력 프로세서는 ItemLoader 정의에서 선언됩니다. 이 외에도 다음에서 지정할 수도 있습니다.Item Field 메타 데이터.
예를 들면-
import scrapy
from scrapy.loader.processors import Join, MapCompose, TakeFirst
from w3lib.html import remove_tags
def filter_size(value):
if value.isdigit():
return value
class Item(scrapy.Item):
name = scrapy.Field(
input_processor = MapCompose(remove_tags),
output_processor = Join(),
)
size = scrapy.Field(
input_processor = MapCompose(remove_tags, filter_price),
output_processor = TakeFirst(),
)
>>> from scrapy.loader import ItemLoader
>>> il = ItemLoader(item = Product())
>>> il.add_value('title', [u'Hello', u'<strong>world</strong>'])
>>> il.add_value('size', [u'<span>100 kg</span>'])
>>> il.load_item()
출력을 다음과 같이 표시합니다.
{'title': u'Hello world', 'size': u'100 kg'}
항목 로더 컨텍스트
항목 로더 컨텍스트는 입력 및 출력 프로세서간에 공유되는 임의의 키 값의 사전입니다.
예를 들어, 함수가 있다고 가정 parse_length을 -
def parse_length(text, loader_context):
unit = loader_context.get('unit', 'cm')
# You can write parsing code of length here
return parsed_length
loader_context 인수를 수신하여 항목 로더 컨텍스트를 수신 할 수 있음을 항목 로더에 알립니다. 항목 로더 컨텍스트의 값을 변경하는 방법에는 여러 가지가 있습니다.
현재 활성 아이템 로더 컨텍스트 수정-
loader = ItemLoader (product)
loader.context ["unit"] = "mm"
아이템 로더 인스턴스화-
loader = ItemLoader(product, unit = "mm")
항목 로더 컨텍스트로 인스턴스화하는 입력 / 출력 프로세서에 대한 항목 로더 선언에서 −
class ProductLoader(ItemLoader):
length_out = MapCompose(parse_length, unit = "mm")
ItemLoader 객체
주어진 항목을 채우기 위해 새 항목 로더를 반환하는 개체입니다. 그것은 다음과 같은 클래스가 있습니다-
class scrapy.loader.ItemLoader([item, selector, response, ]**kwargs)
다음 표는 ItemLoader 객체의 매개 변수를 보여줍니다.
Sr. 아니요 | 매개 변수 및 설명 |
---|---|
1 | item add_xpath (), add_css () 또는 add_value ()를 호출하여 채울 항목입니다. |
2 | selector 웹 사이트에서 데이터를 추출하는 데 사용됩니다. |
삼 | response default_selector_class를 사용하여 선택자를 구성하는 데 사용됩니다. |
다음 표는 ItemLoader 객체의 방법을 보여줍니다-
Sr. 아니요 | 방법 및 설명 | 예 |
---|---|---|
1 | get_value(value, *processors, **kwargs) 주어진 프로세서 및 키워드 인수에 의해 값은 get_value () 메서드에 의해 처리됩니다. |
|
2 | add_value(field_name, value, *processors, **kwargs) 값을 처리하고 필드 입력 프로세서를 통과하기 전에 프로세서와 키워드 인수를 제공하여 get_value를 통해 처음 전달되는 필드에 추가합니다. |
|
삼 | replace_value(field_name, value, *processors, **kwargs) 수집 된 데이터를 새 값으로 대체합니다. |
|
4 | get_xpath(xpath, *processors, **kwargs) XPath 를 수신하여 프로세서 및 키워드 인수를 제공하여 유니 코드 문자열을 추출하는 데 사용됩니다 . |
|
5 | add_xpath(field_name, xpath, *processors, **kwargs) 유니 코드 문자열을 추출하는 필드에 대한 XPath 를 수신 합니다. |
|
6 | replace_xpath(field_name, xpath, *processors, **kwargs) 사이트에서 XPath 를 사용하여 수집 된 데이터를 대체합니다 . |
|
7 | get_css(css, *processors, **kwargs) 유니 코드 문자열을 추출하는 데 사용되는 CSS 선택기를받습니다. |
|
8 | add_css(field_name, css, *processors, **kwargs) add_value () 메서드와 비슷하지만 CSS 선택기를 필드에 추가한다는 점이 다릅니다. |
|
9 | replace_css(field_name, css, *processors, **kwargs) CSS 선택기를 사용하여 추출 된 데이터를 대체합니다. |
|
10 | load_item() 데이터가 수집되면이 메서드는 수집 된 데이터로 항목을 채우고 반환합니다. |
|
11 | nested_xpath(xpath) XPath 선택기로 중첩 로더를 만드는 데 사용됩니다. |
|
12 | nested_css(css) CSS 선택기로 중첩 로더를 만드는 데 사용됩니다. |
|
다음 표는 ItemLoader 객체의 속성을 보여줍니다-
Sr. 아니요 | 속성 및 설명 |
---|---|
1 | item 항목 로더가 구문 분석을 수행하는 객체입니다. |
2 | context 활성 상태 인 항목 로더의 현재 컨텍스트입니다. |
삼 | default_item_class 생성자에 지정되지 않은 경우 항목을 나타내는 데 사용됩니다. |
4 | default_input_processor 입력 프로세서를 지정하지 않는 필드는 default_input_processors가 사용되는 유일한 필드입니다. |
5 | default_output_processor 출력 프로세서를 지정하지 않는 필드는 default_output_processors가 사용되는 유일한 필드입니다. |
6 | default_selector_class 생성자에 지정되지 않은 경우 선택자를 생성하는 데 사용되는 클래스입니다. |
7 | selector 사이트에서 데이터를 추출하는 데 사용할 수있는 개체입니다. |
중첩 로더
문서의 하위 섹션에서 값을 구문 분석하는 동안 중첩 로더를 만드는 데 사용됩니다. 중첩 로더를 만들지 않는 경우 추출하려는 각 값에 대해 전체 XPath 또는 CSS를 지정해야합니다.
예를 들어, 데이터가 헤더 페이지에서 추출되고 있다고 가정합니다.
<header>
<a class = "social" href = "http://facebook.com/whatever">facebook</a>
<a class = "social" href = "http://twitter.com/whatever">twitter</a>
<a class = "email" href = "mailto:[email protected]">send mail</a>
</header>
다음으로 헤더에 관련 값을 추가하여 헤더 선택기로 중첩 된 로더를 만들 수 있습니다.
loader = ItemLoader(item = Item())
header_loader = loader.nested_xpath('//header')
header_loader.add_xpath('social', 'a[@class = "social"]/@href')
header_loader.add_xpath('email', 'a[@class = "email"]/@href')
loader.load_item()
아이템 로더 재사용 및 확장
아이템 로더는 프로젝트가 더 많은 스파이더를 획득 할 때 근본적인 문제가되는 유지 관리를 완화하도록 설계되었습니다.
예를 들어, 사이트에 세 개의 대시로 묶인 제품 이름이 있다고 가정합니다 (예 : --DVD ---). 다음 코드와 같이 최종 제품 이름에 포함하지 않으려면 기본 제품 항목 로더를 재사용하여 대시를 제거 할 수 있습니다.
from scrapy.loader.processors import MapCompose
from demoproject.ItemLoaders import DemoLoader
def strip_dashes(x):
return x.strip('-')
class SiteSpecificLoader(DemoLoader):
title_in = MapCompose(strip_dashes, DemoLoader.title_in)
사용 가능한 내장 프로세서
다음은 일반적으로 사용되는 내장 프로세서 중 일부입니다.
class scrapy.loader.processors.Identity
변경하지 않고 원래 값을 반환합니다. 예를 들면-
>>> from scrapy.loader.processors import Identity
>>> proc = Identity()
>>> proc(['a', 'b', 'c'])
['a', 'b', 'c']
class scrapy.loader.processors.TakeFirst
수신 된 값 목록에서 널이 아니거나 비어 있지 않은 첫 번째 값을 리턴합니다. 예를 들면-
>>> from scrapy.loader.processors import TakeFirst
>>> proc = TakeFirst()
>>> proc(['', 'a', 'b', 'c'])
'a'
class scrapy.loader.processors.Join (separator = u '')
구분 기호에 첨부 된 값을 반환합니다. 기본 구분 기호는 u ''이며 함수와 동일합니다.u' '.join. 예를 들면-
>>> from scrapy.loader.processors import Join
>>> proc = Join()
>>> proc(['a', 'b', 'c'])
u'a b c'
>>> proc = Join('<br>')
>>> proc(['a', 'b', 'c'])
u'a<br>b<br>c'
class scrapy.loader.processors.Compose (* functions, ** default_loader_context)
각 입력 값이 첫 번째 함수에 전달되고 해당 함수의 결과가 두 번째 함수에 전달되는 식으로 ast 함수가 최종 값을 출력으로 반환 할 때까지 프로세서에 의해 정의됩니다.
예를 들면-
>>> from scrapy.loader.processors import Compose
>>> proc = Compose(lambda v: v[0], str.upper)
>>> proc(['python', 'scrapy'])
'PYTHON'
class scrapy.loader.processors.MapCompose (* functions, ** default_loader_context)
입력 값이 반복되고 첫 번째 기능이 각 요소에 적용되는 프로세서입니다. 다음으로, 이러한 함수 호출의 결과는 연결되어 새 이터 러블을 빌드 한 다음 마지막 함수까지 두 번째 함수 등에 적용됩니다.
예를 들면-
>>> def filter_scrapy(x):
return None if x == 'scrapy' else x
>>> from scrapy.loader.processors import MapCompose
>>> proc = MapCompose(filter_scrapy, unicode.upper)
>>> proc([u'hi', u'everyone', u'im', u'pythonscrapy'])
[u'HI, u'IM', u'PYTHONSCRAPY']
class scrapy.loader.processors.SelectJmes (json_path)
이 클래스는 제공된 json 경로를 사용하여 값을 쿼리하고 출력을 반환합니다.
예를 들면-
>>> from scrapy.loader.processors import SelectJmes, Compose, MapCompose
>>> proc = SelectJmes("hello")
>>> proc({'hello': 'scrapy'})
'scrapy'
>>> proc({'hello': {'scrapy': 'world'}})
{'scrapy': 'world'}
다음은 json을 가져와 값을 쿼리하는 코드입니다.
>>> import json
>>> proc_single_json_str = Compose(json.loads, SelectJmes("hello"))
>>> proc_single_json_str('{"hello": "scrapy"}')
u'scrapy'
>>> proc_json_list = Compose(json.loads, MapCompose(SelectJmes('hello')))
>>> proc_json_list('[{"hello":"scrapy"}, {"world":"env"}]')
[u'scrapy']
기술
Scrapy shell은 스파이더를 사용하지 않고 오류없는 코드로 데이터를 스크랩하는 데 사용할 수 있습니다. Scrapy 셸의 주요 목적은 추출 된 코드, XPath 또는 CSS 표현식을 테스트하는 것입니다. 또한 데이터를 스크래핑하는 웹 페이지를 지정하는 데 도움이됩니다.
셸 구성
셸은 자동 완성, 색상 화 된 출력 등을 제공하는 강력한 대화 형 셸인 IPython (대화 형 컴퓨팅에 사용됨) 콘솔 을 설치하여 구성 할 수 있습니다 .
Unix 플랫폼에서 작업하는 경우 IPython을 설치하는 것이 좋습니다. IPython에 액세스 할 수없는 경우 bpython 을 사용할 수도 있습니다 .
SCRAPY_PYTHON_SHELL이라는 환경 변수를 설정하거나 다음과 같이 scrapy.cfg 파일을 정의하여 쉘을 구성 할 수 있습니다.
[settings]
shell = bpython
셸 시작
Scrapy 셸은 다음 명령을 사용하여 시작할 수 있습니다.
scrapy shell <url>
URL의 URL이있는 데이터가 필요로 지정 긁어한다.
셸 사용
셸은 다음 표에 설명 된대로 몇 가지 추가 단축키와 Scrapy 객체를 제공합니다.
사용 가능한 단축키
Shell은 프로젝트에서 다음과 같은 사용 가능한 바로 가기를 제공합니다.
Sr. 아니요 | 바로 가기 및 설명 |
---|---|
1 | shelp() 도움말 옵션과 함께 사용 가능한 개체 및 바로 가기를 제공합니다. |
2 | fetch(request_or_url) 요청 또는 URL에서 응답을 수집하고 관련 개체가 올바르게 업데이트됩니다. |
삼 | view(response) 관찰을 위해 로컬 브라우저에서 주어진 요청에 대한 응답을보고 외부 링크를 올바르게 표시 할 수 있으며 응답 본문에 기본 태그를 추가합니다. |
사용 가능한 스크래피 개체
Shell은 프로젝트에서 다음과 같은 사용 가능한 Scrapy 개체를 제공합니다.
Sr. 아니요 | 개체 및 설명 |
---|---|
1 | crawler 현재 크롤러 개체를 지정합니다. |
2 | spider 현재 URL에 대한 스파이더가 없으면 새 스파이더를 정의하여 URL 또는 스파이더 개체를 처리합니다. |
삼 | request 마지막으로 수집 된 페이지에 대한 요청 개체를 지정합니다. |
4 | response 마지막으로 수집 된 페이지에 대한 응답 개체를 지정합니다. |
5 | settings 현재 Scrapy 설정을 제공합니다. |
쉘 세션의 예
scrapy.org 사이트를 스크랩 한 다음 설명 된대로 reddit.com에서 데이터 스크랩을 시작하겠습니다.
계속 진행하기 전에 먼저 다음 명령과 같이 셸을 시작합니다.
scrapy shell 'http://scrapy.org' --nolog
Scrapy는 위의 URL을 사용하는 동안 사용 가능한 개체를 표시합니다.
[s] Available Scrapy objects:
[s] crawler <scrapy.crawler.Crawler object at 0x1e16b50>
[s] item {}
[s] request <GET http://scrapy.org >
[s] response <200 http://scrapy.org >
[s] settings <scrapy.settings.Settings object at 0x2bfd650>
[s] spider <Spider 'default' at 0x20c6f50>
[s] Useful shortcuts:
[s] shelp() Provides available objects and shortcuts with help option
[s] fetch(req_or_url) Collects the response from the request or URL and associated
objects will get update
[s] view(response) View the response for the given request
다음으로 다음과 같이 객체 작업을 시작합니다.
>> response.xpath('//title/text()').extract_first()
u'Scrapy | A Fast and Powerful Scraping and Web Crawling Framework'
>> fetch("http://reddit.com")
[s] Available Scrapy objects:
[s] crawler
[s] item {}
[s] request
[s] response <200 https://www.reddit.com/>
[s] settings
[s] spider
[s] Useful shortcuts:
[s] shelp() Shell help (print this help)
[s] fetch(req_or_url) Fetch request (or URL) and update local objects
[s] view(response) View response in a browser
>> response.xpath('//title/text()').extract()
[u'reddit: the front page of the internet']
>> request = request.replace(method="POST")
>> fetch(request)
[s] Available Scrapy objects:
[s] crawler
...
스파이더에서 셸을 호출하여 응답 검사
해당 응답을받을 것으로 예상되는 경우에만 스파이더에서 처리 된 응답을 검사 할 수 있습니다.
예를 들어-
import scrapy
class SpiderDemo(scrapy.Spider):
name = "spiderdemo"
start_urls = [
"http://mysite.com",
"http://mysite1.org",
"http://mysite2.net",
]
def parse(self, response):
# You can inspect one specific response
if ".net" in response.url:
from scrapy.shell import inspect_response
inspect_response(response, self)
위의 코드에서 볼 수 있듯이 스파이더에서 쉘을 호출하여 다음 함수를 사용하여 응답을 검사 할 수 있습니다.
scrapy.shell.inspect_response
이제 거미를 실행하면 다음 화면이 나타납니다.
2016-02-08 18:15:20-0400 [scrapy] DEBUG: Crawled (200) (referer: None)
2016-02-08 18:15:20-0400 [scrapy] DEBUG: Crawled (200) (referer: None)
2016-02-08 18:15:20-0400 [scrapy] DEBUG: Crawled (200) (referer: None)
[s] Available Scrapy objects:
[s] crawler
...
>> response.url
'http://mysite2.org'
다음 코드를 사용하여 추출 된 코드가 작동하는지 확인할 수 있습니다.
>> response.xpath('//div[@class = "val"]')
출력을 다음과 같이 표시합니다.
[]
위의 행은 빈 출력 만 표시했습니다. 이제 다음과 같이 응답을 검사하기 위해 쉘을 호출 할 수 있습니다.
>> view(response)
응답을 다음과 같이 표시합니다.
True
기술
Item Pipeline폐기 된 품목을 처리하는 방법입니다. 항목이 항목 파이프 라인으로 전송되면 스파이더에 의해 스크 레이 핑되고 여러 구성 요소를 사용하여 처리되며 순차적으로 실행됩니다.
항목이 수신 될 때마다 다음 조치 중 하나를 결정합니다.
- 항목을 계속 처리하십시오.
- 파이프 라인에서 삭제하십시오.
- 항목 처리를 중지합니다.
항목 파이프 라인은 일반적으로 다음과 같은 목적으로 사용됩니다.
- 스크랩 된 항목을 데이터베이스에 저장합니다.
- 받은 항목이 반복되면 반복되는 항목을 삭제합니다.
- 항목에 대상 필드가 있는지 확인합니다.
- HTML 데이터 지우기.
통사론
다음 방법을 사용하여 항목 파이프 라인을 작성할 수 있습니다.
process_item(self, item, spider)
위의 방법은 다음 매개 변수를 포함합니다-
- 항목 (항목 객체 또는 사전)-스크랩 된 항목을 지정합니다.
- spider (거미 개체)-항목을 긁어 낸 거미.
다음 표에 제공된 추가 방법을 사용할 수 있습니다.
Sr. 아니요 | 방법 및 설명 | 매개 변수 |
---|---|---|
1 | open_spider(self, spider) 스파이더가 열릴 때 선택됩니다. |
spider (거미 개체)-열린 거미를 의미합니다. |
2 | close_spider(self, spider) 스파이더가 닫힐 때 선택됩니다. |
spider (거미 개체)-닫힌 거미를 의미합니다. |
삼 | from_crawler(cls, crawler) 크롤러의 도움으로 파이프 라인은 Scrapy의 신호 및 설정과 같은 핵심 구성 요소에 액세스 할 수 있습니다. |
crawler (Crawler object)-이 파이프 라인을 사용하는 크롤러를 의미합니다. |
예
다음은 다른 개념에서 사용되는 항목 파이프 라인의 예입니다.
태그가없는 항목 삭제
다음 코드에서 파이프 라인 은 VAT (excludes_vat 속성)가 포함되지 않은 항목에 대해 (가격) 속성의 균형을 맞추고 가격표 가없는 항목은 무시합니다.
from Scrapy.exceptions import DropItem
class PricePipeline(object):
vat = 2.25
def process_item(self, item, spider):
if item['price']:
if item['excludes_vat']:
item['price'] = item['price'] * self.vat
return item
else:
raise DropItem("Missing price in %s" % item)
JSON 파일에 항목 쓰기
다음 코드는 모든 스파이더에서 스크랩 한 모든 항목을 단일 items.jlJSON 형식의 직렬화 된 형식으로 한 줄에 하나의 항목을 포함하는 파일입니다. 그만큼JsonWriterPipeline 클래스는 코드에서 항목 파이프 라인을 작성하는 방법을 보여주기 위해 사용됩니다.
import json
class JsonWriterPipeline(object):
def __init__(self):
self.file = open('items.jl', 'wb')
def process_item(self, item, spider):
line = json.dumps(dict(item)) + "\n"
self.file.write(line)
return item
MongoDB에 항목 쓰기
Scrapy 설정에서 MongoDB 주소와 데이터베이스 이름을 지정할 수 있으며 MongoDB 컬렉션은 항목 클래스 이름을 따서 명명 할 수 있습니다. 다음 코드는 사용 방법을 설명합니다.from_crawler() 자원을 제대로 수집하는 방법-
import pymongo
class MongoPipeline(object):
collection_name = 'Scrapy_list'
def __init__(self, mongo_uri, mongo_db):
self.mongo_uri = mongo_uri
self.mongo_db = mongo_db
@classmethod
def from_crawler(cls, crawler):
return cls(
mongo_uri = crawler.settings.get('MONGO_URI'),
mongo_db = crawler.settings.get('MONGO_DB', 'lists')
)
def open_spider(self, spider):
self.client = pymongo.MongoClient(self.mongo_uri)
self.db = self.client[self.mongo_db]
def close_spider(self, spider):
self.client.close()
def process_item(self, item, spider):
self.db[self.collection_name].insert(dict(item))
return item
필터 복제
필터는 반복되는 항목을 확인하고 이미 처리 된 항목을 삭제합니다. 다음 코드에서는 항목에 고유 한 ID를 사용했지만 spider는 동일한 ID를 가진 많은 항목을 반환합니다.
from scrapy.exceptions import DropItem
class DuplicatesPipeline(object):
def __init__(self):
self.ids_seen = set()
def process_item(self, item, spider):
if item['id'] in self.ids_seen:
raise DropItem("Repeated items found: %s" % item)
else:
self.ids_seen.add(item['id'])
return item
항목 파이프 라인 활성화
다음 코드와 같이 ITEM_PIPELINES 설정에 클래스를 추가하여 항목 파이프 라인 구성 요소를 활성화 할 수 있습니다 . 실행되는 순서대로 클래스에 정수 값을 할당 할 수 있으며 (순서는 값이 높은 클래스에 대해 낮은 값을 가질 수 있음) 값은 0-1000 범위에 있습니다.
ITEM_PIPELINES = {
'myproject.pipelines.PricePipeline': 100,
'myproject.pipelines.JsonWriterPipeline': 600,
}
기술
피드 내보내기는 사이트에서 스크랩 한 데이터를 저장하는 방법으로 "export file".
직렬화 형식
여러 직렬화 형식과 스토리지 백엔드를 사용하는 피드 내보내기는 항목 내보내기를 사용하고 스크랩 된 항목이있는 피드를 생성합니다.
다음 표는 지원되는 형식을 보여줍니다.
Sr. 아니요 | 형식 및 설명 |
---|---|
1 | JSON FEED_FORMAT은 json입니다. 사용 된 내보내기는 scrapy.exporters.JsonItemExporter 클래스입니다. |
2 | JSON lines FEED_FROMAT은 jsonlines입니다. 사용 된 내보내기는 scrapy.exporters.JsonLinesItemExporter 클래스입니다. |
삼 | CSV FEED_FORMAT은 CSV입니다. 사용 된 내보내기는 scrapy.exporters.CsvItemExporter 클래스입니다. |
4 | XML FEED_FORMAT은 xml입니다. 사용 된 내보내기는 scrapy.exporters.XmlItemExporter 클래스입니다. |
사용 FEED_EXPORTERS 설정, 지원되는 형식도 확장 할 수 있습니다-
Sr. 아니요 | 형식 및 설명 |
---|---|
1 | Pickle FEED_FORMAT은 pickel입니다. 사용 된 내보내기는 scrapy.exporters.PickleItemExporter 클래스입니다. |
2 | Marshal FEED_FORMAT은 마샬입니다. 사용 된 내보내기는 scrapy.exporters.MarshalItemExporter 클래스입니다. |
스토리지 백엔드
저장소 백엔드는 URI를 사용하여 피드를 저장할 위치를 정의합니다.
다음 표는 지원되는 스토리지 백엔드를 보여줍니다-
Sr. 아니요 | 스토리지 백엔드 및 설명 |
---|---|
1 | Local filesystem URI 스킴은 파일 이며 피드를 저장하는 데 사용됩니다. |
2 | FTP URI 스키마는 ftp 이며 피드를 저장하는 데 사용됩니다. |
삼 | S3 URI 체계는 S3 이고 피드는 Amazon S3에 저장됩니다. 외부 라이브러리 botocore 또는 boto 가 필요합니다. |
4 | Standard output URI 체계는 stdout 이고 피드는 표준 출력에 저장됩니다. |
저장소 URI 매개 변수
다음은 피드가 생성되는 동안 대체되는 스토리지 URL의 매개 변수입니다.
- % (시간) s :이 매개 변수는 타임 스탬프로 대체됩니다.
- % (name) s :이 매개 변수는 스파이더 이름으로 대체됩니다.
설정
다음 표는 피드 내보내기를 구성 할 수있는 설정을 보여줍니다.
Sr. 아니요 | 설정 및 설명 |
---|---|
1 | FEED_URI 피드 내보내기를 활성화하는 데 사용되는 내보내기 피드의 URI입니다. |
2 | FEED_FORMAT 피드에 사용되는 직렬화 형식입니다. |
삼 | FEED_EXPORT_FIELDS 내 보내야하는 필드를 정의하는 데 사용됩니다. |
4 | FEED_STORE_EMPTY 항목이없는 피드를 내보낼 지 여부를 정의합니다. |
5 | FEED_STORAGES 추가 피드 스토리지 백엔드가있는 사전입니다. |
6 | FEED_STORAGES_BASE 내장 된 피드 스토리지 백엔드가있는 사전입니다. |
7 | FEED_EXPORTERS 추가 피드 내보내기가있는 사전입니다. |
8 | FEED_EXPORTERS_BASE 내장 된 피드 내보내기가있는 사전입니다. |
기술
Scrapy는 Request 과 Response사물. 요청 객체는 시스템을 통과하고 스파이더를 사용하여 요청을 실행하고 응답 객체를 반환 할 때 요청으로 돌아갑니다.
요청 개체
요청 객체는 응답을 생성하는 HTTP 요청입니다. 그것은 다음과 같은 클래스가 있습니다-
class scrapy.http.Request(url[, callback, method = 'GET', headers, body, cookies, meta,
encoding = 'utf-8', priority = 0, dont_filter = False, errback])
다음 표는 요청 객체의 매개 변수를 보여줍니다-
Sr. 아니요 | 매개 변수 및 설명 |
---|---|
1 | url URL 요청을 지정하는 문자열입니다. |
2 | callback 요청의 응답을 첫 번째 매개 변수로 사용하는 호출 가능한 함수입니다. |
삼 | method HTTP 메서드 요청을 지정하는 문자열입니다. |
4 | headers 요청 헤더가있는 사전입니다. |
5 | body 요청 본문이있는 문자열 또는 유니 코드입니다. |
6 | cookies 요청 쿠키가 포함 된 목록입니다. |
7 | meta 요청의 메타 데이터 값을 포함하는 사전입니다. |
8 | encoding URL 인코딩에 사용되는 utf-8 인코딩이 포함 된 문자열입니다. |
9 | priority 스케줄러가 우선 순위를 사용하여 요청을 처리하는 순서를 정의하는 정수입니다. |
10 | dont_filter 스케줄러가 요청을 필터링하지 않아야 함을 지정하는 부울입니다. |
11 | errback 요청을 처리하는 동안 예외가 발생할 때 호출되는 호출 가능한 함수입니다. |
콜백 함수에 추가 데이터 전달
요청의 콜백 함수는 응답이 첫 번째 매개 변수로 다운로드 될 때 호출됩니다.
예를 들면-
def parse_page1(self, response):
return scrapy.Request("http://www.something.com/some_page.html",
callback = self.parse_page2)
def parse_page2(self, response):
self.logger.info("%s page visited", response.url)
당신이 사용할 수있는 Request.meta 속성, 호출 가능한 함수에 인수를 전달하고 다음 예제와 같이 두 번째 콜백에서 해당 인수를 수신하려는 경우-
def parse_page1(self, response):
item = DemoItem()
item['foremost_link'] = response.url
request = scrapy.Request("http://www.something.com/some_page.html",
callback = self.parse_page2)
request.meta['item'] = item
return request
def parse_page2(self, response):
item = response.meta['item']
item['other_link'] = response.url
return item
errbacks를 사용하여 요청 처리에서 예외 포착
errback은 요청을 처리하는 동안 예외가 발생할 때 호출되는 호출 가능한 함수입니다.
다음 예제는 이것을 보여줍니다-
import scrapy
from scrapy.spidermiddlewares.httperror import HttpError
from twisted.internet.error import DNSLookupError
from twisted.internet.error import TimeoutError, TCPTimedOutError
class DemoSpider(scrapy.Spider):
name = "demo"
start_urls = [
"http://www.httpbin.org/", # HTTP 200 expected
"http://www.httpbin.org/status/404", # Webpage not found
"http://www.httpbin.org/status/500", # Internal server error
"http://www.httpbin.org:12345/", # timeout expected
"http://www.httphttpbinbin.org/", # DNS error expected
]
def start_requests(self):
for u in self.start_urls:
yield scrapy.Request(u, callback = self.parse_httpbin,
errback = self.errback_httpbin,
dont_filter=True)
def parse_httpbin(self, response):
self.logger.info('Recieved response from {}'.format(response.url))
# ...
def errback_httpbin(self, failure):
# logs failures
self.logger.error(repr(failure))
if failure.check(HttpError):
response = failure.value.response
self.logger.error("HttpError occurred on %s", response.url)
elif failure.check(DNSLookupError):
request = failure.request
self.logger.error("DNSLookupError occurred on %s", request.url)
elif failure.check(TimeoutError, TCPTimedOutError):
request = failure.request
self.logger.error("TimeoutError occurred on %s", request.url)
Request.meta 특수 키
request.meta 특수 키는 Scrapy로 식별되는 특수 메타 키 목록입니다.
다음 표는 Request.meta의 키 중 일부를 보여줍니다-
Sr. 아니요 | 키 및 설명 |
---|---|
1 | dont_redirect true로 설정된 경우 키이며 응답 상태에 따라 요청을 리디렉션하지 않습니다. |
2 | dont_retry true로 설정된 경우 키이며 실패한 요청을 재 시도하지 않으며 미들웨어에서 무시됩니다. |
삼 | handle_httpstatus_list 요청별로 허용 할 수있는 응답 코드를 정의하는 키입니다. |
4 | handle_httpstatus_all 요청을 true 로 설정하여 요청에 대한 응답 코드를 허용하는 데 사용되는 키 입니다 . |
5 | dont_merge_cookies true 로 설정하여 기존 쿠키와의 병합을 방지하는 데 사용되는 키 입니다 . |
6 | cookiejar 스파이더 당 여러 쿠키 세션을 유지하는 데 사용되는 키입니다. |
7 | dont_cache 각 정책에 대한 HTTP 요청 및 응답 캐싱을 방지하는 데 사용되는 키입니다. |
8 | redirect_urls 요청이 통과하는 URL을 포함하는 키입니다. |
9 | bindaddress 요청을 수행하는 데 사용할 수있는 나가는 IP 주소의 IP입니다. |
10 | dont_obey_robotstxt true로 설정된 경우 키이며 ROBOTSTXT_OBEY가 활성화 된 경우에도 robots.txt 제외 표준에서 금지하는 요청을 필터링하지 않습니다. |
11 | download_timeout 이는 다운로더가 시간 초과되기 전에 기다릴 스파이더 당 시간 초과 (초)를 설정하는 데 사용됩니다. |
12 | download_maxsize 다운로더가 다운로드 할 스파이더 당 최대 크기 (바이트)를 설정하는 데 사용됩니다. |
13 | proxy 요청 개체에 대해 프록시를 설정하여 요청 사용을위한 HTTP 프록시를 설정할 수 있습니다. |
서브 클래스 요청
요청 클래스를 서브 클래 싱하여 사용자 지정 기능을 구현할 수 있습니다. 내장 요청 서브 클래스는 다음과 같습니다.
FormRequest 객체
FormRequest 클래스는 기본 요청을 확장하여 HTML 양식을 처리합니다. 그것은 다음과 같은 클래스가 있습니다-
class scrapy.http.FormRequest(url[,formdata, callback, method = 'GET', headers, body,
cookies, meta, encoding = 'utf-8', priority = 0, dont_filter = False, errback])
다음은 매개 변수입니다-
formdata − 요청 본문에 할당 된 HTML 양식 데이터가있는 사전입니다.
Note − 나머지 매개 변수는 요청 클래스와 동일하며 다음에 설명되어 있습니다. Request Objects 부분.
다음 클래스 메서드는 FormRequest 요청 메소드 외에 객체-
classmethod from_response(response[, formname = None, formnumber = 0, formdata = None,
formxpath = None, formcss = None, clickdata = None, dont_click = False, ...])
다음 표는 위 클래스의 매개 변수를 보여줍니다-
Sr. 아니요 | 매개 변수 및 설명 |
---|---|
1 | response HTML 형식의 응답을 사용하여 양식 필드를 미리 채우는 데 사용되는 개체입니다. |
2 | formname 지정된 경우 이름 속성이있는 양식이 사용되는 문자열입니다. |
삼 | formnumber 응답에 여러 양식이있을 때 사용할 양식의 정수입니다. |
4 | formdata 재정의하는 데 사용되는 양식 데이터의 필드 사전입니다. |
5 | formxpath 지정된 경우 문자열이며 xpath와 일치하는 양식이 사용됩니다. |
6 | formcss 지정되면 문자열이며 CSS 선택자와 일치하는 양식이 사용됩니다. |
7 | clickdata 클릭 한 컨트롤을 관찰하는 데 사용되는 속성 사전입니다. |
8 | dont_click true로 설정하면 양식의 데이터가 요소를 클릭하지 않고 제출됩니다. |
예
다음은 일부 요청 사용 예입니다.
Using FormRequest to send data via HTTP POST
다음 코드는 반환하는 방법을 보여줍니다. FormRequest 거미에서 HTML 양식 POST를 복제하려는 경우 객체-
return [FormRequest(url = "http://www.something.com/post/action",
formdata = {'firstname': 'John', 'lastname': 'dave'},
callback = self.after_post)]
Using FormRequest.from_response() to simulate a user login
일반적으로 웹 사이트는 미리 채워진 양식 필드를 제공하는 요소를 사용합니다.
그만큼 FormRequest.form_response() 스크래핑하는 동안 이러한 필드가 자동으로 채워지도록하려는 경우 메서드를 사용할 수 있습니다.
다음 예제는이를 보여줍니다.
import scrapy
class DemoSpider(scrapy.Spider):
name = 'demo'
start_urls = ['http://www.something.com/users/login.php']
def parse(self, response):
return scrapy.FormRequest.from_response(
response,
formdata = {'username': 'admin', 'password': 'confidential'},
callback = self.after_login
)
def after_login(self, response):
if "authentication failed" in response.body:
self.logger.error("Login failed")
return
# You can continue scraping here
응답 개체
처리하기 위해 스파이더에 공급되는 HTTP 응답을 나타내는 객체입니다. 그것은 다음과 같은 클래스가 있습니다-
class scrapy.http.Response(url[, status = 200, headers, body, flags])
다음 표는 응답 객체의 매개 변수를 보여줍니다-
Sr. 아니요 | 매개 변수 및 설명 |
---|---|
1 | url URL 응답을 지정하는 문자열입니다. |
2 | status HTTP 상태 응답을 포함하는 정수입니다. |
삼 | headers 응답 헤더를 포함하는 사전입니다. |
4 | body 응답 본문이있는 문자열입니다. |
5 | flags 응답 플래그가 포함 된 목록입니다. |
응답 서브 클래스
응답 클래스를 서브 클래 싱하여 사용자 정의 기능을 구현할 수 있습니다. 내장 응답 하위 클래스는 다음과 같습니다.
TextResponse objects
TextResponse 객체는 기본 Response 클래스를 인코딩하는 기능이있는 이미지, 사운드 등과 같은 이진 데이터에 사용됩니다. 그것은 다음과 같은 클래스가 있습니다-
class scrapy.http.TextResponse(url[, encoding[,status = 200, headers, body, flags]])
다음은 매개 변수입니다-
encoding − 응답을 인코딩하는 데 사용되는 인코딩이있는 문자열입니다.
Note − 나머지 매개 변수는 응답 등급과 동일하며 다음에 설명되어 있습니다. Response Objects 부분.
다음 표는 응답 방법 외에도 TextResponse 객체가 지원하는 속성을 보여줍니다-
Sr. 아니요 | 속성 및 설명 |
---|---|
1 | text response.text에 여러 번 액세스 할 수있는 응답 본문입니다. |
2 | encoding 응답을위한 인코딩이 포함 된 문자열입니다. |
삼 | selector 첫 번째 액세스시 인스턴스화 된 속성이며 응답을 대상으로 사용합니다. |
다음 표는 응답 방법 외에도 TextResponse 객체가 지원하는 방법을 보여줍니다 -
Sr. 아니요 | 방법 및 설명 |
---|---|
1 | xpath (query) TextResponse.selector.xpath (query)에 대한 바로 가기입니다. |
2 | css (query) TextResponse.selector.css (query) 바로 가기입니다. |
삼 | body_as_unicode() response.text에 여러 번 액세스 할 수있는 메서드로 사용할 수있는 응답 본문입니다. |
HtmlResponse 개체
HTML 의 메타 httpequiv 속성을 보고 인코딩 및 자동 검색을 지원하는 개체입니다 . 매개 변수는 응답 클래스와 동일하며 응답 객체 섹션에 설명되어 있습니다. 그것은 다음과 같은 클래스가 있습니다-
class scrapy.http.HtmlResponse(url[,status = 200, headers, body, flags])
XmlResponse 개체
XML 라인을보고 인코딩 및 자동 검색을 지원하는 객체입니다. 매개 변수는 응답 클래스와 동일하며 응답 객체 섹션에 설명되어 있습니다. 그것은 다음과 같은 클래스가 있습니다-
class scrapy.http.XmlResponse(url[, status = 200, headers, body, flags])
기술
이름 자체에서 알 수 있듯이 링크 추출기는 다음을 사용하여 웹 페이지에서 링크를 추출하는 데 사용되는 개체입니다. scrapy.http.Response사물. Scrapy에는 다음과 같은 기본 제공 추출기가 있습니다.scrapy.linkextractors 수입 LinkExtractor. 간단한 인터페이스를 구현하여 필요에 따라 고유 한 링크 추출기를 사용자 정의 할 수 있습니다.
모든 링크 추출기에는 extract_linksResponse 객체를 포함하고 scrapy.link.Link 객체 목록을 반환합니다. 링크 추출기를 한 번만 인스턴스화하고 extract_links 메서드를 여러 번 호출하여 응답이 다른 링크를 추출 할 수 있습니다. CrawlSpiderclass는 링크 추출을 주 목적으로하는 일련의 규칙과 함께 링크 추출기를 사용합니다.
내장 링크 추출기 참조
일반적으로 링크 추출기는 Scrapy로 그룹화되며 scrapy.linkextractors 모듈에서 제공됩니다. 기본적으로 링크 추출기는 LxmlLinkExtractor와 기능이 동일한 LinkExtractor입니다.
from scrapy.linkextractors import LinkExtractor
LxmlLinkExtractor
class scrapy.linkextractors.lxmlhtml.LxmlLinkExtractor(allow = (), deny = (),
allow_domains = (), deny_domains = (), deny_extensions = None, restrict_xpaths = (),
restrict_css = (), tags = ('a', 'area'), attrs = ('href', ),
canonicalize = True, unique = True, process_value = None)
LxmlLinkExtractor는 이 편리한 필터링 옵션을 가지고 있으며,이 LXML의 강력한 HTMLParser 함께 사용되기 때문에, 매우 추천 링크 추출기입니다.
Sr. 아니요 | 매개 변수 및 설명 |
---|---|
1 | allow (정규 표현식 (또는 목록)) 추출 할 URL과 일치해야하는 단일 표현식 또는 표현식 그룹을 허용합니다. 언급되지 않은 경우 모든 링크와 일치합니다. |
2 | deny (정규 표현식 (또는 목록)) 추출하지 않을 URL과 일치해야하는 단일 표현식 또는 표현식 그룹을 차단하거나 제외합니다. 언급되지 않았거나 비워두면 원하지 않는 링크가 제거되지 않습니다. |
삼 | allow_domains (str 또는 list) 링크를 추출 할 도메인과 일치해야하는 단일 문자열 또는 문자열 목록을 허용합니다. |
4 | deny_domains (str 또는 list) 링크를 추출하지 않을 도메인과 일치해야하는 단일 문자열 또는 문자열 목록을 차단하거나 제외합니다. |
5 | deny_extensions (명부) 링크를 추출 할 때 확장자가있는 문자열 목록을 차단합니다. 설정되지 않은 경우 기본적 으로 scrapy.linkextractors 패키지에 미리 정의 된 목록을 포함 하는 IGNORED_EXTENSIONS 로 설정됩니다 . |
6 | restrict_xpaths (str 또는 list) 응답에서 링크를 추출 할 XPath 목록 영역입니다. 주어진 경우 링크는 XPath에 의해 선택된 텍스트에서만 추출됩니다. |
7 | restrict_css (str 또는 list) 응답 내 CSS 선택 영역에서 링크를 추출하는 restrict_xpaths 매개 변수와 유사하게 작동합니다. |
8 | tags (str 또는 list) 링크를 추출 할 때 고려해야 할 단일 태그 또는 태그 목록입니다. 기본적으로 ( 'a', 'area')입니다. |
9 | attrs (명부) 링크를 추출하는 동안 단일 속성 또는 속성 목록을 고려해야합니다. 기본적으로 ( 'href',)입니다. |
10 | canonicalize (부울) 추출 된 URL은 scrapy.utils.url.canonicalize_url을 사용하여 표준 양식으로 가져 옵니다 . 기본적으로 True입니다. |
11 | unique (부울) 추출 된 링크가 반복 될 경우 사용됩니다. |
12 | process_value (호출 가능) 스캔 한 태그와 속성에서 값을받는 기능입니다. 수신 된 값이 변경되어 반환 될 수 있습니다. 그렇지 않으면 링크를 거부하기 위해 아무 것도 반환되지 않습니다. 사용하지 않는 경우 기본적으로 람다 x : x입니다. |
예
다음 코드는 링크를 추출하는 데 사용됩니다-
<a href = "javascript:goToPage('../other/page.html'); return false">Link text</a>
다음 코드 함수는 process_value에서 사용할 수 있습니다-
def process_value(val):
m = re.search("javascript:goToPage\('(.*?)'", val)
if m:
return m.group(1)
기술
Scrapy 구성 요소의 동작은 Scrapy 설정을 사용하여 수정할 수 있습니다. Scrapy 프로젝트가 여러 개인 경우 설정에서 현재 활성화 된 Scrapy 프로젝트를 선택할 수도 있습니다.
설정 지정
웹 사이트를 스크랩 할 때 사용중인 설정을 Scrapy에 알려야합니다. 이를 위해 환경 변수SCRAPY_SETTINGS_MODULE 사용되어야하며 그 값은 Python 경로 구문이어야합니다.
설정 채우기
다음 표는 설정을 채울 수있는 몇 가지 메커니즘을 보여줍니다.
Sr. 아니요 | 메커니즘 및 설명 |
---|---|
1 | Command line options 여기서 전달되는 인수는 다른 옵션을 재정 의하여 가장 높은 우선 순위를 갖습니다. -s는 하나 이상의 설정을 대체하는 데 사용됩니다. |
2 | Settings per-spider 스파이더는 custom_settings 속성을 사용하여 프로젝트 설정을 재정의하는 자체 설정을 가질 수 있습니다. |
삼 | Project settings module 여기에서 settings.py 파일의 설정 추가 또는 수정과 같은 사용자 지정 설정을 채울 수 있습니다. |
4 | Default settings per-command 각 Scrapy 도구 명령은 default_settings 속성에 자체 설정을 정의하여 전역 기본 설정을 재정의합니다. |
5 | Default global settings 이러한 설정은 scrapy.settings.default_settings 모듈에 있습니다. |
액세스 설정
self.settings를 통해 사용할 수 있으며 초기화 후 기본 스파이더에 설정됩니다.
다음 예제는이를 보여줍니다.
class DemoSpider(scrapy.Spider):
name = 'demo'
start_urls = ['http://example.com']
def parse(self, response):
print("Existing settings: %s" % self.settings.attributes.keys())
스파이더를 초기화하기 전에 설정을 사용하려면 스파이더의 _init_ () 메서드 에서 from_crawler 메서드를 재정의해야합니다 . 당신은 속성을 통해 설정에 액세스 할 수 있습니다 scrapy.crawler.Crawler.settings 에 전달 from_crawler의 방법.
다음 예제는이를 보여줍니다.
class MyExtension(object):
def __init__(self, log_is_enabled = False):
if log_is_enabled:
print("Enabled log")
@classmethod
def from_crawler(cls, crawler):
settings = crawler.settings
return cls(settings.getbool('LOG_ENABLED'))
이름 설정의 이유
설정 이름은 구성 요소에 접두사로 추가됩니다. 예를 들어 robots.txt 확장자의 경우 설정 이름은 ROBOTSTXT_ENABLED, ROBOTSTXT_OBEY, ROBOTSTXT_CACHEDIR 등이 될 수 있습니다.
내장 설정 참조
다음 표는 Scrapy의 내장 설정을 보여줍니다-
Sr. 아니요 | 설정 및 설명 |
---|---|
1 | AWS_ACCESS_KEY_ID Amazon Web Services에 액세스하는 데 사용됩니다. 기본값 : 없음 |
2 | AWS_SECRET_ACCESS_KEY Amazon Web Services에 액세스하는 데 사용됩니다. 기본값 : 없음 |
삼 | BOT_NAME User-Agent 구축에 사용할 수있는 봇의 이름입니다. 기본값 : 'scrapybot' |
4 | CONCURRENT_ITEMS 병렬 처리에 사용되는 항목 프로세서의 최대 기존 항목 수입니다. 기본값 : 100 |
5 | CONCURRENT_REQUESTS Scrapy 다운로더가 수행하는 기존 요청의 최대 수입니다. 기본값 : 16 |
6 | CONCURRENT_REQUESTS_PER_DOMAIN 단일 도메인에 대해 동시에 수행되는 기존 요청의 최대 수입니다. 기본값 : 8 |
7 | CONCURRENT_REQUESTS_PER_IP 단일 IP에 대해 동시에 수행되는 기존 요청의 최대 수입니다. 기본값 : 0 |
8 | DEFAULT_ITEM_CLASS 항목을 나타내는 데 사용되는 클래스입니다. 기본값 : 'scrapy.item.Item' |
9 | DEFAULT_REQUEST_HEADERS Scrapy의 HTTP 요청에 사용되는 기본 헤더입니다. 기본값- |
10 | DEPTH_LIMIT 스파이더가 모든 사이트를 크롤링 할 수있는 최대 깊이입니다. 기본값 : 0 |
11 | DEPTH_PRIORITY 깊이에 따라 요청의 우선 순위를 변경하는 데 사용되는 정수입니다. 기본값 : 0 |
12 | DEPTH_STATS 수심 통계 수집 여부를 나타냅니다. 기본값 : True |
13 | DEPTH_STATS_VERBOSE 이 설정을 활성화하면 요청 수가 각 상세 정보에 대한 통계로 수집됩니다. 기본값 : False |
14 | DNSCACHE_ENABLED 메모리 캐시에서 DNS를 활성화하는 데 사용됩니다. 기본값 : True |
15 | DNSCACHE_SIZE 메모리 캐시의 DNS 크기를 정의합니다. 기본값 : 10000 |
16 | DNS_TIMEOUT DNS가 쿼리를 처리 할 시간 제한을 설정하는 데 사용됩니다. 기본값 : 60 |
17 | DOWNLOADER 크롤링 프로세스에 사용되는 다운로더입니다. 기본값 : 'scrapy.core.downloader.Downloader' |
18 | DOWNLOADER_MIDDLEWARES 다운로더 미들웨어 및 주문을 보관하는 사전입니다. 기본값: {} |
19 | DOWNLOADER_MIDDLEWARES_BASE 기본적으로 활성화되는 다운로더 미들웨어를 보관하는 사전입니다. 기본값- |
20 | DOWNLOADER_STATS 이 설정은 다운로더 통계를 활성화하는 데 사용됩니다. 기본값 : True |
21 | DOWNLOAD_DELAY 사이트에서 페이지를 다운로드하기 전에 다운로더의 총 시간을 정의합니다. 기본값 : 0 |
22 | DOWNLOAD_HANDLERS 다운로드 핸들러가있는 사전입니다. 기본값: {} |
23 | DOWNLOAD_HANDLERS_BASE 기본적으로 활성화되는 다운로드 핸들러가있는 사전입니다. 기본값- |
24 | DOWNLOAD_TIMEOUT 다운로더가 시간 초과되기 전에 대기하는 총 시간입니다. 기본값 : 180 |
25 | DOWNLOAD_MAXSIZE 다운로더가 다운로드 할 수있는 최대 응답 크기입니다. 기본값 : 1073741824 (1024MB) |
26 | DOWNLOAD_WARNSIZE 다운로더가 경고 할 응답 크기를 정의합니다. 기본값 : 33554432 (32MB) |
27 | DUPEFILTER_CLASS 중복 된 요청을 감지하고 필터링하는 데 사용되는 클래스입니다. 기본값 : 'scrapy.dupefilters.RFPDupeFilter' |
28 | DUPEFILTER_DEBUG 이 설정은 true로 설정된 경우 모든 중복 필터를 기록합니다. 기본값 : False |
29 | EDITOR edit 명령을 사용하여 스파이더를 편집하는 데 사용됩니다. 기본값 : 환경에 따라 다름 |
30 | EXTENSIONS 프로젝트에서 활성화 된 확장이있는 사전입니다. 기본값: {} |
31 | EXTENSIONS_BASE 확장 기능이 내장 된 사전입니다. 기본값 : { 'scrapy.extensions.corestats.CoreStats': 0,} |
32 | FEED_TEMPDIR 크롤러 임시 파일을 저장할 수있는 사용자 정의 폴더를 설정하는 데 사용되는 디렉토리입니다. |
33 | ITEM_PIPELINES 파이프 라인이있는 사전입니다. 기본값: {} |
34 | LOG_ENABLED 로깅을 사용할지 여부를 정의합니다. 기본값 : True |
35 | LOG_ENCODING 로깅에 사용할 인코딩 유형을 정의합니다. 기본값 : 'utf-8' |
36 | LOG_FILE 로깅 출력에 사용할 파일의 이름입니다. 기본값 : 없음 |
37 | LOG_FORMAT 로그 메시지를 형식화 할 수있는 문자열입니다. 기본값 : '% (asctime) s [% (name) s] % (levelname) s : % (message) s' |
38 | LOG_DATEFORMAT 날짜 / 시간을 포맷 할 수있는 문자열입니다. 기본값 : '% Y- % m- % d % H : % M : % S' |
39 | LOG_LEVEL 최소 로그 수준을 정의합니다. 기본값 : 'DEBUG' |
40 | LOG_STDOUT 이 설정을 true로 설정하면 모든 프로세스 출력이 로그에 나타납니다. 기본값 : False |
41 | MEMDEBUG_ENABLED 메모리 디버깅을 사용할지 여부를 정의합니다. 기본값 : False |
42 | MEMDEBUG_NOTIFY 메모리 디버깅이 활성화 된 경우 특정 주소로 전송되는 메모리 보고서를 정의합니다. 기본값: [] |
43 | MEMUSAGE_ENABLED Scrapy 프로세스가 메모리 제한을 초과 할 때 메모리 사용을 활성화할지 여부를 정의합니다. 기본값 : False |
44 | MEMUSAGE_LIMIT_MB 허용되는 메모리의 최대 한계 (MB)를 정의합니다. 기본값 : 0 |
45 | MEMUSAGE_CHECK_INTERVAL_SECONDS 간격의 길이를 설정하여 현재 메모리 사용량을 확인하는 데 사용됩니다. 기본값 : 60.0 |
46 | MEMUSAGE_NOTIFY_MAIL 메모리가 한계에 도달하면 이메일 목록과 함께 알리는 데 사용됩니다. 기본값 : False |
47 | MEMUSAGE_REPORT 각 스파이더를 닫을 때 메모리 사용량 보고서를 보낼지 여부를 정의합니다. 기본값 : False |
48 | MEMUSAGE_WARNING_MB 경고를 보내기 전에 허용 할 총 메모리를 정의합니다. 기본값 : 0 |
49 | NEWSPIDER_MODULE genspider 명령을 사용하여 새로운 스파이더를 생성하는 모듈입니다. 기본값: '' |
50 | RANDOMIZE_DOWNLOAD_DELAY 사이트에서 요청을 다운로드하는 동안 Scrapy가 대기하는 임의의 시간을 정의합니다. 기본값 : True |
51 | REACTOR_THREADPOOL_MAXSIZE 원자로 스레드 풀의 최대 크기를 정의합니다. 기본값 : 10 |
52 | REDIRECT_MAX_TIMES 요청을 리디렉션 할 수있는 횟수를 정의합니다. 기본값 : 20 |
53 | REDIRECT_PRIORITY_ADJUST 이 설정을 설정하면 요청의 리디렉션 우선 순위를 조정합니다. 기본값 : +2 |
54 | RETRY_PRIORITY_ADJUST 이 설정을 설정하면 요청의 재시도 우선 순위를 조정합니다. 기본값 : -1 |
55 | ROBOTSTXT_OBEY Scrapy는 true로 설정되면 robots.txt 정책을 준수 합니다 . 기본값 : False |
56 | SCHEDULER 크롤링 목적으로 사용할 스케줄러를 정의합니다. 기본값 : 'scrapy.core.scheduler.Scheduler' |
57 | SPIDER_CONTRACTS 거미를 테스트하기 위해 거미가 계약하는 프로젝트의 사전입니다. 기본값: {} |
58 | SPIDER_CONTRACTS_BASE Scrapy에서 기본적으로 활성화되는 Scrapy 계약을 보관하는 사전입니다. 기본값- |
59 | SPIDER_LOADER_CLASS 스파이더를로드하기 위해 SpiderLoader API 를 구현하는 클래스를 정의합니다 . 기본값 : 'scrapy.spiderloader.SpiderLoader' |
60 | SPIDER_MIDDLEWARES 거미 미들웨어를 담은 사전입니다. 기본값: {} |
61 | SPIDER_MIDDLEWARES_BASE Scrapy에서 기본적으로 활성화되는 스파이더 미들웨어를 보관하는 사전입니다. 기본값- |
62 | SPIDER_MODULES Scrapy가 찾을 스파이더가 포함 된 모듈 목록입니다. 기본값: [] |
63 | STATS_CLASS 통계 를 수집하기 위해 Stats Collector API를 구현하는 클래스입니다 . 기본값 : 'scrapy.statscollectors.MemoryStatsCollector' |
64 | STATS_DUMP 이 설정을 true로 설정하면 통계가 로그에 덤프됩니다. 기본값 : True |
65 | STATSMAILER_RCPTS 거미가 스크래핑을 마치면 Scrapy는이 설정을 사용하여 통계를 보냅니다. 기본값: [] |
66 | TELNETCONSOLE_ENABLED telnetconsole을 활성화할지 여부를 정의합니다. 기본값 : True |
67 | TELNETCONSOLE_PORT 텔넷 콘솔 용 포트를 정의합니다. 기본값 : [6023, 6073] |
68 | TEMPLATES_DIR 새 프로젝트를 만드는 동안 사용할 수있는 템플릿이 포함 된 디렉터리입니다. 기본값 : 스크래피 모듈 내부의 템플릿 디렉토리 |
69 | URLLENGTH_LIMIT 크롤링 된 URL에 허용되는 URL 길이의 최대 제한을 정의합니다. 기본값 : 2083 |
70 | USER_AGENT 사이트를 크롤링하는 동안 사용할 사용자 에이전트를 정의합니다. 기본값 : "Scrapy / VERSION (+ http : //scrapy.org)" |
다른 Scrapy 설정을 보려면이 링크 로 이동 하십시오 .
기술
불규칙한 이벤트를 예외라고합니다. Scrapy에서는 구성 누락, 항목 파이프 라인에서 항목 삭제 등과 같은 이유로 예외가 발생합니다. 다음은 Scrapy 및 해당 응용 프로그램에서 언급 된 예외 목록입니다.
DropItem
항목 파이프 라인은이 예외를 활용하여 모든 단계에서 항목 처리를 중지합니다. 다음과 같이 쓸 수 있습니다.
exception (scrapy.exceptions.DropItem)
CloseSpider
이 예외는 콜백 요청을 사용하여 스파이더를 중지하는 데 사용됩니다. 다음과 같이 쓸 수 있습니다.
exception (scrapy.exceptions.CloseSpider)(reason = 'cancelled')
닫는 이유를 지정하는 reason (str) 이라는 매개 변수가 포함되어 있습니다 .
예를 들어, 다음 코드는이 예외 사용법을 보여줍니다.
def parse_page(self, response):
if 'Bandwidth exceeded' in response.body:
raise CloseSpider('bandwidth_exceeded')
IgnoreRequest
이 예외는 스케줄러 또는 다운로더 미들웨어에서 요청을 무시하는 데 사용됩니다. 다음과 같이 쓸 수 있습니다.
exception (scrapy.exceptions.IgnoreRequest)
구성되지 않음
누락 된 구성 상황을 나타내며 구성 요소 생성자에서 발생해야합니다.
exception (scrapy.exceptions.NotConfigured)
다음 구성 요소 중 하나가 비활성화 된 경우이 예외가 발생할 수 있습니다.
- Extensions
- 아이템 파이프 라인
- 다운로더 미들웨어
- 스파이더 미들웨어
지원되지 않음
이 예외는 기능이나 메서드가 지원되지 않을 때 발생합니다. 다음과 같이 쓸 수 있습니다.
exception (scrapy.exceptions.NotSupported)
기술
웹 페이지에서 데이터를 스크랩하려면 먼저 코드를 저장할 Scrapy 프로젝트를 만들어야합니다. 새 디렉토리를 생성하려면 다음 명령을 실행하십시오.
scrapy startproject first_scrapy
위의 코드는 이름이 first_scrapy 인 디렉토리를 생성하고 다음 구조를 포함합니다.
first_scrapy/
scrapy.cfg # deploy configuration file
first_scrapy/ # project's Python module, you'll import your code from here
__init__.py
items.py # project items file
pipelines.py # project pipelines file
settings.py # project settings file
spiders/ # a directory where you'll later put your spiders
__init__.py
기술
항목은 웹 사이트에서 스크랩 한 데이터를 수집하는 데 사용되는 컨테이너입니다. 아이템을 정의하여 스파이더를 시작해야합니다. 항목을 정의하려면items.py 디렉토리 아래에있는 파일 first_scrapy(사용자 지정 디렉터리). items.py 다음과 같이 표시 -
import scrapy
class First_scrapyItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
MyItem의 에서 클래스 상속 항목 Scrapy 이미 우리를 위해 내장 된 것을 미리 정의 된 개체의 수를 포함. 예를 들어 사이트에서 이름, URL 및 설명을 추출하려면이 세 가지 속성 각각에 대한 필드를 정의해야합니다.
따라서 수집하려는 항목을 추가해 보겠습니다.
from scrapy.item import Item, Field
class First_scrapyItem(scrapy.Item):
name = scrapy.Field()
url = scrapy.Field()
desc = scrapy.Field()
기술
Spider는 데이터를 추출 할 초기 URL, 페이지 매김 링크를 따르는 방법 및에 정의 된 필드를 추출하고 구문 분석하는 방법을 정의하는 클래스입니다. items.py. Scrapy는 각각 특정 목적을 제공하는 다양한 유형의 거미를 제공합니다.
라는 파일을 만듭니다. "first_spider.py"first_scrapy / spiders 디렉터리 아래에서 찾고있는 정확한 데이터를 찾는 방법을 Scrapy에게 알려줄 수 있습니다. 이를 위해 몇 가지 속성을 정의해야합니다.
name − 스파이더의 고유 한 이름을 정의합니다.
allowed_domains − 스파이더가 크롤링 할 기본 URL을 포함합니다.
start-urls − 스파이더가 크롤링을 시작하는 URL 목록.
parse() − 스크랩 된 데이터를 추출하여 파싱하는 방법입니다.
다음 코드는 스파이더 코드가 어떻게 생겼는지 보여줍니다.
import scrapy
class firstSpider(scrapy.Spider):
name = "first"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
filename = response.url.split("/")[-2] + '.html'
with open(filename, 'wb') as f:
f.write(response.body)
기술
스파이더를 실행하려면 first_scrapy 디렉토리 에서 다음 명령을 실행하십시오.
scrapy crawl first
어디, first 스파이더를 만드는 동안 지정된 스파이더의 이름입니다.
거미가 크롤링하면 다음 출력을 볼 수 있습니다.
2016-08-09 18:13:07-0400 [scrapy] INFO: Scrapy started (bot: tutorial)
2016-08-09 18:13:07-0400 [scrapy] INFO: Optional features available: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Overridden settings: {}
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled extensions: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled downloader middlewares: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled spider middlewares: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled item pipelines: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Spider opened
2016-08-09 18:13:08-0400 [scrapy] DEBUG: Crawled (200)
<GET http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/> (referer: None)
2016-08-09 18:13:09-0400 [scrapy] DEBUG: Crawled (200)
<GET http://www.dmoz.org/Computers/Programming/Languages/Python/Books/> (referer: None)
2016-08-09 18:13:09-0400 [scrapy] INFO: Closing spider (finished)
출력에서 볼 수 있듯이 각 URL에 대해 URL 이 시작 URL이고 참조자가 없음 을 나타내는 로그 행이 있습니다 (참조 : 없음) . 다음으로, 여러분 의 first_scrapy 디렉토리 에 Books.html 과 Resources.html 이라는 두 개의 새 파일 이 생성 된 것을 볼 수 있습니다 .
기술
웹 페이지에서 데이터를 추출하기 위해 Scrapy는 XPath 및 CSS 표현식을 기반으로하는 선택기라는 기술을 사용합니다 . 다음은 XPath 표현식의 몇 가지 예입니다.
/html/head/title − HTML 문서의 <head> 요소 안에있는 <title> 요소를 선택합니다.
/html/head/title/text() − 동일한 <title> 요소 내의 텍스트를 선택합니다.
//td − 이것은 <td>의 모든 요소를 선택합니다.
//div[@class = "slice"]− 속성 클래스 = "슬라이스"를 포함하는 div 에서 모든 요소를 선택합니다.
선택자는 다음 표와 같이 네 가지 기본 방법이 있습니다.
Sr. 아니요 | 방법 및 설명 |
---|---|
1 | extract() 선택한 데이터와 함께 유니 코드 문자열을 반환합니다. |
2 | re() 정규식이 인수로 주어 졌을 때 추출 된 유니 코드 문자열 목록을 반환합니다. |
삼 | xpath() 인수로 제공된 xpath 표현식에 의해 선택된 노드를 나타내는 선택기 목록을 리턴합니다. |
4 | css() 인수로 주어진 CSS 표현식에 의해 선택된 노드를 나타내는 선택기 목록을 반환합니다. |
셸에서 선택기 사용
내장 된 Scrapy 셸을 사용하여 선택기를 시연하려면 시스템에 IPython이 설치되어 있어야합니다. 여기서 중요한 것은 Scrapy를 실행하는 동안 URL이 따옴표 안에 포함되어야한다는 것입니다. 그렇지 않으면 '&'문자가있는 URL이 작동하지 않습니다. 프로젝트의 최상위 디렉토리에서 다음 명령을 사용하여 셸을 시작할 수 있습니다.
scrapy shell "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/"
셸은 다음과 같습니다.
[ ... Scrapy log here ... ]
2014-01-23 17:11:42-0400 [scrapy] DEBUG: Crawled (200)
<GET http://www.dmoz.org/Computers/Programming/Languages/Python/Books/>(referer: None)
[s] Available Scrapy objects:
[s] crawler <scrapy.crawler.Crawler object at 0x3636b50>
[s] item {}
[s] request <GET http://www.dmoz.org/Computers/Programming/Languages/Python/Books/>
[s] response <200 http://www.dmoz.org/Computers/Programming/Languages/Python/Books/>
[s] settings <scrapy.settings.Settings object at 0x3fadc50>
[s] spider <Spider 'default' at 0x3cebf50>
[s] Useful shortcuts:
[s] shelp() Shell help (print this help)
[s] fetch(req_or_url) Fetch request (or URL) and update local objects
[s] view(response) View response in a browser
In [1]:
셸이로드되면 각각 response.body 및 response.header 를 사용하여 본문 또는 헤더에 액세스 할 수 있습니다 . 마찬가지로 response.selector.xpath () 또는 response.selector.css ()를 사용하여 응답 에 대한 쿼리를 실행할 수 있습니다 .
예를 들어-
In [1]: response.xpath('//title')
Out[1]: [<Selector xpath = '//title' data = u'<title>My Book - Scrapy'>]
In [2]: response.xpath('//title').extract()
Out[2]: [u'<title>My Book - Scrapy: Index: Chapters</title>']
In [3]: response.xpath('//title/text()')
Out[3]: [<Selector xpath = '//title/text()' data = u'My Book - Scrapy: Index:'>]
In [4]: response.xpath('//title/text()').extract()
Out[4]: [u'My Book - Scrapy: Index: Chapters']
In [5]: response.xpath('//title/text()').re('(\w+):')
Out[5]: [u'Scrapy', u'Index', u'Chapters']
데이터 추출
일반 HTML 사이트에서 데이터를 추출하려면 사이트의 소스 코드를 검사하여 XPath를 가져와야합니다. 검사 후 데이터가ul꼬리표. 내 요소 선택li 꼬리표.
다음 코드 줄은 다양한 유형의 데이터 추출을 보여줍니다.
li 태그 내에서 데이터 선택-
response.xpath('//ul/li')
설명 선택-
response.xpath('//ul/li/text()').extract()
사이트 제목 선택-
response.xpath('//ul/li/a/text()').extract()
사이트 링크 선택-
response.xpath('//ul/li/a/@href').extract()
다음 코드는 위 추출기의 사용을 보여줍니다-
import scrapy
class MyprojectSpider(scrapy.Spider):
name = "project"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
for sel in response.xpath('//ul/li'):
title = sel.xpath('a/text()').extract()
link = sel.xpath('a/@href').extract()
desc = sel.xpath('text()').extract()
print title, link, desc
기술
Item객체는 Python의 일반적인 사전입니다. 다음 구문을 사용하여 클래스의 속성에 액세스 할 수 있습니다.
>>> item = DmozItem()
>>> item['title'] = 'sample title'
>>> item['title']
'sample title'
다음 예제에 위의 코드를 추가하십시오-
import scrapy
from tutorial.items import DmozItem
class MyprojectSpider(scrapy.Spider):
name = "project"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
for sel in response.xpath('//ul/li'):
item = DmozItem()
item['title'] = sel.xpath('a/text()').extract()
item['link'] = sel.xpath('a/@href').extract()
item['desc'] = sel.xpath('text()').extract()
yield item
위 스파이더의 출력은 다음과 같습니다.
[scrapy] DEBUG: Scraped from <200
http://www.dmoz.org/Computers/Programming/Languages/Python/Books/>
{'desc': [u' - By David Mertz; Addison Wesley. Book in progress, full text,
ASCII format. Asks for feedback. [author website, Gnosis Software, Inc.\n],
'link': [u'http://gnosis.cx/TPiP/'],
'title': [u'Text Processing in Python']}
[scrapy] DEBUG: Scraped from <200
http://www.dmoz.org/Computers/Programming/Languages/Python/Books/>
{'desc': [u' - By Sean McGrath; Prentice Hall PTR, 2000, ISBN 0130211192,
has CD-ROM. Methods to build XML applications fast, Python tutorial, DOM and
SAX, new Pyxie open source XML processing library. [Prentice Hall PTR]\n'],
'link': [u'http://www.informit.com/store/product.aspx?isbn=0130211192'],
'title': [u'XML Processing with Python']}
기술
이 장에서는 관심있는 페이지의 링크를 추출하고 해당 페이지를 따라 가며 해당 페이지에서 데이터를 추출하는 방법을 연구합니다. 이를 위해 다음과 같이 이전 코드 에서 다음과 같이 변경해야합니다.
import scrapy
from tutorial.items import DmozItem
class MyprojectSpider(scrapy.Spider):
name = "project"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/",
]
def parse(self, response):
for href in response.css("ul.directory.dir-col > li > a::attr('href')"):
url = response.urljoin(href.extract())
yield scrapy.Request(url, callback = self.parse_dir_contents)
def parse_dir_contents(self, response):
for sel in response.xpath('//ul/li'):
item = DmozItem()
item['title'] = sel.xpath('a/text()').extract()
item['link'] = sel.xpath('a/@href').extract()
item['desc'] = sel.xpath('text()').extract()
yield item
위의 코드는 다음과 같은 방법을 포함합니다-
parse() − 우리가 관심있는 링크를 추출합니다.
response.urljoin − parse () 메서드는이 메서드를 사용하여 새 URL을 만들고 나중에 콜백으로 보낼 새 요청을 제공합니다.
parse_dir_contents() − 이것은 실제로 관심있는 데이터를 스크랩하는 콜백입니다.
여기서 Scrapy는 콜백 메커니즘을 사용하여 링크를 따릅니다. 이 메커니즘을 사용하면 더 큰 크롤러를 설계하고 관심 링크를 따라 가서 다른 페이지에서 원하는 데이터를 긁어 낼 수 있습니다. 일반 메소드는 항목을 추출하고 다음 페이지로 이동할 링크를 찾은 다음 동일한 콜백에 대한 요청을 제공하는 콜백 메소드입니다.
다음 예제는 다음 페이지로 연결되는 링크를 따라가는 루프를 생성합니다.
def parse_articles_follow_next_page(self, response):
for article in response.xpath("//article"):
item = ArticleItem()
... extract article data here
yield item
next_page = response.css("ul.navigation > li.next-page > a::attr('href')")
if next_page:
url = response.urljoin(next_page[0].extract())
yield scrapy.Request(url, self.parse_articles_follow_next_page)
기술
스크랩 된 데이터를 저장하는 가장 좋은 방법은 여러 직렬화 형식을 사용하여 데이터가 올바르게 저장되고 있는지 확인하는 피드 내보내기를 사용하는 것입니다. JSON, JSON 라인, CSV, XML은 직렬화 형식에서 쉽게 지원되는 형식입니다. 데이터는 다음 명령으로 저장할 수 있습니다-
scrapy crawl dmoz -o data.json
이 명령은 data.jsonJSON으로 스크랩 된 데이터를 포함하는 파일. 이 기술은 소량의 데이터에 유용합니다. 많은 양의 데이터를 처리해야하는 경우 항목 파이프 라인을 사용할 수 있습니다. data.json 파일과 마찬가지로 프로젝트가 생성 될 때 예약 된 파일이 설정됩니다.tutorial/pipelines.py.
기술
Logging내장 된 로깅 시스템을 사용하고 기능과 클래스를 정의하여 애플리케이션과 라이브러리를 구현하는 이벤트 추적을 의미합니다. 로깅은 바로 사용할 수있는 자료이며 로깅 설정에 나열된 Scrapy 설정과 함께 작동 할 수 있습니다.
Scrapy는 몇 가지 기본 설정을 설정하고 명령을 실행할 때 scrapy.utils.log.configure_logging ()의 도움으로 이러한 설정을 처리합니다.
로그 수준
Python에서는 로그 메시지에 대해 5 가지 수준의 심각도가 있습니다. 다음 목록은 오름차순으로 표준 로그 메시지를 보여줍니다-
logging.DEBUG − 디버깅 메시지 용 (가장 낮은 심각도)
logging.INFO − 정보 메시지 용
logging.WARNING − 경고 메시지
logging.ERROR − 일반 오류
logging.CRITICAL − 심각한 오류 (가장 높은 심각도)
메시지를 기록하는 방법
다음 코드는 logging.info 수평.
import logging
logging.info("This is an information")
위의 로깅 메시지는 다음을 사용하여 인수로 전달할 수 있습니다. logging.log 다음과 같이 표시-
import logging
logging.log(logging.INFO, "This is an information")
이제 로거를 사용하여 로깅 헬퍼 로깅을 사용하여 메시지를 묶어 다음과 같이 로깅 메시지를 명확하게 표시 할 수도 있습니다.
import logging
logger = logging.getLogger()
logger.info("This is an information")
여러 로거가있을 수 있으며 로거는 다음을 사용하여 이름을 가져 와서 액세스 할 수 있습니다. logging.getLogger 기능은 다음과 같습니다.
import logging
logger = logging.getLogger('mycustomlogger')
logger.info("This is an information")
사용자 정의 로거는 다음과 같이 표시된 모듈 경로를 포함하는 __name__ 변수를 사용하여 모든 모듈에 사용할 수 있습니다.
import logging
logger = logging.getLogger(__name__)
logger.info("This is an information")
스파이더에서 로깅
모든 스파이더 인스턴스에는 logger 그 안에 다음과 같이 사용할 수 있습니다-
import scrapy
class LogSpider(scrapy.Spider):
name = 'logspider'
start_urls = ['http://dmoz.com']
def parse(self, response):
self.logger.info('Parse function called on %s', response.url)
위 코드에서 로거는 Spider의 이름을 사용하여 생성되지만 다음 코드와 같이 Python에서 제공하는 사용자 정의 로거를 사용할 수 있습니다.
import logging
import scrapy
logger = logging.getLogger('customizedlogger')
class LogSpider(scrapy.Spider):
name = 'logspider'
start_urls = ['http://dmoz.com']
def parse(self, response):
logger.info('Parse function called on %s', response.url)
로깅 구성
로거는 자체적으로 보낸 메시지를 표시 할 수 없습니다. 따라서 이러한 메시지를 표시하기위한 "핸들러"가 필요하며 핸들러는 이러한 메시지를 파일, 이메일 및 표준 출력과 같은 각각의 대상으로 리디렉션합니다.
다음 설정에 따라 Scrapy는 로거에 대한 핸들러를 구성합니다.
로깅 설정
다음 설정은 로깅을 구성하는 데 사용됩니다-
그만큼 LOG_FILE 과 LOG_ENABLED 로그 메시지의 대상을 결정합니다.
당신이 설정할 때 LOG_ENCODING false로 설정하면 로그 출력 메시지가 표시되지 않습니다.
그만큼 LOG_LEVEL메시지의 심각도 순서를 결정합니다. 심각도가 낮은 메시지는 필터링됩니다.
그만큼 LOG_FORMAT 과 LOG_DATEFORMAT 모든 메시지의 레이아웃을 지정하는 데 사용됩니다.
당신이 설정할 때 LOG_STDOUT true로 설정하면 프로세스의 모든 표준 출력 및 오류 메시지가 로그로 리디렉션됩니다.
명령 줄 옵션
Scrapy 설정은 다음 표와 같이 명령 줄 인수를 전달하여 재정의 할 수 있습니다.
Sr. 아니요 | 명령 및 설명 |
---|---|
1 | --logfile FILE LOG_FILE 재정의 |
2 | --loglevel/-L LEVEL LOG_LEVEL 무시 |
삼 | --nolog LOG_ENABLED 를 False로 설정합니다. |
scrapy.utils.log 모듈
이 함수는 Scrapy에 대한 로깅 기본값을 초기화하는 데 사용할 수 있습니다.
scrapy.utils.log.configure_logging(settings = None, install_root_handler = True)
Sr. 아니요 | 매개 변수 및 설명 |
---|---|
1 | settings (dict, None) 루트 로거에 대한 핸들러를 생성하고 구성합니다. 기본적으로 None 입니다. |
2 | install_root_handler (bool) 루트 로깅 핸들러를 설치하도록 지정합니다. 기본적으로 True 입니다. |
위의 기능-
- Python 표준 로깅을 통해 경고 및 트위스트 로깅을 라우팅합니다.
- DEBUG를 Scrapy에 할당하고 ERROR 수준을 Twisted 로거에 할당합니다.
- LOG_STDOUT 설정이 true 인 경우 stdout을 로그로 라우팅합니다.
기본 옵션은 다음을 사용하여 재정의 할 수 있습니다. settings논의. 설정을 지정하지 않으면 기본값이 사용됩니다. install_root_handler가 true로 설정되면 루트 로거에 대한 핸들러를 작성할 수 있습니다. false로 설정하면 로그 출력이 설정되지 않습니다. Scrapy 명령을 사용할 때 configure_logging이 자동으로 호출되며 사용자 지정 스크립트를 실행하는 동안 명시 적으로 실행할 수 있습니다.
로깅 출력을 수동으로 구성하려면 다음을 사용할 수 있습니다. logging.basicConfig() 다음과 같이 표시-
import logging
from scrapy.utils.log import configure_logging
configure_logging(install_root_handler = False)
logging.basicConfig (
filename = 'logging.txt',
format = '%(levelname)s: %(your_message)s',
level = logging.INFO
)
기술
Stats Collector는 Scrapy에서 키 / 값의 형태로 통계를 수집하기 위해 제공하는 기능이며 크롤러 API를 사용하여 액세스합니다 (크롤러는 모든 Scrapy 핵심 구성 요소에 대한 액세스를 제공합니다). 통계 수집기는 스파이더가 열릴 때 통계 수집기가 자동으로 열리고 스파이더가 닫히면 통계 수집기를 닫는 스파이더 당 하나의 통계 테이블을 제공합니다.
일반적인 통계 수집기 사용
다음 코드는 다음을 사용하여 통계 수집기에 액세스합니다. stats 속성.
class ExtensionThatAccessStats(object):
def __init__(self, stats):
self.stats = stats
@classmethod
def from_crawler(cls, crawler):
return cls(crawler.stats)
다음 표는 통계 수집기와 함께 사용할 수있는 다양한 옵션을 보여줍니다.
Sr. 아니요 | 매개 변수 | 기술 |
---|---|---|
1 | |
통계 값을 설정하는 데 사용됩니다. |
2 | |
통계 값을 증가시킵니다. |
삼 | |
통계 값은 이전 값보다 큰 경우에만 설정할 수 있습니다. |
4 | |
이전 값보다 낮은 경우에만 통계 값을 설정할 수 있습니다. |
5 | |
통계 값을 가져옵니다. |
6 | |
모든 통계를 가져옵니다. |
사용 가능한 통계 수집기
Scrapy는 다음을 사용하여 액세스 할 수있는 다양한 유형의 통계 수집기를 제공합니다. STATS_CLASS 환경.
MemoryStatsCollector
스크래핑에 사용 된 모든 스파이더의 통계를 유지하는 기본 통계 수집기이며 데이터는 메모리에 저장됩니다.
class scrapy.statscollectors.MemoryStatsCollector
DummyStatsCollector
이 통계 수집기는 아무 일도하지 않는 매우 효율적입니다. 이것은 STATS_CLASS 설정을 사용하여 설정할 수 있으며 성능 향상을 위해 통계 수집을 비활성화하는 데 사용할 수 있습니다.
class scrapy.statscollectors.DummyStatsCollector
기술
Scrapy는 크롤러의 비 차단 IO 를 차단 하는 Twisted 비 차단 IO 라는 자체 기능을 사용하여 이메일을 보낼 수 있습니다 . 이메일 전송에 대한 몇 가지 설정을 구성하고 첨부 파일 전송을위한 간단한 API를 제공 할 수 있습니다.
다음 표와 같이 MailSender를 인스턴스화하는 두 가지 방법이 있습니다.
Sr. 아니요 | 매개 변수 | 방법 |
---|---|---|
1 | scrapy.mail에서 가져 오기 MailSender mailer = MailSender () | 표준 생성자를 사용합니다. |
2 | mailer = MailSender.from_settings (settings) | Scrapy 설정 개체를 사용하여. |
다음 줄은 첨부 파일없이 이메일을 보냅니다-
mailer.send(to = ["[email protected]"], subject = "subject data", body = "body data",
cc = ["[email protected]"])
MailSender 클래스 참조
MailSender 클래스는 Scrapy에서 이메일을 보내기 위해 Twisted 비 차단 IO 를 사용합니다 .
class scrapy.mail.MailSender(smtphost = None, mailfrom = None, smtpuser = None,
smtppass = None, smtpport = None)
다음 표는 MailSender 클래스 에서 사용되는 매개 변수를 보여줍니다 -
Sr. 아니요 | 매개 변수 및 설명 |
---|---|
1 | smtphost (str) SMTP 호스트는 이메일을 보내는 데 사용됩니다. 그렇지 않은 경우 MAIL_HOST 설정이 사용됩니다. |
2 | mailfrom (str) 수신자의 주소는 이메일을 보내는 데 사용됩니다. 그렇지 않은 경우 MAIL_FROM 설정이 사용됩니다. |
삼 | smtpuser SMTP 사용자를 지정합니다. 사용하지 않으면 MAIL_USER 설정이 사용되며 언급되지 않은 경우 SMTP 유효성 검사가 수행되지 않습니다. |
4 | smtppass (str) 유효성 검사를위한 SMTP 패스를 지정합니다. |
5 | smtpport (int) 연결을위한 SMTP 포트를 지정합니다. |
6 | smtptls (boolean) SMTP STARTTLS를 사용하여 구현합니다. |
7 | smtpssl (boolean) 안전한 SSL 연결을 사용하여 관리합니다. |
지정된대로 MailSender 클래스 참조에는 다음 두 가지 방법이 있습니다. 첫 번째 방법,
classmethod from_settings(settings)
Scrapy 설정 개체를 사용하여 통합됩니다. 다음 매개 변수를 포함합니다-
settings (scrapy.settings.Settings object) − 이메일 수신자로 취급됩니다.
또 다른 방법은
send(to, subject, body, cc = None, attachs = (), mimetype = 'text/plain', charset = None)
다음 표에는 위 방법의 매개 변수가 포함되어 있습니다.
Sr. 아니요 | 매개 변수 및 설명 |
---|---|
1 | to (list) 이메일 수신자를 나타냅니다. |
2 | subject (str) 이메일 제목을 지정합니다. |
삼 | cc (list) 수신자 목록을 나타냅니다. |
4 | body (str) 이메일 본문 데이터를 나타냅니다. |
5 | attachs (iterable) 이메일의 첨부 파일, 첨부 파일의 MIME 유형 및 첨부 파일 이름을 나타냅니다. |
6 | mimetype (str) 전자 메일의 MIME 유형을 나타냅니다. |
7 | charset (str) 이메일 내용에 사용되는 문자 인코딩을 지정합니다. |
메일 설정
다음 설정은 코드를 작성하지 않고도 프로젝트에서 MailSender 클래스를 사용하여 전자 메일을 구성 할 수 있도록합니다.
Sr. 아니요 | 설정 및 설명 | 기본값 |
---|---|---|
1 | MAIL_FROM 이메일을 보내는 발신자 이메일을 말합니다. |
'scrapy @ localhost' |
2 | MAIL_HOST 이메일을 보내는 데 사용되는 SMTP 호스트를 나타냅니다. |
'localhost' |
삼 | MAIL_PORT 이메일 전송에 사용할 SMTP 포트를 지정합니다. |
25 |
4 | MAIL_USER SMTP 유효성 검사를 나타냅니다. 이 설정이 비활성화로 설정된 경우 유효성 검사가 수행되지 않습니다. |
없음 |
5 | MAIL_PASS SMTP 유효성 검사에 사용되는 암호를 제공합니다. |
없음 |
6 | MAIL_TLS SSL / TLS를 사용하여 안전하지 않은 연결을 보안 연결로 업그레이드하는 방법을 제공합니다. |
그릇된 |
7 | MAIL_SSL SSL 암호화 연결을 사용하여 연결을 구현합니다. |
그릇된 |
기술
Telnet 콘솔은 Scrapy 프로세스 내부에서 실행되는 Python 셸이며 Scrapy 실행 프로세스를 검사하고 제어하는 데 사용됩니다.
Telnet 콘솔에 액세스
텔넷 콘솔은 다음 명령을 사용하여 액세스 할 수 있습니다.
telnet localhost 6023
기본적으로 텔넷 콘솔은 TCP 포트에 나열되어 있습니다. TELNETCONSOLE_PORT 설정.
변수
다음 표에 제공된 기본 변수 중 일부는 바로 가기로 사용됩니다.
Sr. 아니요 | 바로 가기 및 설명 |
---|---|
1 | crawler 이것은 Scrapy Crawler (scrapy.crawler.Crawler) 객체를 나타냅니다. |
2 | engine 이것은 Crawler.engine 속성을 참조합니다. |
삼 | spider 이것은 활성화 된 거미를 나타냅니다. |
4 | slot 이것은 엔진 슬롯을 나타냅니다. |
5 | extensions 이것은 Extension Manager (Crawler.extensions) 속성을 나타냅니다. |
6 | stats 이것은 Stats Collector (Crawler.stats) 속성을 나타냅니다. |
7 | setting 이것은 Scrapy 설정 개체 (Crawler.settings) 속성을 참조합니다. |
8 | est 이것은 엔진 상태 보고서를 인쇄하는 것을 의미합니다. |
9 | prefs 디버깅을위한 메모리를 나타냅니다. |
10 | p 이것은 pprint.pprint 함수 에 대한 바로 가기를 나타냅니다 . |
11 | hpy 이것은 메모리 디버깅을 나타냅니다. |
예
다음은 Telnet 콘솔을 사용한 몇 가지 예입니다.
Scrapy 엔진 일시 중지, 재개 및 중지
Scrapy 엔진을 일시 중지하려면 다음 명령을 사용하십시오.
telnet localhost 6023
>>> engine.pause()
>>>
Scrapy 엔진을 재개하려면 다음 명령을 사용하십시오-
telnet localhost 6023
>>> engine.unpause()
>>>
Scrapy 엔진을 중지하려면 다음 명령을 사용하십시오.
telnet localhost 6023
>>> engine.stop()
Connection closed by foreign host.
엔진 상태보기
Telnet 콘솔 사용 est() 다음 코드와 같이 Scrapy 엔진의 상태를 확인하는 방법-
telnet localhost 6023
>>> est()
Execution engine status
time()-engine.start_time : 8.62972998619
engine.has_capacity() : False
len(engine.downloader.active) : 16
engine.scraper.is_idle() : False
engine.spider.name : followall
engine.spider_is_idle(engine.spider) : False
engine.slot.closing : False
len(engine.slot.inprogress) : 16
len(engine.slot.scheduler.dqs or []) : 0
len(engine.slot.scheduler.mqs) : 92
len(engine.scraper.slot.queue) : 0
len(engine.scraper.slot.active) : 0
engine.scraper.slot.active_size : 0
engine.scraper.slot.itemproc_size : 0
engine.scraper.slot.needs_backout() : False
Telnet 콘솔 신호
텔넷 콘솔 신호를 사용하여 텔넷 로컬 네임 스페이스에서 변수를 추가, 업데이트 또는 삭제할 수 있습니다. 이 작업을 수행하려면 핸들러에 telnet_vars dict를 추가해야합니다.
scrapy.extensions.telnet.update_telnet_vars(telnet_vars)
매개 변수-
telnet_vars (dict)
여기서 dict는 텔넷 변수를 포함하는 사전입니다.
Telnet 설정
다음 표는 Telnet 콘솔의 동작을 제어하는 설정을 보여줍니다-
Sr. 아니요 | 설정 및 설명 | 기본값 |
---|---|---|
1 | TELNETCONSOLE_PORT 이것은 텔넷 콘솔의 포트 범위를 나타냅니다. none으로 설정하면 포트가 동적으로 할당됩니다. |
[6023, 6073] |
2 | TELNETCONSOLE_HOST 이것은 텔넷 콘솔이 수신해야하는 인터페이스를 나타냅니다. |
'127.0.0.1' |
기술
실행중인 Scrapy 웹 크롤러는 다음을 통해 제어 할 수 있습니다. JSON-RPC. JSONRPC_ENABLED 설정에 의해 활성화됩니다. 이 서비스는 JSON-RPC 2.0 프로토콜을 통해 기본 크롤러 개체에 대한 액세스를 제공 합니다. 크롤러 개체에 액세스하기위한 끝점은 다음과 같습니다.
http://localhost:6080/crawler
다음 표에는 웹 서비스의 동작을 보여주는 몇 가지 설정이 포함되어 있습니다.
Sr. 아니요 | 설정 및 설명 | 기본값 |
---|---|---|
1 | JSONRPC_ENABLED 이는 확장과 함께 웹 서비스의 활성화 여부를 결정하는 부울을 나타냅니다. |
진실 |
2 | JSONRPC_LOGFILE 웹 서비스에 대한 HTTP 요청을 로깅하는 데 사용되는 파일을 나타냅니다. 설정되지 않은 경우 표준 Scrapy 로그가 사용됩니다. |
없음 |
삼 | JSONRPC_PORT 이것은 웹 서비스의 포트 범위를 나타냅니다. none으로 설정하면 포트가 동적으로 할당됩니다. |
[6080, 7030] |
4 | JSONRPC_HOST 이것은 웹 서비스가 수신해야하는 인터페이스를 나타냅니다. |
'127.0.0.1' |