Scrapy-아이템 로더
기술
아이템 로더는 웹 사이트에서 스크랩 한 아이템을 채울 수있는 편리한 방법을 제공합니다.
아이템 로더 선언
아이템 로더의 선언은 아이템과 같습니다.
예를 들면-
from scrapy.loader import ItemLoader
from scrapy.loader.processors import TakeFirst, MapCompose, Join
class DemoLoader(ItemLoader):
default_output_processor = TakeFirst()
title_in = MapCompose(unicode.title)
title_out = Join()
size_in = MapCompose(unicode.strip)
# you can continue scraping here
위의 코드에서 입력 프로세서가 다음을 사용하여 선언되었음을 알 수 있습니다. _in 접미사 및 출력 프로세서는 다음을 사용하여 선언됩니다. _out 접미사.
그만큼 ItemLoader.default_input_processor 과 ItemLoader.default_output_processor 속성은 기본 입 / 출력 프로세서를 선언하는 데 사용됩니다.
항목 로더를 사용하여 항목 채우기
항목 로더를 사용하려면 먼저 dict-like 개체를 사용하거나 항목이 다음에 지정된 Item 클래스를 사용하는 개체없이 인스턴스화합니다. ItemLoader.default_item_class 속성.
선택기를 사용하여 항목 로더에 값을 수집 할 수 있습니다.
동일한 항목 필드에 더 많은 값을 추가 할 수 있습니다. 여기서 항목 로더는 적절한 핸들러를 사용하여 이러한 값을 추가합니다.
다음 코드는 항목 로더를 사용하여 항목을 채우는 방법을 보여줍니다-
from scrapy.loader import ItemLoader
from demoproject.items import Demo
def parse(self, response):
l = ItemLoader(item = Product(), response = response)
l.add_xpath("title", "//div[@class = 'product_title']")
l.add_xpath("title", "//div[@class = 'product_name']")
l.add_xpath("desc", "//div[@class = 'desc']")
l.add_css("size", "div#size]")
l.add_value("last_updated", "yesterday")
return l.load_item()
위에 표시된 것처럼 두 개의 서로 다른 XPath가 있습니다. title 필드는 다음을 사용하여 추출됩니다. add_xpath() 방법-
1. //div[@class = "product_title"]
2. //div[@class = "product_name"]
그 후 유사한 요청이 desc들. 크기 데이터는add_css() 방법 및 last_updated 다음을 사용하여 "어제"값으로 채워집니다. add_value() 방법.
모든 데이터가 수집되면 ItemLoader.load_item() 다음을 사용하여 추출 된 데이터로 채워진 항목을 반환하는 메서드 add_xpath(), add_css() 과 add_value() 행동 양식.
입력 및 출력 프로세서
항목 로더의 각 필드에는 하나의 입력 프로세서와 하나의 출력 프로세서가 있습니다.
데이터가 추출되면 입력 프로세서가이를 처리하고 그 결과는 ItemLoader에 저장됩니다.
다음으로 데이터를 수집 한 후 ItemLoader.load_item () 메서드를 호출하여 채워진 Item 객체를 가져옵니다.
마지막으로 출력 프로세서의 결과를 항목에 할당 할 수 있습니다.
다음 코드는 특정 필드에 대한 입력 및 출력 프로세서를 호출하는 방법을 보여줍니다.
l = ItemLoader(Product(), some_selector)
l.add_xpath("title", xpath1) # [1]
l.add_xpath("title", xpath2) # [2]
l.add_css("title", css) # [3]
l.add_value("title", "demo") # [4]
return l.load_item() # [5]
Line 1 − 제목의 데이터는 xpath1에서 추출되어 입력 프로세서를 거쳐 그 결과가 수집되어 ItemLoader에 저장됩니다.
Line 2 − 마찬가지로 제목은 xpath2에서 추출되어 동일한 입력 프로세서를 통과하고 그 결과가 [1]에 대해 수집 된 데이터에 추가됩니다.
Line 3 − css 선택기에서 제목을 추출하여 동일한 입력 프로세서를 거쳐 [1]과 [2]에 대해 수집 한 데이터에 결과가 추가됩니다.
Line 4 − 다음으로 "demo"값이 할당되고 입력 프로세서를 통해 전달됩니다.
Line 5 − 마지막으로 데이터는 모든 필드에서 내부적으로 수집되어 출력 프로세서로 전달되고 최종 값이 항목에 할당됩니다.
입력 및 출력 프로세서 선언
입력 및 출력 프로세서는 ItemLoader 정의에서 선언됩니다. 이 외에도 다음에서 지정할 수도 있습니다.Item Field 메타 데이터.
예를 들면-
import scrapy
from scrapy.loader.processors import Join, MapCompose, TakeFirst
from w3lib.html import remove_tags
def filter_size(value):
if value.isdigit():
return value
class Item(scrapy.Item):
name = scrapy.Field(
input_processor = MapCompose(remove_tags),
output_processor = Join(),
)
size = scrapy.Field(
input_processor = MapCompose(remove_tags, filter_price),
output_processor = TakeFirst(),
)
>>> from scrapy.loader import ItemLoader
>>> il = ItemLoader(item = Product())
>>> il.add_value('title', [u'Hello', u'<strong>world</strong>'])
>>> il.add_value('size', [u'<span>100 kg</span>'])
>>> il.load_item()
출력을 다음과 같이 표시합니다.
{'title': u'Hello world', 'size': u'100 kg'}
항목 로더 컨텍스트
항목 로더 컨텍스트는 입력 및 출력 프로세서간에 공유되는 임의의 키 값의 사전입니다.
예를 들어, 함수가 있다고 가정 parse_length을 -
def parse_length(text, loader_context):
unit = loader_context.get('unit', 'cm')
# You can write parsing code of length here
return parsed_length
loader_context 인수를 수신하여 항목 로더 컨텍스트를 수신 할 수 있음을 항목 로더에 알립니다. 항목 로더 컨텍스트의 값을 변경하는 방법에는 여러 가지가 있습니다.
현재 활성 아이템 로더 컨텍스트 수정-
loader = ItemLoader (product)
loader.context ["unit"] = "mm"
아이템 로더 인스턴스화-
loader = ItemLoader(product, unit = "mm")
항목 로더 컨텍스트로 인스턴스화하는 입력 / 출력 프로세서에 대한 항목 로더 선언에서 −
class ProductLoader(ItemLoader):
length_out = MapCompose(parse_length, unit = "mm")
ItemLoader 객체
주어진 항목을 채우기 위해 새 항목 로더를 반환하는 개체입니다. 그것은 다음과 같은 클래스가 있습니다-
class scrapy.loader.ItemLoader([item, selector, response, ]**kwargs)
다음 표는 ItemLoader 객체의 매개 변수를 보여줍니다.
Sr. 아니요 | 매개 변수 및 설명 |
---|---|
1 | item add_xpath (), add_css () 또는 add_value ()를 호출하여 채울 항목입니다. |
2 | selector 웹 사이트에서 데이터를 추출하는 데 사용됩니다. |
삼 | response default_selector_class를 사용하여 선택자를 구성하는 데 사용됩니다. |
다음 표는 ItemLoader 객체의 방법을 보여줍니다-
Sr. 아니요 | 방법 및 설명 | 예 |
---|---|---|
1 | get_value(value, *processors, **kwargs) 주어진 프로세서 및 키워드 인수에 의해 값은 get_value () 메서드에 의해 처리됩니다. |
|
2 | add_value(field_name, value, *processors, **kwargs) 값을 처리하고 필드 입력 프로세서를 통과하기 전에 프로세서와 키워드 인수를 제공하여 get_value를 통해 처음 전달되는 필드에 추가합니다. |
|
삼 | replace_value(field_name, value, *processors, **kwargs) 수집 된 데이터를 새 값으로 대체합니다. |
|
4 | get_xpath(xpath, *processors, **kwargs) XPath 를 수신하여 프로세서 및 키워드 인수를 제공하여 유니 코드 문자열을 추출하는 데 사용됩니다 . |
|
5 | add_xpath(field_name, xpath, *processors, **kwargs) 유니 코드 문자열을 추출하는 필드에 XPath 를 수신 합니다. |
|
6 | replace_xpath(field_name, xpath, *processors, **kwargs) 사이트에서 XPath 를 사용하여 수집 된 데이터를 대체합니다 . |
|
7 | get_css(css, *processors, **kwargs) 유니 코드 문자열을 추출하는 데 사용되는 CSS 선택기를받습니다. |
|
8 | add_css(field_name, css, *processors, **kwargs) add_value () 메서드와 비슷하지만 필드에 CSS 선택자를 추가한다는 점이 다릅니다. |
|
9 | replace_css(field_name, css, *processors, **kwargs) CSS 선택기를 사용하여 추출 된 데이터를 대체합니다. |
|
10 | load_item() 데이터가 수집되면이 메서드는 수집 된 데이터로 항목을 채우고 반환합니다. |
|
11 | nested_xpath(xpath) XPath 선택기로 중첩 로더를 만드는 데 사용됩니다. |
|
12 | nested_css(css) CSS 선택기로 중첩 된 로더를 만드는 데 사용됩니다. |
|
다음 표는 ItemLoader 객체의 속성을 보여줍니다-
Sr. 아니요 | 속성 및 설명 |
---|---|
1 | item 항목 로더가 구문 분석을 수행하는 객체입니다. |
2 | context 활성 상태 인 항목 로더의 현재 컨텍스트입니다. |
삼 | default_item_class 생성자에 지정되지 않은 경우 항목을 나타내는 데 사용됩니다. |
4 | default_input_processor 입력 프로세서를 지정하지 않는 필드는 default_input_processors가 사용되는 유일한 필드입니다. |
5 | default_output_processor 출력 프로세서를 지정하지 않는 필드는 default_output_processors가 사용되는 유일한 필드입니다. |
6 | default_selector_class 생성자에 지정되지 않은 경우 선택자를 구성하는 데 사용되는 클래스입니다. |
7 | selector 사이트에서 데이터를 추출하는 데 사용할 수있는 개체입니다. |
중첩 로더
문서의 하위 섹션에서 값을 구문 분석하는 동안 중첩 로더를 만드는 데 사용됩니다. 중첩 로더를 생성하지 않는 경우 추출하려는 각 값에 대해 전체 XPath 또는 CSS를 지정해야합니다.
예를 들어, 데이터가 헤더 페이지에서 추출되고 있다고 가정합니다.
<header>
<a class = "social" href = "http://facebook.com/whatever">facebook</a>
<a class = "social" href = "http://twitter.com/whatever">twitter</a>
<a class = "email" href = "mailto:[email protected]">send mail</a>
</header>
다음으로 헤더에 관련 값을 추가하여 헤더 선택기로 중첩 된 로더를 만들 수 있습니다.
loader = ItemLoader(item = Item())
header_loader = loader.nested_xpath('//header')
header_loader.add_xpath('social', 'a[@class = "social"]/@href')
header_loader.add_xpath('email', 'a[@class = "email"]/@href')
loader.load_item()
아이템 로더 재사용 및 확장
아이템 로더는 프로젝트가 더 많은 스파이더를 획득 할 때 근본적인 문제가되는 유지 관리를 완화하도록 설계되었습니다.
예를 들어, 사이트에 세 개의 대시로 묶인 제품 이름이 있다고 가정합니다 (예 : --DVD ---). 다음 코드와 같이 최종 제품 이름에 포함하지 않으려면 기본 제품 항목 로더를 재사용하여 대시를 제거 할 수 있습니다.
from scrapy.loader.processors import MapCompose
from demoproject.ItemLoaders import DemoLoader
def strip_dashes(x):
return x.strip('-')
class SiteSpecificLoader(DemoLoader):
title_in = MapCompose(strip_dashes, DemoLoader.title_in)
사용 가능한 내장 프로세서
다음은 일반적으로 사용되는 내장 프로세서 중 일부입니다.
class scrapy.loader.processors.Identity
변경하지 않고 원래 값을 반환합니다. 예를 들면-
>>> from scrapy.loader.processors import Identity
>>> proc = Identity()
>>> proc(['a', 'b', 'c'])
['a', 'b', 'c']
class scrapy.loader.processors.TakeFirst
수신 된 값 목록에서 널이 아니거나 비어 있지 않은 첫 번째 값을 리턴합니다. 예를 들면-
>>> from scrapy.loader.processors import TakeFirst
>>> proc = TakeFirst()
>>> proc(['', 'a', 'b', 'c'])
'a'
class scrapy.loader.processors.Join (separator = u '')
구분 기호에 첨부 된 값을 반환합니다. 기본 구분 기호는 u ''이며 함수와 동일합니다.u' '.join. 예를 들면-
>>> from scrapy.loader.processors import Join
>>> proc = Join()
>>> proc(['a', 'b', 'c'])
u'a b c'
>>> proc = Join('<br>')
>>> proc(['a', 'b', 'c'])
u'a<br>b<br>c'
class scrapy.loader.processors.Compose (* functions, ** default_loader_context)
각 입력 값이 첫 번째 함수에 전달되고 해당 함수의 결과가 두 번째 함수에 전달되는 방식으로 ast 함수가 최종 값을 출력으로 반환 할 때까지 프로세서에 의해 정의됩니다.
예를 들면-
>>> from scrapy.loader.processors import Compose
>>> proc = Compose(lambda v: v[0], str.upper)
>>> proc(['python', 'scrapy'])
'PYTHON'
class scrapy.loader.processors.MapCompose (* functions, ** default_loader_context)
입력 값이 반복되고 첫 번째 기능이 각 요소에 적용되는 프로세서입니다. 다음으로, 이러한 함수 호출의 결과는 연결되어 새 이터 러블을 빌드 한 다음 마지막 함수까지 두 번째 함수 등에 적용됩니다.
예를 들면-
>>> def filter_scrapy(x):
return None if x == 'scrapy' else x
>>> from scrapy.loader.processors import MapCompose
>>> proc = MapCompose(filter_scrapy, unicode.upper)
>>> proc([u'hi', u'everyone', u'im', u'pythonscrapy'])
[u'HI, u'IM', u'PYTHONSCRAPY']
class scrapy.loader.processors.SelectJmes (json_path)
이 클래스는 제공된 json 경로를 사용하여 값을 쿼리하고 출력을 반환합니다.
예를 들면-
>>> from scrapy.loader.processors import SelectJmes, Compose, MapCompose
>>> proc = SelectJmes("hello")
>>> proc({'hello': 'scrapy'})
'scrapy'
>>> proc({'hello': {'scrapy': 'world'}})
{'scrapy': 'world'}
다음은 json을 가져와 값을 쿼리하는 코드입니다.
>>> import json
>>> proc_single_json_str = Compose(json.loads, SelectJmes("hello"))
>>> proc_single_json_str('{"hello": "scrapy"}')
u'scrapy'
>>> proc_json_list = Compose(json.loads, MapCompose(SelectJmes('hello')))
>>> proc_json_list('[{"hello":"scrapy"}, {"world":"env"}]')
[u'scrapy']