Scrapy-선택자

기술

웹 페이지를 스크래핑 할 때 다음과 같은 메커니즘을 사용하여 HTML 소스의 특정 부분을 추출해야합니다. selectors, XPath 또는 CSS 표현식을 사용하여 얻을 수 있습니다. 선택기는lxml Python 언어로 XML 및 HTML을 처리하는 라이브러리.

다음 코드 조각을 사용하여 선택 자의 다른 개념을 정의하십시오.

<html>
   <head>
      <title>My Website</title>
   </head>
   
   <body>
      <span>Hello world!!!</span>
      <div class = 'links'>
         <a href = 'one.html'>Link 1<img src = 'image1.jpg'/></a>
         <a href = 'two.html'>Link 2<img src = 'image2.jpg'/></a>
         <a href = 'three.html'>Link 3<img src = 'image3.jpg'/></a>
      </div>
   </body>
</html>

선택자 구성

선택기 클래스 인스턴스를 구성 할 수 있습니다. text 또는 TextResponse목적. 제공된 입력 유형에 따라 선택기는 다음 규칙을 선택합니다.

from scrapy.selector import Selector 
from scrapy.http import HtmlResponse

위의 코드를 사용하여 텍스트에서 다음과 같이 구성 할 수 있습니다.

Selector(text = body).xpath('//span/text()').extract()

결과를 다음과 같이 표시합니다.

[u'Hello world!!!']

응답에서 다음과 같이 구성 할 수 있습니다.

response = HtmlResponse(url = 'http://mysite.com', body = body) 
Selector(response = response).xpath('//span/text()').extract()

결과를 다음과 같이 표시합니다.

[u'Hello world!!!']

선택기 사용

위의 간단한 코드 스 니펫을 사용하여 아래와 같이 title 태그에 정의 된 텍스트를 선택하기위한 XPath를 구성 할 수 있습니다.

>>response.selector.xpath('//title/text()')

이제 다음을 사용하여 텍스트 데이터를 추출 할 수 있습니다. .extract() 다음과 같이 표시된 방법-

>>response.xpath('//title/text()').extract()

결과는 다음과 같습니다.

[u'My Website']

다음과 같이 표시된 모든 요소의 이름을 표시 할 수 있습니다.

>>response.xpath('//div[@class = "links"]/a/text()').extract()

요소를 다음과 같이 표시합니다.

Link 1
Link 2
Link 3

첫 번째 요소를 추출하려면 다음 방법을 사용하십시오. .extract_first(), 다음과 같이 표시-

>>response.xpath('//div[@class = "links"]/a/text()').extract_first()

요소를 다음과 같이 표시합니다.

Link 1

선택자 중첩

위의 코드를 사용하면 선택기를 중첩하여 페이지 링크와 이미지 소스를 표시 할 수 있습니다. .xpath() 다음과 같이 표시된 방법-

links = response.xpath('//a[contains(@href, "image")]') 

for index, link in enumerate(links): 
   args = (index, link.xpath('@href').extract(), link.xpath('img/@src').extract()) 
   print 'The link %d pointing to url %s and image %s' % args

결과를 다음과 같이 표시합니다.

Link 1 pointing to url [u'one.html'] and image [u'image1.jpg']
Link 2 pointing to url [u'two.html'] and image [u'image2.jpg']
Link 3 pointing to url [u'three.html'] and image [u'image3.jpg']

정규식을 사용하는 선택자

Scrapy는 정규식을 사용하여 데이터를 추출 할 수 있습니다. .re()방법. 위의 HTML 코드에서 다음과 같이 이미지 이름을 추출합니다.

>>response.xpath('//a[contains(@href, "image")]/text()').re(r'Name:\s*(.*)')

위 줄은 이미지 이름을 다음과 같이 표시합니다.

[u'Link 1', 
u'Link 2', 
u'Link 3']

상대 XPath 사용

XPath로 작업 할 때 /, 중첩 된 선택기 및 XPath는 선택기의 상대 경로가 아니라 문서의 절대 경로와 관련됩니다.

추출하려는 경우 <p> 요소, 그런 다음 먼저 모든 div 요소를 얻습니다.

>>mydiv = response.xpath('//div')

다음으로, 모든 'p' XPath 앞에 점을 추가하여 .//p 아래와 같이-

>>for p in mydiv.xpath('.//p').extract()

EXSLT 확장 사용

EXSLT는 XML 문서를 XHTML 문서로 변환하는 XSLT (Extensible Stylesheet Language Transformations)에 대한 확장을 발행하는 커뮤니티입니다. 다음 표와 같이 XPath 표현식에 등록 된 네임 스페이스와 함께 EXSLT 확장을 사용할 수 있습니다.

Sr. 아니요 접두사 및 사용법 네임 스페이스
1

re

정규식

http://exslt.org/regexp/index.html

2

set

세트 조작

http://exslt.org/set/index.html

이전 섹션에서 정규식을 사용하여 데이터를 추출하기위한 간단한 코드 형식을 확인할 수 있습니다.

Scrapy 선택기와 함께 XPath를 사용할 때 유용한 몇 가지 XPath 팁이 있습니다. 자세한 내용은이 링크를 클릭하십시오 .