스크래피-첫 번째 거미
기술
Spider는 데이터를 추출 할 초기 URL, 페이지 매김 링크를 따르는 방법 및에 정의 된 필드를 추출하고 구문 분석하는 방법을 정의하는 클래스입니다. items.py. Scrapy는 각각 특정 목적을 제공하는 다양한 유형의 거미를 제공합니다.
라는 파일을 만듭니다. "first_spider.py"first_scrapy / spiders 디렉토리 아래에서 우리가 찾고있는 정확한 데이터를 찾는 방법을 Scrapy에게 알려줄 수 있습니다. 이를 위해 몇 가지 속성을 정의해야합니다.
name − 스파이더의 고유 한 이름을 정의합니다.
allowed_domains − 스파이더가 크롤링 할 기본 URL을 포함합니다.
start-urls − 스파이더가 크롤링을 시작하는 URL 목록.
parse() − 스크랩 된 데이터를 추출하여 파싱하는 방법입니다.
다음 코드는 스파이더 코드가 어떻게 생겼는지 보여줍니다.
import scrapy
class firstSpider(scrapy.Spider):
name = "first"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
filename = response.url.split("/")[-2] + '.html'
with open(filename, 'wb') as f:
f.write(response.body)