Scrapy - Ползание

Описание

Чтобы запустить своего паука, выполните следующую команду в каталоге first_scrapy -

scrapy crawl first

Где, first - имя паука, указанное при создании паука.

Как только паук ползет, вы можете увидеть следующий результат -

2016-08-09 18:13:07-0400 [scrapy] INFO: Scrapy started (bot: tutorial)
2016-08-09 18:13:07-0400 [scrapy] INFO: Optional features available: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Overridden settings: {}
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled extensions: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled downloader middlewares: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled spider middlewares: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled item pipelines: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Spider opened
2016-08-09 18:13:08-0400 [scrapy] DEBUG: Crawled (200) 
<GET http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/> (referer: None)
2016-08-09 18:13:09-0400 [scrapy] DEBUG: Crawled (200) 
<GET http://www.dmoz.org/Computers/Programming/Languages/Python/Books/> (referer: None)
2016-08-09 18:13:09-0400 [scrapy] INFO: Closing spider (finished)

Как вы можете видеть в выходных данных, для каждого URL-адреса есть строка журнала, в которой (referer: None) указано, что URL-адреса являются начальными URL-адресами и у них нет источников перехода. Затем вы должны увидеть, что в вашем каталоге first_scrapy были созданы два новых файла с именами Books.html и Resources.html .