Scrapy - First Spider
Opis
Spider to klasa definiująca początkowy adres URL, z którego należy wyodrębniać dane, sposób podążania za linkami do paginacji oraz sposób wyodrębniania i analizowania pól zdefiniowanych w items.py. Scrapy zapewnia różne rodzaje pająków, z których każdy ma określony cel.
Utwórz plik o nazwie "first_spider.py"w katalogu first_scrapy / spiders, gdzie możemy powiedzieć Scrapy, jak znaleźć dokładne dane, których szukamy. W tym celu musisz zdefiniować niektóre atrybuty -
name - Określa unikalną nazwę dla pająka.
allowed_domains - Zawiera podstawowe adresy URL do indeksowania przez pająka.
start-urls - Lista adresów URL, z których pająk zaczyna się indeksować.
parse() - Jest to metoda, która wyodrębnia i analizuje zeskrobane dane.
Poniższy kod pokazuje, jak wygląda kod pająka -
import scrapy
class firstSpider(scrapy.Spider):
name = "first"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
filename = response.url.split("/")[-2] + '.html'
with open(filename, 'wb') as f:
f.write(response.body)