Scrapy - Alat Baris Perintah

Deskripsi

Alat baris perintah Scrapy digunakan untuk mengontrol Scrapy, yang sering disebut sebagai 'Scrapy tool'. Ini mencakup perintah untuk berbagai objek dengan sekelompok argumen dan opsi.

Pengaturan konfigurasi

Scrapy akan menemukan pengaturan konfigurasi di scrapy.cfgmengajukan. Berikut adalah beberapa lokasi -

  • C: \ scrapy (folder proyek) \ scrapy.cfg di sistem

  • ~ / .config / scrapy.cfg ($ XDG_CONFIG_HOME) dan ~ / .scrapy.cfg ($ HOME) untuk pengaturan global

  • Anda dapat menemukan scrapy.cfg di dalam root proyek.

Scrapy juga dapat dikonfigurasi menggunakan variabel lingkungan berikut -

  • SCRAPY_SETTINGS_MODULE
  • SCRAPY_PROJECT
  • SCRAPY_PYTHON_SHELL

Proyek Scrapy Struktur Default

Struktur berikut menunjukkan struktur file default dari proyek Scrapy.

scrapy.cfg                - Deploy the configuration file
project_name/             - Name of the project
   _init_.py
   items.py               - It is project's items file
   pipelines.py           - It is project's pipelines file
   settings.py            - It is project's settings file
   spiders                - It is the spiders directory
      _init_.py
      spider_name.py
      . . .

Itu scrapy.cfgfile adalah direktori root proyek, yang menyertakan nama proyek dengan pengaturan proyek. Misalnya -

[settings] 
default = [name of the project].settings  

[deploy] 
#url = http://localhost:6800/ 
project = [name of the project]

Menggunakan Alat Scrapy

Alat Scrapy menyediakan beberapa penggunaan dan perintah yang tersedia sebagai berikut -

Scrapy X.Y  - no active project 
Usage: 
   scrapy  [options] [arguments] 
Available commands: 
   crawl      It puts spider (handle the URL) to work for crawling data 
   fetch      It fetches the response from the given URL

Membuat Proyek

Anda dapat menggunakan perintah berikut untuk membuat proyek di Scrapy -

scrapy startproject project_name

Ini akan membuat proyek bernama project_namedirektori. Selanjutnya, buka proyek yang baru dibuat, menggunakan perintah berikut -

cd  project_name

Mengontrol Proyek

Anda dapat mengontrol proyek dan mengelolanya menggunakan alat Scrapy dan juga membuat laba-laba baru, menggunakan perintah berikut -

scrapy genspider mydomain mydomain.com

Perintah seperti crawl, dll. Harus digunakan di dalam proyek Scrapy. Anda akan mengetahui perintah mana yang harus dijalankan di dalam proyek Scrapy di bagian selanjutnya.

Scrapy berisi beberapa perintah bawaan, yang dapat digunakan untuk proyek Anda. Untuk melihat daftar perintah yang tersedia, gunakan perintah berikut -

scrapy -h

Saat Anda menjalankan perintah berikut, Scrapy akan menampilkan daftar perintah yang tersedia seperti yang tercantum -

  • fetch - Ini mengambil URL menggunakan pengunduh Scrapy.

  • runspider - Digunakan untuk menjalankan laba-laba mandiri tanpa membuat proyek.

  • settings - Ini menentukan nilai pengaturan proyek.

  • shell - Ini adalah modul penggosokan interaktif untuk URL yang diberikan.

  • startproject - Ini membuat proyek Scrapy baru.

  • version - Ini menampilkan versi Scrapy.

  • view - Ini mengambil URL menggunakan pengunduh Scrapy dan menampilkan konten di browser.

Anda dapat memiliki beberapa perintah terkait proyek seperti yang tercantum -

  • crawl - Digunakan untuk merayapi data menggunakan laba-laba.

  • check - Ini memeriksa item yang dikembalikan oleh perintah yang dirayapi.

  • list - Ini menampilkan daftar laba-laba yang tersedia yang ada dalam proyek.

  • edit - Anda dapat mengedit laba-laba dengan menggunakan editor.

  • parse - Ini mem-parsing URL yang diberikan dengan laba-laba.

  • bench - Ini digunakan untuk menjalankan tes benchmark cepat (Tolok ukur memberitahu berapa banyak halaman yang dapat dirayapi per menit oleh Scrapy).

Perintah Proyek Kustom

Anda dapat membuat perintah proyek khusus dengan COMMANDS_MODULEpengaturan dalam proyek Scrapy. Ini termasuk string kosong default dalam pengaturan. Anda dapat menambahkan perintah khusus berikut -

COMMANDS_MODULE = 'mycmd.commands'

Perintah scrapy dapat ditambahkan menggunakan bagian scrapy.commands di file setup.py yang ditunjukkan sebagai berikut -

from setuptools import setup, find_packages  

setup(name = 'scrapy-module_demo', 
   entry_points = { 
      'scrapy.commands': [ 
         'cmd_demo = my_module.commands:CmdDemo', 
      ], 
   }, 
)

Kode di atas menambahkan cmd_demo perintah di setup.py mengajukan.