Trị liệu - Công cụ dòng lệnh
Sự miêu tả
Công cụ dòng lệnh Scrapy được sử dụng để kiểm soát Scrapy, thường được gọi là 'Scrapy tool'. Nó bao gồm các lệnh cho các đối tượng khác nhau với một nhóm các đối số và tùy chọn.
Thiết lập cấu hình
Scrapy sẽ tìm cài đặt cấu hình trong scrapy.cfgtập tin. Sau đây là một số địa điểm -
C: \ scrapy (thư mục dự án) \ scrapy.cfg trong hệ thống
~ / .config / scrapy.cfg ($ XDG_CONFIG_HOME) và ~ / .scrapy.cfg ($ HOME) cho cài đặt chung
Bạn có thể tìm thấy scrapy.cfg bên trong thư mục gốc của dự án.
Scrapy cũng có thể được định cấu hình bằng các biến môi trường sau:
- SCRAPY_SETTINGS_MODULE
- SCRAPY_PROJECT
- SCRAPY_PYTHON_SHELL
Dự án liệu pháp cấu trúc mặc định
Cấu trúc sau đây cho thấy cấu trúc tệp mặc định của dự án Scrapy.
scrapy.cfg - Deploy the configuration file
project_name/ - Name of the project
_init_.py
items.py - It is project's items file
pipelines.py - It is project's pipelines file
settings.py - It is project's settings file
spiders - It is the spiders directory
_init_.py
spider_name.py
. . .
Các scrapy.cfgtệp là thư mục gốc của dự án, bao gồm tên dự án cùng với cài đặt dự án. Ví dụ -
[settings]
default = [name of the project].settings
[deploy]
#url = http://localhost:6800/
project = [name of the project]
Sử dụng công cụ trị liệu
Công cụ trị liệu cung cấp một số cách sử dụng và các lệnh có sẵn như sau:
Scrapy X.Y - no active project
Usage:
scrapy [options] [arguments]
Available commands:
crawl It puts spider (handle the URL) to work for crawling data
fetch It fetches the response from the given URL
Tạo một dự án
Bạn có thể sử dụng lệnh sau để tạo dự án trong Scrapy:
scrapy startproject project_name
Điều này sẽ tạo ra dự án có tên project_namedanh mục. Tiếp theo, chuyển đến dự án mới được tạo, sử dụng lệnh sau:
cd project_name
Kiểm soát dự án
Bạn có thể kiểm soát dự án và quản lý chúng bằng cách sử dụng công cụ Scrapy và cũng có thể tạo nhện mới, sử dụng lệnh sau:
scrapy genspider mydomain mydomain.com
Các lệnh như thu thập thông tin, v.v. phải được sử dụng bên trong dự án Scrapy. Bạn sẽ biết những lệnh nào phải chạy bên trong dự án Scrapy trong phần tới.
Scrapy chứa một số lệnh cài sẵn, có thể được sử dụng cho dự án của bạn. Để xem danh sách các lệnh có sẵn, hãy sử dụng lệnh sau:
scrapy -h
Khi bạn chạy lệnh sau, Scrapy sẽ hiển thị danh sách các lệnh có sẵn như được liệt kê:
fetch - Nó tìm nạp URL bằng trình tải xuống Scrapy.
runspider - Nó được sử dụng để chạy Spider khép kín mà không cần tạo dự án.
settings - Nó chỉ định giá trị cài đặt dự án.
shell - Nó là một mô-đun cạo tương tác cho URL đã cho.
startproject - Nó tạo ra một dự án Scrapy mới.
version - Nó hiển thị phiên bản Scrapy.
view - Nó tìm nạp URL bằng trình tải xuống Scrapy và hiển thị nội dung trong trình duyệt.
Bạn có thể có một số lệnh liên quan đến dự án như được liệt kê -
crawl - Nó được sử dụng để thu thập dữ liệu bằng cách sử dụng spider.
check - Nó kiểm tra các mục được trả về bởi lệnh được thu thập thông tin.
list - Nó hiển thị danh sách các nhện có sẵn trong dự án.
edit - Bạn có thể chỉnh sửa nhện bằng cách sử dụng trình chỉnh sửa.
parse - Nó phân tích cú pháp URL đã cho với con nhện.
bench - Nó được sử dụng để chạy kiểm tra điểm chuẩn nhanh (Điểm chuẩn cho biết số lượng trang có thể được thu thập thông tin mỗi phút bằng Scrapy).
Lệnh dự án tùy chỉnh
Bạn có thể tạo một lệnh dự án tùy chỉnh với COMMANDS_MODULEthiết lập trong dự án Scrapy. Nó bao gồm một chuỗi trống mặc định trong cài đặt. Bạn có thể thêm lệnh tùy chỉnh sau:
COMMANDS_MODULE = 'mycmd.commands'
Có thể thêm lệnh trị liệu bằng cách sử dụng phần scrapy.commands trong tệp setup.py được hiển thị như sau:
from setuptools import setup, find_packages
setup(name = 'scrapy-module_demo',
entry_points = {
'scrapy.commands': [
'cmd_demo = my_module.commands:CmdDemo',
],
},
)
Đoạn mã trên cho biết thêm cmd_demo lệnh trong setup.py tập tin.