Bắt đầu với Python
Trong chương đầu tiên, chúng ta đã học được tất cả những gì về web cạo. Trong chương này, chúng ta hãy xem cách triển khai tính năng quét web bằng Python.
Tại sao sử dụng Python cho Web Scraping?
Python là một công cụ phổ biến để thực hiện việc tìm kiếm web. Ngôn ngữ lập trình Python cũng được sử dụng cho các dự án hữu ích khác liên quan đến an ninh mạng, kiểm tra thâm nhập cũng như các ứng dụng pháp y kỹ thuật số. Bằng cách sử dụng lập trình cơ sở của Python, có thể thực hiện quét web mà không cần sử dụng bất kỳ công cụ nào khác của bên thứ ba.
Ngôn ngữ lập trình Python đang trở nên phổ biến rộng rãi và những lý do khiến Python trở nên phù hợp cho các dự án duyệt web như sau:
Sự đơn giản về cú pháp
Python có cấu trúc đơn giản nhất khi so sánh với các ngôn ngữ lập trình khác. Tính năng này của Python giúp việc kiểm tra dễ dàng hơn và nhà phát triển có thể tập trung hơn vào lập trình.
Mô-đun có sẵn
Một lý do khác để sử dụng Python để tìm kiếm web là các thư viện hữu ích bên ngoài cũng như sẵn có mà nó sở hữu. Chúng tôi có thể thực hiện nhiều triển khai liên quan đến việc quét web bằng cách sử dụng Python làm nền tảng để lập trình.
Ngôn ngữ lập trình nguồn mở
Python nhận được sự ủng hộ rất lớn từ cộng đồng vì nó là một ngôn ngữ lập trình mã nguồn mở.
Ứng dụng rộng rãi
Python có thể được sử dụng cho các tác vụ lập trình khác nhau, từ các tập lệnh shell nhỏ đến các ứng dụng web doanh nghiệp.
Cài đặt Python
Phân phối Python có sẵn cho các nền tảng như Windows, MAC và Unix / Linux. Chúng tôi chỉ cần tải xuống mã nhị phân áp dụng cho nền tảng của chúng tôi để cài đặt Python. Nhưng trong trường hợp nếu mã nhị phân cho nền tảng của chúng tôi không có sẵn, chúng tôi phải có trình biên dịch C để mã nguồn có thể được biên dịch theo cách thủ công.
Chúng ta có thể cài đặt Python trên các nền tảng khác nhau như sau:
Cài đặt Python trên Unix và Linux
Bạn cần làm theo các bước dưới đây để cài đặt Python trên máy Unix / Linux -
Step 1 - Vào liên kết https://www.python.org/downloads/
Step 2 - Tải xuống mã nguồn nén sẵn có cho Unix / Linux ở liên kết trên.
Step 3 - Giải nén các tập tin vào máy tính của bạn.
Step 4 - Sử dụng các lệnh sau để hoàn tất cài đặt -
run ./configure script
make
make install
Bạn có thể tìm thấy Python đã cài đặt tại vị trí tiêu chuẩn /usr/local/bin và các thư viện của nó tại /usr/local/lib/pythonXX, trong đó XX là phiên bản của Python.
Cài đặt Python trên Windows
Bạn cần làm theo các bước dưới đây để cài đặt Python trên máy Windows -
Step 1 - Vào liên kết https://www.python.org/downloads/
Step 2 - Tải xuống trình cài đặt Windows python-XYZ.msi , trong đó XYZ là phiên bản chúng ta cần cài đặt.
Step 3 - Bây giờ, lưu tệp trình cài đặt vào máy cục bộ của bạn và chạy tệp MSI.
Step 4 - Cuối cùng, chạy tệp đã tải xuống để hiển thị trình hướng dẫn cài đặt Python.
Cài đặt Python trên Macintosh
Chúng ta phải sử dụng Homebrew để cài đặt Python 3 trên Mac OS X. Homebrew dễ cài đặt và là một trình cài đặt gói tuyệt vời.
Homebrew cũng có thể được cài đặt bằng cách sử dụng lệnh sau:
$ ruby -e "$(curl -fsSL
https://raw.githubusercontent.com/Homebrew/install/master/install)"
Để cập nhật trình quản lý gói, chúng ta có thể sử dụng lệnh sau:
$ brew update
Với sự trợ giúp của lệnh sau, chúng ta có thể cài đặt Python3 trên máy MAC của mình -
$ brew install python3
Thiết lập PATH
Bạn có thể sử dụng các hướng dẫn sau để thiết lập đường dẫn trên các môi trường khác nhau -
Thiết lập đường dẫn trên Unix / Linux
Sử dụng các lệnh sau để thiết lập đường dẫn bằng các trình bao lệnh khác nhau:
Đối với shell csh
setenv PATH "$PATH:/usr/local/bin/python".
Đối với bash shell (Linux)
ATH="$PATH:/usr/local/bin/python".
Đối với vỏ sh hoặc ksh
PATH="$PATH:/usr/local/bin/python".
Thiết lập đường dẫn trên Windows
Để thiết lập đường dẫn trên Windows, chúng ta có thể sử dụng đường dẫn %path%;C:\Python tại dấu nhắc lệnh và sau đó nhấn Enter.
Chạy Python
Chúng ta có thể bắt đầu Python bằng bất kỳ cách nào trong ba cách sau:
Phiên dịch tương tác
Hệ điều hành như UNIX và DOS đang cung cấp trình thông dịch dòng lệnh hoặc trình bao có thể được sử dụng để khởi động Python.
Chúng ta có thể bắt đầu viết mã trong trình thông dịch tương tác như sau:
Step 1 - Nhập python tại dòng lệnh.
Step 2 - Sau đó, chúng ta có thể bắt đầu viết mã ngay trong trình thông dịch tương tác.
$python # Unix/Linux
or
python% # Unix/Linux
or
C:> python # Windows/DOS
Tập lệnh từ dòng lệnh
Chúng ta có thể thực thi một tập lệnh Python tại dòng lệnh bằng cách gọi trình thông dịch. Nó có thể được hiểu như sau:
$python script.py # Unix/Linux
or
python% script.py # Unix/Linux
or
C: >python script.py # Windows/DOS
Môi trường phát triển tích hợp
Chúng tôi cũng có thể chạy Python từ môi trường GUI nếu hệ thống đang có ứng dụng GUI hỗ trợ Python. Dưới đây là một số IDE hỗ trợ Python trên các nền tảng khác nhau:
IDE for UNIX - UNIX, dành cho Python, có IDLE IDE.
IDE for Windows - Windows có PythonWin IDE cũng có GUI.
IDE for Macintosh - Macintosh có IDLE IDE có thể tải xuống dưới dạng tệp MacBinary hoặc BinHex'd từ trang web chính.