Yêu cầu - Web Scraping sử dụng Yêu cầu

Chúng tôi đã thấy cách chúng tôi có thể lấy dữ liệu từ một URL nhất định bằng cách sử dụng thư viện yêu cầu python. Chúng tôi sẽ cố gắng loại bỏ dữ liệu từ trang web củaTutorialspoint có sẵn tại https://www.tutorialspoint.com/tutorialslibrary.htm bằng cách sử dụng sau -

  • Thư viện yêu cầu
  • Thư viện súp tuyệt đẹp từ trăn

Chúng tôi đã cài đặt thư viện Yêu cầu, bây giờ chúng tôi hãy cài đặt gói súp Beautiful. Đây là trang web chính thức củabeautiful soup có sẵn tại https://www.crummy.com/software/BeautifulSoup/bs4/doc/ trong trường hợp bạn muốn khám phá thêm một số chức năng của súp đẹp.

Cài đặt Beautifulsoup

Chúng ta sẽ xem cách cài đặt Beautiful Soup dưới đây -

E:\prequests>pip install beautifulsoup4
Collecting beautifulsoup4
Downloading https://files.pythonhosted.org/packages/3b/c8/a55eb6ea11cd7e5ac4ba
cdf92bac4693b90d3ba79268be16527555e186f0/beautifulsoup4-4.8.1-py3-none-any.whl
(
101kB)
|████████████████████████████████| 102kB 22kB/s
Collecting soupsieve>=1.2 (from beautifulsoup4)
Downloading https://files.pythonhosted.org/packages/81/94/03c0f04471fc245d08d0
a99f7946ac228ca98da4fa75796c507f61e688c2/soupsieve-1.9.5-py2.py3-none-any.whl
Installing collected packages: soupsieve, beautifulsoup4
Successfully installed beautifulsoup4-4.8.1 soupsieve-1.9.5

Bây giờ chúng tôi đã cài đặt thư viện yêu cầu python và súp đẹp mắt.

Bây giờ chúng ta hãy viết mã, mã này sẽ loại bỏ dữ liệu từ URL đã cho.

rút trích nội dung trang web

import requests
from bs4 import BeautifulSoup
res = requests.get('https://www.tutorialspoint.com/tutorialslibrary.htm')
print("The status code is ", res.status_code)
print("\n")
soup_data = BeautifulSoup(res.text, 'html.parser')
print(soup_data.title)
print("\n")
print(soup_data.find_all('h4'))

Sử dụng thư viện yêu cầu, chúng tôi có thể tìm nạp nội dung từ URL được cung cấp và thư viện súp đẹp giúp phân tích cú pháp nó và tìm nạp chi tiết theo cách chúng tôi muốn.

Bạn có thể sử dụng một thư viện súp tuyệt đẹp để tìm nạp dữ liệu bằng cách sử dụng thẻ Html, lớp, id, bộ chọn css và nhiều cách khác. Sau đây là kết quả mà chúng tôi nhận được trong đó chúng tôi đã in tiêu đề của trang và tất cả các thẻ h4 trên trang.

Đầu ra

E:\prequests>python makeRequest.py
The status code is 200
<title>Free Online Tutorials and Courses</title>
[<h4>Academic</h4>, <h4>Computer Science</h4>, <h4>Digital Marketing</h4>, 
<h4>Monuments</h4>,<h4>Machine Learning</h4>, <h4>Mathematics</h4>, 
<h4>Mobile Development</h4>,<h4>SAP</h4>, 
<h4>Software Quality</h4>, <h4>Big Data & Analytics</h4>, 
<h4>Databases</h4>, <h4>Engineering Tutorials</h4>, 
<h4>Mainframe Development</h4>, 
<h4>Microsoft Technologies</h4>, <h4>Java Technologies</h4>,
<h4>XML Technologies</h4>, <h4>Python Technologies</h4>, <h4>Sports</h4>, 
<h4>Computer Programming</h4>,<h4>DevOps</h4>, <h4>Latest Technologies</h4>, 
<h4>Telecom</h4>, <h4>Exams Syllabus</h4>, 
<h4>UPSC IAS Exams</h4>, 
<h4>Web Development</h4>,
<h4>Scripts</h4>, <h4>Management</h4>,<h4>Soft Skills</h4>, 
<h4>Selected Reading</h4>, <h4>Misc</h4>]