Permintaan - Scraping Web menggunakan Permintaan

Kami telah melihat bagaimana kami bisa mendapatkan data dari URL tertentu menggunakan pustaka permintaan python. Kami akan mencoba mengambil data dari situsTutorialspoint yang tersedia di https://www.tutorialspoint.com/tutorialslibrary.htm menggunakan yang berikut -

  • Meminta Perpustakaan
  • Perpustakaan sup yang indah dari python

Kami telah menginstal pustaka Permintaan, mari kita sekarang menginstal paket sup Cantik. Ini adalah situs resmi untukbeautiful soup Tersedia di https://www.crummy.com/software/BeautifulSoup/bs4/doc/ jika Anda ingin menjelajahi lebih banyak fungsi sup yang indah.

Menginstal Beautifulsoup

Kita akan melihat cara menginstal Beautiful Soup di bawah ini -

E:\prequests>pip install beautifulsoup4
Collecting beautifulsoup4
Downloading https://files.pythonhosted.org/packages/3b/c8/a55eb6ea11cd7e5ac4ba
cdf92bac4693b90d3ba79268be16527555e186f0/beautifulsoup4-4.8.1-py3-none-any.whl
(
101kB)
|████████████████████████████████| 102kB 22kB/s
Collecting soupsieve>=1.2 (from beautifulsoup4)
Downloading https://files.pythonhosted.org/packages/81/94/03c0f04471fc245d08d0
a99f7946ac228ca98da4fa75796c507f61e688c2/soupsieve-1.9.5-py2.py3-none-any.whl
Installing collected packages: soupsieve, beautifulsoup4
Successfully installed beautifulsoup4-4.8.1 soupsieve-1.9.5

Kami sekarang memiliki pustaka permintaan python dan sup indah terpasang.

Sekarang mari kita tulis kodenya, yang akan menghapus data dari URL yang diberikan.

Mengikis web

import requests
from bs4 import BeautifulSoup
res = requests.get('https://www.tutorialspoint.com/tutorialslibrary.htm')
print("The status code is ", res.status_code)
print("\n")
soup_data = BeautifulSoup(res.text, 'html.parser')
print(soup_data.title)
print("\n")
print(soup_data.find_all('h4'))

Dengan menggunakan pustaka permintaan, kita bisa mengambil konten dari URL yang diberikan dan pustaka sup yang indah membantu untuk menguraikannya dan mengambil detail seperti yang kita inginkan.

Anda dapat menggunakan pustaka sup yang indah untuk mengambil data menggunakan tag Html, kelas, id, pemilih css, dan banyak cara lainnya. Berikut adalah output yang kita dapatkan dimana kita telah mencetak judul halaman dan juga semua tag h4 pada halaman.

Keluaran

E:\prequests>python makeRequest.py
The status code is 200
<title>Free Online Tutorials and Courses</title>
[<h4>Academic</h4>, <h4>Computer Science</h4>, <h4>Digital Marketing</h4>, 
<h4>Monuments</h4>,<h4>Machine Learning</h4>, <h4>Mathematics</h4>, 
<h4>Mobile Development</h4>,<h4>SAP</h4>, 
<h4>Software Quality</h4>, <h4>Big Data & Analytics</h4>, 
<h4>Databases</h4>, <h4>Engineering Tutorials</h4>, 
<h4>Mainframe Development</h4>, 
<h4>Microsoft Technologies</h4>, <h4>Java Technologies</h4>,
<h4>XML Technologies</h4>, <h4>Python Technologies</h4>, <h4>Sports</h4>, 
<h4>Computer Programming</h4>,<h4>DevOps</h4>, <h4>Latest Technologies</h4>, 
<h4>Telecom</h4>, <h4>Exams Syllabus</h4>, 
<h4>UPSC IAS Exams</h4>, 
<h4>Web Development</h4>,
<h4>Scripts</h4>, <h4>Management</h4>,<h4>Soft Skills</h4>, 
<h4>Selected Reading</h4>, <h4>Misc</h4>]