คำขอ - การขูดเว็บโดยใช้คำขอ
เราได้เห็นแล้วว่าเราสามารถรับข้อมูลจาก URL ที่กำหนดโดยใช้ไลบรารีคำขอ python ได้อย่างไร เราจะพยายามดึงข้อมูลจากเว็บไซต์ของTutorialspoint ซึ่งมีอยู่ที่ https://www.tutorialspoint.com/tutorialslibrary.htm โดยใช้สิ่งต่อไปนี้ -
- ขอไลบรารี
- ไลบรารีซุปสวยจากหลาม
เราได้ติดตั้งไลบรารีคำขอแล้วให้เราติดตั้งแพ็คเกจ Beautiful soup นี่คือเว็บไซต์อย่างเป็นทางการสำหรับbeautiful soup สามารถดูได้ที่ https://www.crummy.com/software/BeautifulSoup/bs4/doc/ ในกรณีที่คุณต้องการสำรวจฟังก์ชั่นอื่น ๆ ของซุปที่สวยงาม
การติดตั้ง Beautifulsoup
เรามาดูวิธีการติดตั้ง Beautiful Soup ด้านล่าง -
E:\prequests>pip install beautifulsoup4
Collecting beautifulsoup4
Downloading https://files.pythonhosted.org/packages/3b/c8/a55eb6ea11cd7e5ac4ba
cdf92bac4693b90d3ba79268be16527555e186f0/beautifulsoup4-4.8.1-py3-none-any.whl
(
101kB)
|████████████████████████████████| 102kB 22kB/s
Collecting soupsieve>=1.2 (from beautifulsoup4)
Downloading https://files.pythonhosted.org/packages/81/94/03c0f04471fc245d08d0
a99f7946ac228ca98da4fa75796c507f61e688c2/soupsieve-1.9.5-py2.py3-none-any.whl
Installing collected packages: soupsieve, beautifulsoup4
Successfully installed beautifulsoup4-4.8.1 soupsieve-1.9.5
ตอนนี้เรามีไลบรารีคำขอหลามและซุปสวย ๆ ติดตั้งแล้ว
ตอนนี้ให้เราเขียนโค้ดซึ่งจะดึงข้อมูลจาก URL ที่กำหนด
การขูดเว็บ
import requests
from bs4 import BeautifulSoup
res = requests.get('https://www.tutorialspoint.com/tutorialslibrary.htm')
print("The status code is ", res.status_code)
print("\n")
soup_data = BeautifulSoup(res.text, 'html.parser')
print(soup_data.title)
print("\n")
print(soup_data.find_all('h4'))
การใช้ไลบรารีคำขอเราสามารถดึงเนื้อหาจาก URL ที่กำหนดและไลบรารีซุปที่สวยงามช่วยในการแยกวิเคราะห์และดึงรายละเอียดตามที่เราต้องการ
คุณสามารถใช้ไลบรารีซุปที่สวยงามเพื่อดึงข้อมูลโดยใช้แท็ก Html, คลาส, id, ตัวเลือก css และวิธีอื่น ๆ อีกมากมาย ต่อไปนี้เป็นผลลัพธ์ที่เราได้รับจากนั้นเราได้พิมพ์ชื่อของหน้าและแท็ก h4 ทั้งหมดบนหน้า
เอาต์พุต
E:\prequests>python makeRequest.py
The status code is 200
<title>Free Online Tutorials and Courses</title>
[<h4>Academic</h4>, <h4>Computer Science</h4>, <h4>Digital Marketing</h4>,
<h4>Monuments</h4>,<h4>Machine Learning</h4>, <h4>Mathematics</h4>,
<h4>Mobile Development</h4>,<h4>SAP</h4>,
<h4>Software Quality</h4>, <h4>Big Data & Analytics</h4>,
<h4>Databases</h4>, <h4>Engineering Tutorials</h4>,
<h4>Mainframe Development</h4>,
<h4>Microsoft Technologies</h4>, <h4>Java Technologies</h4>,
<h4>XML Technologies</h4>, <h4>Python Technologies</h4>, <h4>Sports</h4>,
<h4>Computer Programming</h4>,<h4>DevOps</h4>, <h4>Latest Technologies</h4>,
<h4>Telecom</h4>, <h4>Exams Syllabus</h4>,
<h4>UPSC IAS Exams</h4>,
<h4>Web Development</h4>,
<h4>Scripts</h4>, <h4>Management</h4>,<h4>Soft Skills</h4>,
<h4>Selected Reading</h4>, <h4>Misc</h4>]