요청-요청을 사용한 웹 스크랩

파이썬 요청 라이브러리를 사용하여 주어진 URL에서 데이터를 얻는 방법을 이미 살펴 보았습니다. 우리는 사이트에서 데이터를 스크랩하려고 노력할 것입니다.Tutorialspoint 사용할 수있는 https://www.tutorialspoint.com/tutorialslibrary.htm 다음을 사용하여-

  • 요청 라이브러리
  • 파이썬의 아름다운 수프 라이브러리

우리는 이미 Requests 라이브러리를 설치했습니다. 이제 Beautiful soup 패키지를 설치하겠습니다. 다음은 공식 웹 사이트입니다.beautiful soup 사용 가능 https://www.crummy.com/software/BeautifulSoup/bs4/doc/ 아름다운 수프의 더 많은 기능을 탐구하고 싶다면.

뷰티플 수프 설치

아래에서 뷰티플 스프 설치 방법을 살펴 보겠습니다.

E:\prequests>pip install beautifulsoup4
Collecting beautifulsoup4
Downloading https://files.pythonhosted.org/packages/3b/c8/a55eb6ea11cd7e5ac4ba
cdf92bac4693b90d3ba79268be16527555e186f0/beautifulsoup4-4.8.1-py3-none-any.whl
(
101kB)
|████████████████████████████████| 102kB 22kB/s
Collecting soupsieve>=1.2 (from beautifulsoup4)
Downloading https://files.pythonhosted.org/packages/81/94/03c0f04471fc245d08d0
a99f7946ac228ca98da4fa75796c507f61e688c2/soupsieve-1.9.5-py2.py3-none-any.whl
Installing collected packages: soupsieve, beautifulsoup4
Successfully installed beautifulsoup4-4.8.1 soupsieve-1.9.5

이제 파이썬 요청 라이브러리와 아름다운 수프가 설치되었습니다.

이제 주어진 URL에서 데이터를 스크랩하는 코드를 작성하겠습니다.

웹 스크래핑

import requests
from bs4 import BeautifulSoup
res = requests.get('https://www.tutorialspoint.com/tutorialslibrary.htm')
print("The status code is ", res.status_code)
print("\n")
soup_data = BeautifulSoup(res.text, 'html.parser')
print(soup_data.title)
print("\n")
print(soup_data.find_all('h4'))

요청 라이브러리를 사용하여 주어진 URL에서 콘텐츠를 가져올 수 있으며 아름다운 수프 라이브러리는이를 구문 분석하고 원하는 방식으로 세부 정보를 가져 오는 데 도움이됩니다.

아름다운 수프 라이브러리를 사용하여 Html 태그, 클래스, ID, CSS 선택기 및 더 많은 방법을 사용하여 데이터를 가져올 수 있습니다. 다음은 페이지의 제목과 페이지의 모든 h4 태그를 인쇄 한 결과입니다.

산출

E:\prequests>python makeRequest.py
The status code is 200
<title>Free Online Tutorials and Courses</title>
[<h4>Academic</h4>, <h4>Computer Science</h4>, <h4>Digital Marketing</h4>, 
<h4>Monuments</h4>,<h4>Machine Learning</h4>, <h4>Mathematics</h4>, 
<h4>Mobile Development</h4>,<h4>SAP</h4>, 
<h4>Software Quality</h4>, <h4>Big Data & Analytics</h4>, 
<h4>Databases</h4>, <h4>Engineering Tutorials</h4>, 
<h4>Mainframe Development</h4>, 
<h4>Microsoft Technologies</h4>, <h4>Java Technologies</h4>,
<h4>XML Technologies</h4>, <h4>Python Technologies</h4>, <h4>Sports</h4>, 
<h4>Computer Programming</h4>,<h4>DevOps</h4>, <h4>Latest Technologies</h4>, 
<h4>Telecom</h4>, <h4>Exams Syllabus</h4>, 
<h4>UPSC IAS Exams</h4>, 
<h4>Web Development</h4>,
<h4>Scripts</h4>, <h4>Management</h4>,<h4>Soft Skills</h4>, 
<h4>Selected Reading</h4>, <h4>Misc</h4>]