아름다운 수프-설치

BeautifulSoup은 표준 파이썬 라이브러리가 아니므로 먼저 설치해야합니다. 최신 버전 인 BeautifulSoup 4 라이브러리 (BS4라고도 함)를 설치할 것입니다.

기존 설정을 방해하지 않도록 작업 환경을 격리하기 위해 먼저 가상 환경을 생성하겠습니다.

가상 환경 만들기 (선택 사항)

가상 환경을 사용하면 외부 설정에 영향을주지 않고 특정 프로젝트에 대해 격리 된 Python 작업 복사본을 만들 수 있습니다.

파이썬 패키지 머신을 설치하는 가장 좋은 방법은 pip를 사용하는 것입니다. 그러나 pip가 아직 설치되어 있지 않다면 (명령 또는 쉘 프롬프트에서 –“pip –version”을 사용하여 확인할 수 있습니다), 아래 명령을 제공하여 설치할 수 있습니다.

Linux 환경

$sudo apt-get install python-pip

Windows 환경

Windows에 pip를 설치하려면 다음을 수행하십시오.

  • get-pip.py를 https://bootstrap.pypa.io/get-pip.py 또는 github에서 컴퓨터로.

  • 명령 프롬프트를 열고 get-pip.py 파일이 포함 된 폴더로 이동합니다.

  • 다음 명령을 실행하십시오-

>python get-pip.py

이제 pip가 Windows 컴퓨터에 설치되었습니다.

아래 명령을 실행하여 설치된 pip를 확인할 수 있습니다.

>pip --version
pip 19.2.3 from c:\users\yadur\appdata\local\programs\python\python37\lib\site-packages\pip (python 3.7)

가상 환경 설치

명령 프롬프트에서 아래 명령을 실행하십시오-

>pip install virtualenv

실행 후 아래 스크린 샷을 볼 수 있습니다.

아래 명령은 현재 디렉토리에 가상 환경 ( "myEnv")을 생성합니다.

>virtualenv myEnv

스크린 샷

가상 환경을 활성화하려면 다음 명령을 실행하십시오.

>myEnv\Scripts\activate

위의 스크린 샷에서 접두사로 "myEnv"를 사용하여 가상 환경 "myEnv"에 있음을 알 수 있습니다.

가상 환경에서 나오려면 비활성화를 실행하십시오.

(myEnv) C:\Users\yadur>deactivate
C:\Users\yadur>

가상 환경이 준비되었으므로 이제 beautifulsoup을 설치하겠습니다.

BeautifulSoup 설치

BeautifulSoup은 표준 라이브러리가 아니기 때문에 설치해야합니다. BeautifulSoup 4 패키지 (bs4로 알려짐)를 사용할 것입니다.

Linux 머신

시스템 패키지 관리자를 사용하여 Debian 또는 Ubuntu Linux에 bs4를 설치하려면 아래 명령을 실행하십시오.

$sudo apt-get install python-bs4 (for python 2.x)
$sudo apt-get install python3-bs4 (for python 3.x)

easy_install 또는 pip를 사용하여 bs4를 설치할 수 있습니다 (시스템 패키저를 사용하여 설치하는 데 문제가있는 경우).

$easy_install beautifulsoup4
$pip install beautifulsoup4

(python3을 사용하는 경우 각각 easy_install3 또는 pip3를 사용해야 할 수 있습니다.)

Windows 머신

Windows에 beautifulsoup4를 설치하는 것은 매우 간단합니다. 특히 pip가 이미 설치되어있는 경우 더욱 그렇습니다.

>pip install beautifulsoup4

이제 beautifulsoup4가 우리 컴퓨터에 설치되었습니다. 설치 후 발생한 몇 가지 문제에 대해 이야기하겠습니다.

설치 후 문제

Windows 컴퓨터에서 발생할 수있는 잘못된 버전은 주로 다음을 통해 오류가 설치됩니다.

  • 오류: ImportError “No module named HTMLParser”이면 Python 3에서 python 2 버전의 코드를 실행해야합니다.

  • 오류: ImportError “No module named html.parser” 오류가 발생하면 Python 2에서 Python 3 버전의 코드를 실행해야합니다.

위의 두 가지 상황에서 벗어나는 가장 좋은 방법은 BeautifulSoup을 다시 설치하여 기존 설치를 완전히 제거하는 것입니다.

당신이 얻는 경우 SyntaxError “Invalid syntax” ROOT_TAG_NAME = u '[document]'라인에서, 패키지를 설치하여 파이썬 2 코드를 파이썬 3으로 변환해야합니다.

$ python3 setup.py install

또는 bs4 디렉토리에서 파이썬의 2 ~ 3 변환 스크립트를 수동으로 실행하여-

$ 2to3-3.2 -w bs4

파서 설치

기본적으로 Beautiful Soup은 Python의 표준 라이브러리에 포함 된 HTML 구문 분석기를 지원하지만 lxml 구문 분석기 또는 html5lib 구문 분석기와 같은 많은 외부 타사 파이썬 구문 분석기도 지원합니다.

lxml 또는 html5lib 파서를 설치하려면 다음 명령을 사용하십시오.

Linux 머신

$apt-get install python-lxml
$apt-get insall python-html5lib

Windows 머신

$pip install lxml
$pip install html5lib

일반적으로 사용자는 속도를 위해 lxml을 사용하며, python 2 (2.7.3 이전 버전) 또는 python 3 (3.2.2 이전 버전)을 사용하는 경우에는 lxml 또는 html5lib 파서를 사용하는 것이 좋습니다. 이전 버전을 처리하는 데별로 좋지 않습니다.

아름다운 수프 달리기

이제 html 페이지 중 하나에서 Beautiful Soup 패키지를 테스트 할 시간입니다 (웹 페이지 가져 오기 – https://www.tutorialspoint.com/index.htm, 원하는 다른 웹 페이지를 선택할 수 있습니다.)에서 일부 정보를 추출 할 수 있습니다.

아래 코드에서 웹 페이지에서 제목을 추출하려고합니다.

from bs4 import BeautifulSoup
import requests
url = "https://www.tutorialspoint.com/index.htm"
req = requests.get(url)
soup = BeautifulSoup(req.text, "html.parser")
print(soup.title)

산출

<title>H2O, Colab, Theano, Flutter, KNime, Mean.js, Weka, Solidity, Org.Json, AWS QuickSight, JSON.Simple, Jackson Annotations, Passay, Boon, MuleSoft, Nagios, Matplotlib, Java NIO, PyTorch, SLF4J, Parallax Scrolling, Java Cryptography</title>

한 가지 일반적인 작업은 웹 페이지 내의 모든 URL을 추출하는 것입니다. 이를 위해 아래 코드 줄을 추가하면됩니다.

for link in soup.find_all('a'):
print(link.get('href'))

산출

https://www.tutorialspoint.com/index.htm
https://www.tutorialspoint.com/about/about_careers.htm
https://www.tutorialspoint.com/questions/index.php
https://www.tutorialspoint.com/online_dev_tools.htm
https://www.tutorialspoint.com/codingground.htm
https://www.tutorialspoint.com/current_affairs.htm
https://www.tutorialspoint.com/upsc_ias_exams.htm
https://www.tutorialspoint.com/tutor_connect/index.php
https://www.tutorialspoint.com/whiteboard.htm
https://www.tutorialspoint.com/netmeeting.php
https://www.tutorialspoint.com/index.htm
https://www.tutorialspoint.com/tutorialslibrary.htm
https://www.tutorialspoint.com/videotutorials/index.php
https://store.tutorialspoint.com
https://www.tutorialspoint.com/gate_exams_tutorials.htm
https://www.tutorialspoint.com/html_online_training/index.asp
https://www.tutorialspoint.com/css_online_training/index.asp
https://www.tutorialspoint.com/3d_animation_online_training/index.asp
https://www.tutorialspoint.com/swift_4_online_training/index.asp
https://www.tutorialspoint.com/blockchain_online_training/index.asp
https://www.tutorialspoint.com/reactjs_online_training/index.asp
https://www.tutorix.com
https://www.tutorialspoint.com/videotutorials/top-courses.php
https://www.tutorialspoint.com/the_full_stack_web_development/index.asp
….
….
https://www.tutorialspoint.com/online_dev_tools.htm
https://www.tutorialspoint.com/free_web_graphics.htm
https://www.tutorialspoint.com/online_file_conversion.htm
https://www.tutorialspoint.com/netmeeting.php
https://www.tutorialspoint.com/free_online_whiteboard.htm
http://www.tutorialspoint.com
https://www.facebook.com/tutorialspointindia
https://plus.google.com/u/0/+tutorialspoint
http://www.twitter.com/tutorialspoint
http://www.linkedin.com/company/tutorialspoint
https://www.youtube.com/channel/UCVLbzhxVTiTLiVKeGV7WEBg
https://www.tutorialspoint.com/index.htm
/about/about_privacy.htm#cookies
/about/faq.htm
/about/about_helping.htm
/about/contact_us.htm

마찬가지로 beautifulsoup4를 사용하여 유용한 정보를 추출 할 수 있습니다.

이제 위의 예에서 "수프"에 대해 더 많이 이해하겠습니다.