Python 웹 스크랩 핑-데이터 처리

이전 장에서 우리는 웹 페이지에서 데이터를 추출하거나 다양한 Python 모듈에 의한 웹 스크래핑에 대해 배웠습니다. 이 장에서는 스크랩 된 데이터를 처리하는 다양한 기술을 살펴 보겠습니다.

소개

스크랩 된 데이터를 처리하려면 스프레드 시트 (CSV), JSON과 같은 특정 형식으로 로컬 컴퓨터에 데이터를 저장해야하며 때로는 MySQL과 같은 데이터베이스에 저장해야합니다.

CSV 및 JSON 데이터 처리

먼저 웹 페이지에서 가져온 정보를 CSV 파일 또는 스프레드 시트에 기록합니다. 먼저 다음을 사용하여 정보를 가져 오는 간단한 예제를 통해 이해합시다.BeautifulSoup 모듈에서 이전과 마찬가지로 Python CSV 모듈을 사용하여 해당 텍스트 정보를 CSV 파일에 씁니다.

먼저 필요한 Python 라이브러리를 다음과 같이 가져와야합니다.

import requests
from bs4 import BeautifulSoup
import csv

다음 코드 줄에서는 요청을 사용하여 URL에 대한 GET HTTP 요청을 만듭니다. https://authoraditiagarwal.com/ GET 요청을합니다.

r = requests.get('https://authoraditiagarwal.com/')

이제 다음과 같이 Soup 개체를 만들어야합니다.

soup = BeautifulSoup(r.text, 'lxml')

이제 다음 코드 줄을 사용하여 가져온 데이터를 dataprocessing.csv라는 CSV 파일에 씁니다.

f = csv.writer(open(' dataprocessing.csv ','w'))
f.writerow(['Title'])
f.writerow([soup.title.text])

이 스크립트를 실행하면 텍스트 정보 또는 웹 페이지 제목이 로컬 컴퓨터의 위에서 언급 한 CSV 파일에 저장됩니다.

마찬가지로 수집 된 정보를 JSON 파일에 저장할 수 있습니다. 다음은 지난 파이썬 스크립트에서했던 것과 동일한 정보를 잡는 것과 동일한 작업을 수행하기위한 이해하기 쉬운 파이썬 스크립트이지만 이번에는 잡은 정보를 JSON Python 모듈을 사용하여 JSONfile.txt에 저장합니다.

import requests
from bs4 import BeautifulSoup
import csv
import json
r = requests.get('https://authoraditiagarwal.com/')
soup = BeautifulSoup(r.text, 'lxml')
y = json.dumps(soup.title.text)
with open('JSONFile.txt', 'wt') as outfile:
   json.dump(y, outfile)

이 스크립트를 실행하면 웹 페이지 제목과 같은 정보가 위에서 언급 한 로컬 컴퓨터의 텍스트 파일에 저장됩니다.

AWS S3를 사용한 데이터 처리

때때로 우리는 아카이브 목적으로 로컬 저장소에 스크랩 된 데이터를 저장하고자 할 수 있습니다. 하지만이 데이터를 대규모로 저장하고 분석해야한다면 어떨까요? 답은 Amazon S3 또는 AWS S3 (Simple Storage Service)라는 클라우드 스토리지 서비스입니다. 기본적으로 AWS S3는 어디서든 원하는 양의 데이터를 저장하고 검색하도록 구축 된 객체 스토리지입니다.

AWS S3에 데이터를 저장하려면 다음 단계를 따를 수 있습니다.

Step 1− 먼저 데이터를 저장하는 동안 Python 스크립트에서 사용할 비밀 키를 제공 할 AWS 계정이 필요합니다. 데이터를 저장할 수있는 S3 버킷이 생성됩니다.

Step 2 − 다음으로 설치해야합니다. boto3S3 버킷에 액세스하기위한 Python 라이브러리. 다음 명령을 사용하여 설치할 수 있습니다.

pip install boto3

Step 3 − 다음으로 다음 Python 스크립트를 사용하여 웹 페이지에서 데이터를 스크랩하고 AWS S3 버킷에 저장할 수 있습니다.

먼저 스크래핑을 위해 Python 라이브러리를 가져와야합니다. 여기서는 requests, 및 boto3 S3 버킷에 데이터 저장.

import requests
import boto3

이제 URL에서 데이터를 긁어 낼 수 있습니다.

data = requests.get("Enter the URL").text

이제 S3 버킷에 데이터를 저장하려면 다음과 같이 S3 클라이언트를 생성해야합니다.

s3 = boto3.client('s3')
bucket_name = "our-content"

다음 코드 줄은 다음과 같이 S3 버킷을 생성합니다.

s3.create_bucket(Bucket = bucket_name, ACL = 'public-read')
s3.put_object(Bucket = bucket_name, Key = '', Body = data, ACL = "public-read")

이제 AWS 계정에서 이름이 our-content 인 버킷을 확인할 수 있습니다.

MySQL을 사용한 데이터 처리

MySQL을 사용하여 데이터를 처리하는 방법을 알아 보겠습니다. MySQL에 대해 배우고 싶다면 링크를 따라갈 수 있습니다.https://www.tutorialspoint.com/mysql/.

다음 단계의 도움으로 데이터를 MySQL 테이블로 스크랩하고 처리 할 수 ​​있습니다.

Step 1− 먼저 MySQL을 사용하여 스크랩 된 데이터를 저장할 데이터베이스와 테이블을 만들어야합니다. 예를 들어, 다음 쿼리를 사용하여 테이블을 생성합니다.

CREATE TABLE Scrap_pages (id BIGINT(7) NOT NULL AUTO_INCREMENT,
title VARCHAR(200), content VARCHAR(10000),PRIMARY KEY(id));

Step 2− 다음으로 유니 코드를 다룰 필요가 있습니다. MySQL은 기본적으로 유니 코드를 처리하지 않습니다. 데이터베이스, 테이블 및 두 열의 기본 문자 집합을 변경하는 다음 명령을 사용하여이 기능을 켜야합니다.

ALTER DATABASE scrap CHARACTER SET = utf8mb4 COLLATE = utf8mb4_unicode_ci;
ALTER TABLE Scrap_pages CONVERT TO CHARACTER SET utf8mb4 COLLATE
utf8mb4_unicode_ci;
ALTER TABLE Scrap_pages CHANGE title title VARCHAR(200) CHARACTER SET utf8mb4
COLLATE utf8mb4_unicode_ci;
ALTER TABLE pages CHANGE content content VARCHAR(10000) CHARACTER SET utf8mb4
COLLATE utf8mb4_unicode_ci;

Step 3− 이제 MySQL과 Python을 통합합니다. 이를 위해 다음 명령을 사용하여 설치할 수있는 PyMySQL이 필요합니다.

pip install PyMySQL

Step 4− 이제 이전에 만든 Scrap이라는 데이터베이스는 웹에서 스크랩 한 후 Scrap_pages라는 테이블에 데이터를 저장할 준비가되었습니다. 이 예에서는 Wikipedia에서 데이터를 스크랩하여 데이터베이스에 저장합니다.

먼저 필요한 Python 모듈을 가져와야합니다.

from urllib.request import urlopen
from bs4 import BeautifulSoup
import datetime
import random
import pymysql
import re

이제 연결을 만드십시오. 이것이 Python과 통합됩니다.

conn = pymysql.connect(host='127.0.0.1',user='root', passwd = None, db = 'mysql',
charset = 'utf8')
cur = conn.cursor()
cur.execute("USE scrap")
random.seed(datetime.datetime.now())
def store(title, content):
   cur.execute('INSERT INTO scrap_pages (title, content) VALUES ''("%s","%s")', (title, content))
   cur.connection.commit()

이제 Wikipedia에 연결하여 데이터를 가져옵니다.

def getLinks(articleUrl):
   html = urlopen('http://en.wikipedia.org'+articleUrl)
   bs = BeautifulSoup(html, 'html.parser')
   title = bs.find('h1').get_text()
   content = bs.find('div', {'id':'mw-content-text'}).find('p').get_text()
   store(title, content)
   return bs.find('div', {'id':'bodyContent'}).findAll('a',href=re.compile('^(/wiki/)((?!:).)*$'))
links = getLinks('/wiki/Kevin_Bacon')
try:
   while len(links) > 0:
      newArticle = links[random.randint(0, len(links)-1)].attrs['href']
      print(newArticle)
      links = getLinks(newArticle)

마지막으로 커서와 연결을 모두 닫아야합니다.

finally:
   cur.close()
   conn.close()

이렇게하면 Wikipedia에서 수집 한 데이터가 scrap_pages라는 테이블에 저장됩니다. MySQL 및 웹 스크래핑에 익숙하다면 위 코드를 이해하기 어렵지 않을 것입니다.

PostgreSQL을 사용한 데이터 처리

전 세계 자원 봉사자 팀이 개발 한 PostgreSQL은 오픈 소스 관계형 데이터베이스 관리 시스템 (RDMS)입니다. PostgreSQL을 사용하여 스크랩 된 데이터를 처리하는 프로세스는 MySQL과 유사합니다. 두 가지 변경 사항이 있습니다. 첫째, 명령이 MySQL과 다르고 둘째, 여기서는psycopg2 Python과의 통합을 수행하기위한 Python 라이브러리.

PostgreSQL에 익숙하지 않은 경우 다음에서 배울 수 있습니다. https://www.tutorialspoint.com/postgresql/. 그리고 다음 명령의 도움으로 psycopg2 Python 라이브러리를 설치할 수 있습니다.

pip install psycopg2