Modul Python untuk Scraping Web

Di bab ini, mari kita pelajari berbagai modul Python yang dapat kita gunakan untuk web scraping.

Lingkungan Pengembangan Python menggunakan virtualenv

Virtualenv adalah alat untuk membuat lingkungan Python yang terisolasi. Dengan bantuan virtualenv, kita dapat membuat folder yang berisi semua executable yang diperlukan untuk menggunakan paket yang dibutuhkan oleh proyek Python kita. Ini juga memungkinkan kita untuk menambah dan memodifikasi modul Python tanpa akses ke instalasi global.

Anda dapat menggunakan perintah berikut untuk menginstal virtualenv -

(base) D:\ProgramData>pip install virtualenv
Collecting virtualenv
   Downloading
https://files.pythonhosted.org/packages/b6/30/96a02b2287098b23b875bc8c2f58071c3
5d2efe84f747b64d523721dc2b5/virtualenv-16.0.0-py2.py3-none-any.whl
(1.9MB)
   100% |¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦| 1.9MB 86kB/s
Installing collected packages: virtualenv
Successfully installed virtualenv-16.0.0

Sekarang, kita perlu membuat direktori yang akan mewakili proyek dengan bantuan perintah berikut -

(base) D:\ProgramData>mkdir webscrap

Sekarang, masuk ke direktori itu dengan bantuan perintah berikut ini -

(base) D:\ProgramData>cd webscrap

Sekarang, kita perlu menginisialisasi folder lingkungan virtual pilihan kita sebagai berikut -

(base) D:\ProgramData\webscrap>virtualenv websc
Using base prefix 'd:\\programdata'
New python executable in D:\ProgramData\webscrap\websc\Scripts\python.exe
Installing setuptools, pip, wheel...done.

Sekarang, aktifkan lingkungan virtual dengan perintah yang diberikan di bawah ini. Setelah berhasil diaktifkan, Anda akan melihat namanya di sisi kiri dalam tanda kurung.

(base) D:\ProgramData\webscrap>websc\scripts\activate

Kami dapat menginstal modul apa pun di lingkungan ini sebagai berikut -

(websc) (base) D:\ProgramData\webscrap>pip install requests
Collecting requests
   Downloading
https://files.pythonhosted.org/packages/65/47/7e02164a2a3db50ed6d8a6ab1d6d60b69
c4c3fdf57a284257925dfc12bda/requests-2.19.1-py2.py3-none-any.whl (9
1kB)
   100% |¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦| 92kB 148kB/s
Collecting chardet<3.1.0,>=3.0.2 (from requests)
   Downloading
https://files.pythonhosted.org/packages/bc/a9/01ffebfb562e4274b6487b4bb1ddec7ca
55ec7510b22e4c51f14098443b8/chardet-3.0.4-py2.py3-none-any.whl (133
kB)
   100% |¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦| 143kB 369kB/s
Collecting certifi>=2017.4.17 (from requests)
   Downloading
https://files.pythonhosted.org/packages/df/f7/04fee6ac349e915b82171f8e23cee6364
4d83663b34c539f7a09aed18f9e/certifi-2018.8.24-py2.py3-none-any.whl
(147kB)
   100% |¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦| 153kB 527kB/s
Collecting urllib3<1.24,>=1.21.1 (from requests)
   Downloading
https://files.pythonhosted.org/packages/bd/c9/6fdd990019071a4a32a5e7cb78a1d92c5
3851ef4f56f62a3486e6a7d8ffb/urllib3-1.23-py2.py3-none-any.whl (133k
B)
   100% |¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦| 143kB 517kB/s
Collecting idna<2.8,>=2.5 (from requests)
   Downloading
https://files.pythonhosted.org/packages/4b/2a/0276479a4b3caeb8a8c1af2f8e4355746
a97fab05a372e4a2c6a6b876165/idna-2.7-py2.py3-none-any.whl (58kB)
   100% |¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦| 61kB 339kB/s
Installing collected packages: chardet, certifi, urllib3, idna, requests
Successfully installed certifi-2018.8.24 chardet-3.0.4 idna-2.7 requests-2.19.1
urllib3-1.23

Untuk menonaktifkan lingkungan virtual, kita dapat menggunakan perintah berikut -

(websc) (base) D:\ProgramData\webscrap>deactivate
(base) D:\ProgramData\webscrap>

Anda dapat melihat bahwa (websc) telah dinonaktifkan.

Modul Python untuk Scraping Web

Scraping web adalah proses membangun agen yang dapat mengekstrak, mengurai, mengunduh, dan mengatur informasi berguna dari web secara otomatis. Dengan kata lain, alih-alih menyimpan data dari situs web secara manual, perangkat lunak pengikis web akan secara otomatis memuat dan mengekstrak data dari beberapa situs web sesuai kebutuhan kami.

Di bagian ini, kita akan membahas tentang pustaka Python yang berguna untuk web scraping.

Permintaan

Ini adalah perpustakaan scraping web python sederhana. Ini adalah pustaka HTTP efisien yang digunakan untuk mengakses halaman web. Dengan bantuan dariRequests, kita bisa mendapatkan HTML mentah dari halaman web yang kemudian dapat diurai untuk mengambil data. Sebelum menggunakanrequests, mari kita pahami pemasangannya.

Menginstal Permintaan

Kami dapat menginstalnya di lingkungan virtual kami atau di instalasi global. Dengan bantuan daripip perintah, kita dapat dengan mudah menginstalnya sebagai berikut -

(base) D:\ProgramData> pip install requests
Collecting requests
Using cached
https://files.pythonhosted.org/packages/65/47/7e02164a2a3db50ed6d8a6ab1d6d60b69
c4c3fdf57a284257925dfc12bda/requests-2.19.1-py2.py3-none-any.whl
Requirement already satisfied: idna<2.8,>=2.5 in d:\programdata\lib\sitepackages
(from requests) (2.6)
Requirement already satisfied: urllib3<1.24,>=1.21.1 in
d:\programdata\lib\site-packages (from requests) (1.22)
Requirement already satisfied: certifi>=2017.4.17 in d:\programdata\lib\sitepackages
(from requests) (2018.1.18)
Requirement already satisfied: chardet<3.1.0,>=3.0.2 in
d:\programdata\lib\site-packages (from requests) (3.0.4)
Installing collected packages: requests
Successfully installed requests-2.19.1

Contoh

Dalam contoh ini, kami membuat permintaan GET HTTP untuk halaman web. Untuk ini, pertama-tama kita perlu mengimpor pustaka permintaan sebagai berikut -

In [1]: import requests

Di baris kode berikut ini, kami menggunakan permintaan untuk membuat permintaan HTTP GET untuk url: https://authoraditiagarwal.com/ dengan membuat permintaan GET.

In [2]: r = requests.get('https://authoraditiagarwal.com/')

Sekarang kita dapat mengambil konten dengan menggunakan .text properti sebagai berikut -

In [5]: r.text[:200]

Perhatikan bahwa pada keluaran berikut, kita mendapat 200 karakter pertama.

Out[5]: '<!DOCTYPE html>\n<html lang="en-US"\n\titemscope
\n\titemtype="http://schema.org/WebSite" \n\tprefix="og: http://ogp.me/ns#"
>\n<head>\n\t<meta charset
="UTF-8" />\n\t<meta http-equiv="X-UA-Compatible" content="IE'

Urllib3

Ini adalah pustaka Python lain yang dapat digunakan untuk mengambil data dari URL yang mirip dengan requestsPerpustakaan. Anda dapat membaca lebih lanjut tentang ini di dokumentasi teknisnya di https://urllib3.readthedocs.io/en/latest/.

Menginstal Urllib3

Menggunakan pip perintah, kita dapat menginstal urllib3 baik di lingkungan virtual kami atau di instalasi global.

(base) D:\ProgramData>pip install urllib3
Collecting urllib3
Using cached
https://files.pythonhosted.org/packages/bd/c9/6fdd990019071a4a32a5e7cb78a1d92c5
3851ef4f56f62a3486e6a7d8ffb/urllib3-1.23-py2.py3-none-any.whl
Installing collected packages: urllib3
Successfully installed urllib3-1.23

Contoh: Mengikis menggunakan Urllib3 dan BeautifulSoup

Dalam contoh berikut, kami mengikis halaman web dengan menggunakan Urllib3 dan BeautifulSoup. Kami menggunakanUrllib3di tempat perpustakaan permintaan untuk mendapatkan data mentah (HTML) dari halaman web. Kemudian kami menggunakanBeautifulSoup untuk mengurai data HTML itu.

import urllib3
from bs4 import BeautifulSoup
http = urllib3.PoolManager()
r = http.request('GET', 'https://authoraditiagarwal.com')
soup = BeautifulSoup(r.data, 'lxml')
print (soup.title)
print (soup.title.text)

Ini adalah keluaran yang akan Anda amati ketika Anda menjalankan kode ini -

<title>Learn and Grow with Aditi Agarwal</title>
Learn and Grow with Aditi Agarwal

Selenium

Ini adalah rangkaian pengujian otomatis open source untuk aplikasi web di berbagai browser dan platform. Ini bukan alat tunggal tetapi seperangkat perangkat lunak. Kami memiliki binding selenium untuk Python, Java, C #, Ruby dan JavaScript. Di sini kita akan melakukan web scraping dengan menggunakan selenium dan binding Python-nya. Anda dapat mempelajari lebih lanjut tentang Selenium dengan Java di tautan Selenium .

Binding Selenium Python menyediakan API yang nyaman untuk mengakses Selenium WebDrivers seperti Firefox, IE, Chrome, Remote dll. Versi Python yang didukung saat ini adalah 2.7, 3.5 dan yang lebih baru.

Menginstal Selenium

Menggunakan pip perintah, kita dapat menginstal urllib3 baik di lingkungan virtual kami atau di instalasi global.

pip install selenium

Karena selenium membutuhkan driver untuk berinteraksi dengan browser yang dipilih, kita perlu mendownloadnya. Tabel berikut menunjukkan browser yang berbeda dan tautannya untuk mengunduh yang sama.

Chrome

https://sites.google.com/a/chromium.org/

Edge

https://developer.microsoft.com/

Firefox

https://github.com/

Safari

https://webkit.org/

Contoh

Contoh ini menunjukkan web scraping menggunakan selenium. Ini juga dapat digunakan untuk pengujian yang disebut pengujian selenium.

Setelah mengunduh driver tertentu untuk versi browser yang ditentukan, kita perlu melakukan pemrograman dengan Python.

Pertama, perlu impor webdriver dari selenium sebagai berikut -

from selenium import webdriver

Sekarang, berikan jalur driver web yang telah kami unduh sesuai kebutuhan kami -

path = r'C:\\Users\\gaurav\\Desktop\\Chromedriver'
browser = webdriver.Chrome(executable_path = path)

Sekarang, sediakan url yang ingin kita buka di browser web yang sekarang dikontrol oleh skrip Python kita.

browser.get('https://authoraditiagarwal.com/leadershipmanagement')

Kita juga bisa mengikis elemen tertentu dengan menyediakan xpath seperti yang disediakan di lxml.

browser.find_element_by_xpath('/html/body').click()

Anda dapat memeriksa browser, yang dikontrol oleh skrip Python, untuk melihat hasilnya.

Scrapy

Scrapy adalah kerangka kerja perayapan web sumber terbuka yang cepat yang ditulis dengan Python, digunakan untuk mengekstrak data dari halaman web dengan bantuan penyeleksi berbasis XPath. Scrapy pertama kali dirilis pada 26 Juni 2008 berlisensi di bawah BSD, dengan milestone 1.0 dirilis pada Juni 2015. Scrapy menyediakan semua alat yang kami butuhkan untuk mengekstrak, memproses, dan menyusun data dari situs web.

Memasang Scrapy

Menggunakan pip perintah, kita dapat menginstal urllib3 baik di lingkungan virtual kami atau di instalasi global.

pip install scrapy

Untuk studi lebih detail tentang Scrapy Anda dapat mengunjungi tautan Scrapy