Python Web Scraping - Ekstraksi Data

Menganalisis halaman web berarti memahami strukturnya. Sekarang, muncul pertanyaan mengapa penting untuk web scraping? Dalam bab ini, mari kita pahami hal ini secara mendetail.

Analisis halaman web

Analisis halaman web penting karena tanpa analisis kita tidak dapat mengetahui dalam bentuk mana kita akan menerima data dari (terstruktur atau tidak terstruktur) halaman web tersebut setelah ekstraksi. Kita dapat melakukan analisis halaman web dengan cara berikut -

Melihat Sumber Halaman

Ini adalah cara untuk memahami bagaimana halaman web disusun dengan memeriksa kode sumbernya. Untuk menerapkan ini, kita perlu mengklik kanan halaman tersebut dan kemudian harus memilihView page sourcepilihan. Kemudian, kita akan mendapatkan data yang kita minati dari halaman web tersebut dalam bentuk HTML. Tetapi perhatian utama adalah tentang spasi dan pemformatan yang sulit bagi kami untuk memformat.

Memeriksa Sumber Halaman dengan Mengklik Opsi Elemen Inspeksi

Ini adalah cara lain untuk menganalisis halaman web. Tetapi perbedaannya adalah itu akan menyelesaikan masalah pemformatan dan spasi putih di kode sumber halaman web. Anda dapat menerapkan ini dengan mengklik kanan dan kemudian memilihInspect atau Inspect elementopsi dari menu. Ini akan memberikan informasi tentang area atau elemen tertentu dari halaman web itu.

Berbagai Cara Mengekstrak Data dari Halaman Web

Metode berikut ini banyak digunakan untuk mengekstrak data dari halaman web -

Ekspresi Reguler

Mereka adalah bahasa pemrograman yang sangat terspesialisasi yang tertanam dalam Python. Kita bisa menggunakannyaremodul Python. Ini juga disebut pola RE atau regex atau regex. Dengan bantuan ekspresi reguler, kita dapat menentukan beberapa aturan untuk kumpulan string yang mungkin ingin kita cocokkan dari data.

Jika Anda ingin mempelajari lebih lanjut tentang ekspresi reguler secara umum, buka tautan https://www.tutorialspoint.com/automata_theory/regular_expressions.htmdan jika Anda ingin tahu lebih banyak tentang modul ulang atau ekspresi reguler di Python, Anda dapat mengikuti tautan https://www.tutorialspoint.com/python/python_reg_expressions.htm .

Contoh

Dalam contoh berikut, kami akan mengambil data tentang India dari http://example.webscraping.com setelah mencocokkan konten <td> dengan bantuan ekspresi reguler.

import re
import urllib.request
response =
   urllib.request.urlopen('http://example.webscraping.com/places/default/view/India-102')
html = response.read()
text = html.decode()
re.findall('<td class="w2p_fw">(.*?)</td>',text)

Keluaran

Output yang sesuai akan ditampilkan di sini -

[
   '<img src="/places/static/images/flags/in.png" />',
   '3,287,590 square kilometres',
   '1,173,108,018',
   'IN',
   'India',
   'New Delhi',
   '<a href="/places/default/continent/AS">AS</a>',
   '.in',
   'INR',
   'Rupee',
   '91',
   '######',
   '^(\\d{6})$',
   'enIN,hi,bn,te,mr,ta,ur,gu,kn,ml,or,pa,as,bh,sat,ks,ne,sd,kok,doi,mni,sit,sa,fr,lus,inc',
   '<div>
      <a href="/places/default/iso/CN">CN </a>
      <a href="/places/default/iso/NP">NP </a>
      <a href="/places/default/iso/MM">MM </a>
      <a href="/places/default/iso/BT">BT </a>
      <a href="/places/default/iso/PK">PK </a>
      <a href="/places/default/iso/BD">BD </a>
   </div>'
]

Perhatikan bahwa pada keluaran di atas Anda dapat melihat detail tentang negara India dengan menggunakan ekspresi reguler.

Sup yang Indah

Misalkan kita ingin mengumpulkan semua hyperlink dari suatu halaman web, maka kita dapat menggunakan parser bernama BeautifulSoup yang dapat diketahui lebih detail di https://www.crummy.com/software/BeautifulSoup/bs4/doc/.Dengan kata sederhana, BeautifulSoup adalah pustaka Python untuk menarik data dari file HTML dan XML. Ini dapat digunakan dengan permintaan, karena membutuhkan input (dokumen atau url) untuk membuat objek sup karena tidak dapat mengambil halaman web dengan sendirinya. Anda dapat menggunakan skrip Python berikut untuk mengumpulkan judul halaman web dan hyperlink.

Memasang Beautiful Soup

Menggunakan pip perintah, kita dapat menginstal beautifulsoup baik di lingkungan virtual kami atau di instalasi global.

(base) D:\ProgramData>pip install bs4
Collecting bs4
   Downloading
https://files.pythonhosted.org/packages/10/ed/7e8b97591f6f456174139ec089c769f89
a94a1a4025fe967691de971f314/bs4-0.0.1.tar.gz
Requirement already satisfied: beautifulsoup4 in d:\programdata\lib\sitepackages
(from bs4) (4.6.0)
Building wheels for collected packages: bs4
   Running setup.py bdist_wheel for bs4 ... done
   Stored in directory:
C:\Users\gaurav\AppData\Local\pip\Cache\wheels\a0\b0\b2\4f80b9456b87abedbc0bf2d
52235414c3467d8889be38dd472
Successfully built bs4
Installing collected packages: bs4
Successfully installed bs4-0.0.1

Contoh

Perhatikan bahwa dalam contoh ini, kami memperluas contoh di atas yang diimplementasikan dengan modul request python. kami menggunakanr.text untuk membuat objek sup yang selanjutnya akan digunakan untuk mengambil detail seperti judul halaman web.

Pertama, kita perlu mengimpor modul Python yang diperlukan -

import requests
from bs4 import BeautifulSoup

Di baris kode berikut ini kami menggunakan permintaan untuk membuat permintaan HTTP GET untuk url: https://authoraditiagarwal.com/ dengan membuat permintaan GET.

r = requests.get('https://authoraditiagarwal.com/')

Sekarang kita perlu membuat objek Soup sebagai berikut -

soup = BeautifulSoup(r.text, 'lxml')
print (soup.title)
print (soup.title.text)

Keluaran

Output yang sesuai akan ditampilkan di sini -

<title>Learn and Grow with Aditi Agarwal</title>
Learn and Grow with Aditi Agarwal

Lxml

Library Python lain yang akan kita diskusikan untuk web scraping adalah lxml. Ini adalah pustaka parsing HTML dan XML berkinerja tinggi. Ini relatif cepat dan mudah. Anda dapat membacanya lebih lanjut dihttps://lxml.de/.

Menginstal lxml

Dengan menggunakan perintah pip, kita dapat menginstal lxml baik di lingkungan virtual kami atau di instalasi global.

(base) D:\ProgramData>pip install lxml
Collecting lxml
   Downloading
https://files.pythonhosted.org/packages/b9/55/bcc78c70e8ba30f51b5495eb0e
3e949aa06e4a2de55b3de53dc9fa9653fa/lxml-4.2.5-cp36-cp36m-win_amd64.whl
(3.
6MB)
   100% |¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦| 3.6MB 64kB/s
Installing collected packages: lxml
Successfully installed lxml-4.2.5

Contoh: Ekstraksi data menggunakan lxml dan request

Dalam contoh berikut, kami mengambil elemen tertentu dari laman web dari authoraditiagarwal.com dengan menggunakan lxml dan request -

Pertama, kita perlu mengimpor permintaan dan html dari pustaka lxml sebagai berikut -

import requests
from lxml import html

Sekarang kita perlu menyediakan url halaman web ke memo

url = 'https://authoraditiagarwal.com/leadershipmanagement/'

Sekarang kita perlu menyediakan jalannya (Xpath) ke elemen tertentu dari halaman web itu -

path = '//*[@id="panel-836-0-0-1"]/div/div/p[1]'
response = requests.get(url)
byte_string = response.content
source_code = html.fromstring(byte_string)
tree = source_code.xpath(path)
print(tree[0].text_content())

Keluaran

Output yang sesuai akan ditampilkan di sini -

The Sprint Burndown or the Iteration Burndown chart is a powerful tool to communicate
daily progress to the stakeholders. It tracks the completion of work for a given sprint
or an iteration. The horizontal axis represents the days within a Sprint. The vertical 
axis represents the hours remaining to complete the committed work.