Python Web Scraping - Situs Web Dinamis

Dalam bab ini, mari kita pelajari cara melakukan web scraping di situs web dinamis dan konsep yang terlibat secara mendetail.

pengantar

Scraping web adalah tugas yang kompleks dan kerumitannya berlipat ganda jika situs web dinamis. Menurut Audit Global PBB atas Aksesibilitas Web, lebih dari 70% situs web bersifat dinamis dan mereka mengandalkan JavaScript untuk fungsinya.

Contoh Situs Web Dinamis

Mari kita lihat contoh situs web dinamis dan ketahui mengapa sulit untuk dikikis. Di sini kita akan mengambil contoh pencarian dari situs web bernamahttp://example.webscraping.com/places/default/search.Tetapi bagaimana kita dapat mengatakan bahwa situs web ini bersifat dinamis? Itu dapat dinilai dari keluaran skrip Python berikut yang akan mencoba mengikis data dari halaman web yang disebutkan di atas -

import re
import urllib.request
response = urllib.request.urlopen('http://example.webscraping.com/places/default/search')
html = response.read()
text = html.decode()
re.findall('(.*?)',text)

Keluaran

[ ]

Keluaran di atas menunjukkan bahwa scraper contoh gagal mengekstrak informasi karena elemen <div> yang kami coba temukan kosong.

Pendekatan untuk Mengikis data dari Situs Web Dinamis

Kita telah melihat bahwa scraper tidak dapat mengikis informasi dari situs web dinamis karena data dimuat secara dinamis dengan JavaScript. Dalam kasus seperti itu, kita dapat menggunakan dua teknik berikut untuk mengambil data dari situs web yang bergantung pada JavaScript dinamis -

  • Rekayasa Balik JavaScript
  • Merender JavaScript

Rekayasa Balik JavaScript

Proses yang disebut rekayasa balik akan berguna dan memungkinkan kita memahami bagaimana data dimuat secara dinamis oleh halaman web.

Untuk melakukan ini, kita perlu mengklik inspect elementtab untuk URL tertentu. Selanjutnya kita akan klikNETWORK tab untuk menemukan semua permintaan yang dibuat untuk halaman web itu termasuk search.json dengan jalur /ajax. Alih-alih mengakses data AJAX dari browser atau melalui tab JARINGAN, kita dapat melakukannya dengan bantuan mengikuti skrip Python juga -

import requests
url=requests.get('http://example.webscraping.com/ajax/search.json?page=0&page_size=10&search_term=a')
url.json()

Contoh

Skrip di atas memungkinkan kita untuk mengakses respon JSON dengan menggunakan metode Python json. Demikian pula kita dapat mengunduh respons string mentah dan dengan menggunakan metode json.loads python, kita dapat memuatnya juga. Kami melakukan ini dengan bantuan mengikuti skrip Python. Ini pada dasarnya akan mengikis semua negara dengan mencari huruf alfabet 'a' dan kemudian mengulang halaman yang dihasilkan dari tanggapan JSON.

import requests
import string
PAGE_SIZE = 15
url = 'http://example.webscraping.com/ajax/' + 'search.json?page={}&page_size={}&search_term=a'
countries = set()
for letter in string.ascii_lowercase:
   print('Searching with %s' % letter)
   page = 0
   while True:
   response = requests.get(url.format(page, PAGE_SIZE, letter))
   data = response.json()
   print('adding %d records from the page %d' %(len(data.get('records')),page))
   for record in data.get('records'):countries.add(record['country'])
   page += 1
   if page >= data['num_pages']:
      break
   with open('countries.txt', 'w') as countries_file:
   countries_file.write('n'.join(sorted(countries)))

Setelah menjalankan skrip di atas, kita akan mendapatkan output berikut dan catatan akan disimpan dalam file bernama countries.txt.

Keluaran

Searching with a
adding 15 records from the page 0
adding 15 records from the page 1
...

Merender JavaScript

Di bagian sebelumnya, kami melakukan rekayasa balik pada halaman web bahwa cara kerja API dan bagaimana kami dapat menggunakannya untuk mengambil hasil dalam satu permintaan. Namun, kami dapat menghadapi kesulitan berikut saat melakukan rekayasa balik -

  • Terkadang situs web bisa sangat sulit. Misalnya, jika situs web dibuat dengan alat peramban canggih seperti Google Web Toolkit (GWT), maka kode JS yang dihasilkan akan dibuat oleh mesin dan sulit dipahami serta direkayasa balik.

  • Beberapa kerangka kerja tingkat yang lebih tinggi seperti React.js dapat mempersulit rekayasa balik dengan mengabstraksi logika JavaScript yang sudah kompleks.

Solusi untuk kesulitan di atas adalah dengan menggunakan mesin rendering browser yang mengurai HTML, menerapkan pemformatan CSS, dan menjalankan JavaScript untuk menampilkan halaman web.

Contoh

Dalam contoh ini, untuk merender Java Script kita akan menggunakan modul Python Selenium yang sudah dikenal. Kode Python berikut akan membuat halaman web dengan bantuan Selenium -

Pertama, kita perlu mengimpor webdriver dari selenium sebagai berikut -

from selenium import webdriver

Sekarang, berikan jalur driver web yang telah kami unduh sesuai kebutuhan kami -

path = r'C:\\Users\\gaurav\\Desktop\\Chromedriver'
driver = webdriver.Chrome(executable_path = path)

Sekarang, sediakan url yang ingin kita buka di browser web yang sekarang dikontrol oleh skrip Python kita.

driver.get('http://example.webscraping.com/search')

Sekarang, kita dapat menggunakan ID dari kotak alat pencarian untuk mengatur elemen yang akan dipilih.

driver.find_element_by_id('search_term').send_keys('.')

Selanjutnya, kita dapat menggunakan java script untuk mengatur konten kotak pilih sebagai berikut -

js = "document.getElementById('page_size').options[1].text = '100';"
driver.execute_script(js)

Baris kode berikut menunjukkan bahwa pencarian siap untuk diklik di halaman web -

driver.find_element_by_id('search').click()

Baris kode berikutnya menunjukkan bahwa ia akan menunggu selama 45 detik untuk menyelesaikan permintaan AJAX.

driver.implicitly_wait(45)

Sekarang, untuk memilih tautan negara, kita dapat menggunakan pemilih CSS sebagai berikut -

links = driver.find_elements_by_css_selector('#results a')

Sekarang teks dari setiap tautan dapat diekstraksi untuk membuat daftar negara -

countries = [link.text for link in links]
print(countries)
driver.close()