Python Web Scraping - Memproses CAPTCHA

Dalam bab ini, mari kita memahami cara melakukan web scraping dan memproses CAPTCHA yang digunakan untuk menguji manusia atau robot pada pengguna.

Apa itu CAPTCHA?

Bentuk lengkap CAPTCHA adalah Completely Automated Public Turing test to tell Computers and Humans Apart, yang dengan jelas menyarankan bahwa ini adalah tes untuk menentukan apakah pengguna itu manusia atau bukan.

CAPTCHA adalah gambar terdistorsi yang biasanya tidak mudah dideteksi oleh program komputer, tetapi manusia dapat memahaminya dengan cara apa pun. Sebagian besar situs web menggunakan CAPTCHA untuk mencegah bot berinteraksi.

Memuat CAPTCHA dengan Python

Misalkan kita ingin melakukan registrasi di website dan ada form dengan CAPTCHA, maka sebelum loading gambar CAPTCHA kita perlu mengetahui informasi spesifik yang dibutuhkan oleh form tersebut. Dengan bantuan script Python selanjutnya kita dapat memahami persyaratan formulir formulir pendaftaran di situs bernamahttp://example.webscrapping.com.

import lxml.html
import urllib.request as urllib2
import pprint
import http.cookiejar as cookielib
def form_parsing(html):
   tree = lxml.html.fromstring(html)
   data = {}
   for e in tree.cssselect('form input'):
      if e.get('name'):
         data[e.get('name')] = e.get('value')
   return data
REGISTER_URL = '<a target="_blank" rel="nofollow" 
   href="http://example.webscraping.com/user/register">http://example.webscraping.com/user/register'</a>
ckj = cookielib.CookieJar()
browser = urllib2.build_opener(urllib2.HTTPCookieProcessor(ckj))
html = browser.open(
   '<a target="_blank" rel="nofollow" 
      href="http://example.webscraping.com/places/default/user/register?_next">
      http://example.webscraping.com/places/default/user/register?_next</a> = /places/default/index'
).read()
form = form_parsing(html)
pprint.pprint(form)

Pada skrip Python di atas, pertama kita mendefinisikan fungsi yang akan mengurai formulir dengan menggunakan modul python lxml dan kemudian akan mencetak persyaratan formulir sebagai berikut -

{
   '_formkey': '5e306d73-5774-4146-a94e-3541f22c95ab',
   '_formname': 'register',
   '_next': '/places/default/index',
   'email': '',
   'first_name': '',
   'last_name': '',
   'password': '',
   'password_two': '',
   'recaptcha_response_field': None
}

Anda dapat memeriksa dari output di atas bahwa semua informasi kecuali recpatcha_response_fielddapat dimengerti dan terus terang. Sekarang pertanyaan yang muncul adalah bagaimana kita dapat menangani informasi yang kompleks ini dan mengunduh CAPTCHA. Ini dapat dilakukan dengan bantuan pustaka Python bantal sebagai berikut;

Paket Bantal Python

Pillow adalah garpu dari pustaka Gambar Python yang memiliki fungsi yang berguna untuk memanipulasi gambar. Itu dapat diinstal dengan bantuan perintah berikut -

pip install pillow

Pada contoh selanjutnya kita akan menggunakannya untuk memuat CAPTCHA -

from io import BytesIO
import lxml.html
from PIL import Image
def load_captcha(html):
   tree = lxml.html.fromstring(html)
   img_data = tree.cssselect('div#recaptcha img')[0].get('src')
   img_data = img_data.partition(',')[-1]
   binary_img_data = img_data.decode('base64')
   file_like = BytesIO(binary_img_data)
   img = Image.open(file_like)
   return img

Skrip python di atas menggunakan pillowpython dan mendefinisikan fungsi untuk memuat gambar CAPTCHA. Ini harus digunakan dengan fungsi bernamaform_parser()yang didefinisikan dalam skrip sebelumnya untuk mendapatkan informasi tentang formulir pendaftaran. Skrip ini akan menyimpan gambar CAPTCHA dalam format yang berguna yang selanjutnya dapat diekstraksi sebagai string.

OCR: Mengekstrak Teks dari Gambar menggunakan Python

Setelah memuat CAPTCHA dalam format yang berguna, kita dapat mengekstraknya dengan bantuan Optical Character Recognition (OCR), proses mengekstrak teks dari gambar. Untuk tujuan ini, kami akan menggunakan mesin OCR Tesseract open source. Itu dapat diinstal dengan bantuan perintah berikut -

pip install pytesseract

Contoh

Di sini kita akan memperluas skrip Python di atas, yang memuat CAPTCHA dengan menggunakan Pillow Python Package, sebagai berikut -

import pytesseract
img = get_captcha(html)
img.save('captcha_original.png')
gray = img.convert('L')
gray.save('captcha_gray.png')
bw = gray.point(lambda x: 0 if x < 1 else 255, '1')
bw.save('captcha_thresholded.png')

Skrip Python di atas akan membaca CAPTCHA dalam mode hitam dan putih yang jelas dan mudah diteruskan ke tesseract sebagai berikut -

pytesseract.image_to_string(bw)

Setelah menjalankan skrip di atas kita akan mendapatkan CAPTCHA formulir pendaftaran sebagai output.