Tutorial Sup yang Indah

Dalam tutorial ini, kami akan menunjukkan kepada Anda, bagaimana melakukan web scraping dengan Python menggunakan Beautiful Soup 4 untuk mendapatkan data dari HTML, XML dan bahasa markup lainnya. Dalam hal ini kami akan mencoba menghapus halaman web dari berbagai situs web yang berbeda (termasuk IMDB). Kami akan membahas soup 4 yang indah, alat dasar python untuk menavigasi, mencari, dan mem-parsing halaman web HTML secara efisien dan jelas. Kami telah mencoba untuk mencakup hampir semua fungsi Beautiful Soup 4 dalam tutorial ini. Anda dapat menggabungkan beberapa fungsi yang diperkenalkan dalam tutorial ini ke dalam satu program yang lebih besar untuk menangkap beberapa data yang bermakna dari situs web ke beberapa sub-program lain sebagai masukan.

Tutorial ini pada dasarnya dirancang untuk memandu Anda dalam melakukan scarping pada halaman web. Persyaratan dasar dari semua ini adalah untuk mendapatkan data yang berarti dari kumpulan data yang sangat besar dan tidak terorganisir. Target audiens tutorial ini bisa siapa saja dari:

Siapapun yang ingin tahu - bagaimana cara menghapus halaman web dengan python menggunakan BeautifulSoup 4.
Semua pengembang / penggemar ilmu data atau siapa pun, bagaimana ingin menggunakan data potongan (bermakna) ini ke pustaka ilmu data python yang berbeda untuk membuat keputusan yang lebih baik.

Meskipun TIDAK ada persyaratan wajib yang harus dimiliki untuk tutorial ini. Namun, jika Anda memiliki salah satu atau semua (supercool) pengetahuan sebelumnya tentang teknologi yang disebutkan di bawah ini yang akan menjadi keuntungan tambahan -

Pengetahuan tentang teknologi terkait web (HTML / CSS / Model objek dokumen, dll.).
Bahasa Python (karena itu adalah paket python).
Pengembang yang memiliki pengetahuan mengikis dalam bahasa apa pun sebelumnya.
Pemahaman dasar tentang struktur pohon HTML.