การสอนซุปที่สวยงาม

ในบทช่วยสอนนี้เราจะแสดงวิธีการขูดเว็บใน Python โดยใช้ Beautiful Soup 4 เพื่อดึงข้อมูลออกจาก HTML, XML และภาษามาร์กอัปอื่น ๆ ในนี้เราจะพยายามคัดลอกหน้าเว็บจากเว็บไซต์ต่างๆ (รวมถึง IMDB) เราจะพูดถึงซุป 4 ที่สวยงามเครื่องมือพื้นฐานของงูหลามสำหรับการนำทางค้นหาและแยกวิเคราะห์หน้าเว็บ HTML อย่างมีประสิทธิภาพและชัดเจน เราได้พยายามครอบคลุมฟังก์ชันเกือบทั้งหมดของ Beautiful Soup 4 ในบทช่วยสอนนี้ คุณสามารถรวมฟังก์ชันต่างๆที่แนะนำในบทช่วยสอนนี้ไว้ในโปรแกรมที่ใหญ่กว่าโปรแกรมเดียวเพื่อรวบรวมข้อมูลที่มีความหมายหลายรายการจากเว็บไซต์ไปยังโปรแกรมย่อยอื่น ๆ เพื่อเป็นอินพุต

บทช่วยสอนนี้ออกแบบมาโดยทั่วไปเพื่อแนะนำคุณในการค้นหาหน้าเว็บ ข้อกำหนดพื้นฐานทั้งหมดนี้คือการได้รับข้อมูลที่มีความหมายจากชุดข้อมูลขนาดใหญ่ที่ไม่มีการรวบรวมกัน กลุ่มเป้าหมายของบทช่วยสอนนี้สามารถเป็นใครก็ได้ใน:

  • ใครก็ตามที่ต้องการทราบ - วิธีการขูดหน้าเว็บใน python โดยใช้ BeautifulSoup 4

  • นักพัฒนา / ผู้ที่ชื่นชอบวิทยาศาสตร์ข้อมูลหรือใครก็ตามต้องการใช้ข้อมูลที่คัดลอก (ที่มีความหมาย) นี้ไปยังไลบรารีข้อมูล python data science เพื่อให้ตัดสินใจได้ดีขึ้น

แม้ว่าจะไม่มีข้อกำหนดบังคับสำหรับบทช่วยสอนนี้ อย่างไรก็ตามหากคุณมีความรู้ก่อนหน้านี้ (supercool) เกี่ยวกับเทคโนโลยีที่กล่าวถึงด้านล่างซึ่งจะเป็นข้อได้เปรียบเพิ่มเติม -

  • ความรู้เกี่ยวกับเทคโนโลยีที่เกี่ยวข้องกับเว็บ (HTML / CSS / Document Object Model เป็นต้น)

  • ภาษา Python (เนื่องจากเป็นแพ็คเกจ python)

  • นักพัฒนาที่มีความรู้เกี่ยวกับการคัดลอกในภาษาใด ๆ มาก่อน

  • ความเข้าใจพื้นฐานเกี่ยวกับโครงสร้างต้นไม้ HTML