Güzel Çorba Eğitimi

Bu eğitimde, HTML, XML ve diğer biçimlendirme dillerinden veri almak için Beautiful Soup 4 kullanarak Python'da web kazımasının nasıl gerçekleştirileceğini göstereceğiz. Bu konuda, çeşitli farklı web sitelerinden (IMDB dahil) web sayfasını çıkarmaya çalışacağız. HTML web sayfasında etkili ve net bir şekilde gezinmek, arama yapmak ve ayrıştırmak için temel python araçları olan güzel çorba 4'ü ele alacağız. Bu eğitimde Beautiful Soup 4'ün neredeyse tüm işlevlerini ele almaya çalıştık. Web sitesinden girdi olarak başka bir alt programa birden çok anlamlı veri yakalamak için bu öğreticide tanıtılan birden fazla işlevi daha büyük bir programda birleştirebilirsiniz.

Bu eğitim, temel olarak bir web sayfasını kazımak için size rehberlik etmek için tasarlanmıştır. Tüm bunların temel gerekliliği, organize edilmemiş devasa veri kümesinden anlamlı veriler elde etmektir. Bu eğitimin hedef kitlesi şunlardan herhangi biri olabilir:

  • Bilmek isteyen herkes - BeautifulSoup 4 kullanarak python'da web sayfasını nasıl hurdaya çıkarır.

  • Herhangi bir veri bilimi geliştiricisi / meraklısı veya herhangi biri, daha iyi kararlar vermek için bu kazınmış (anlamlı) verileri farklı python veri bilimi kitaplıklarında nasıl kullanmak ister.

Bu eğitim için sahip olmak için HİÇBİR zorunlu gereklilik olmamasına rağmen. Bununla birlikte, aşağıda belirtilen teknolojiler hakkında herhangi bir veya tüm (süper soğutma) önceden bilginiz varsa, bu ek bir avantaj olacaktır -

  • Web ile ilgili teknolojiler hakkında bilgi (HTML / CSS / Belge nesne Modeli vb.).

  • Python Dili (python paketi olduğu gibi).

  • Herhangi bir dilde önceden herhangi bir kazıma bilgisi olan geliştiriciler.

  • HTML ağaç yapısının temel anlayışı.