Piękny samouczek zupy

W tym samouczku pokażemy, jak wykonać skrobanie stron internetowych w Pythonie przy użyciu Beautiful Soup 4, aby uzyskać dane z HTML, XML i innych języków znaczników. W tym celu spróbujemy usunąć strony internetowe z różnych witryn (w tym z IMDB). Omówimy piękną zupę 4, podstawowe narzędzia Pythona do wydajnej i przejrzystej nawigacji, wyszukiwania i analizowania stron HTML. W tym samouczku próbowaliśmy omówić prawie wszystkie funkcje Beautiful Soup 4. Możesz połączyć wiele funkcji przedstawionych w tym samouczku w jeden większy program, aby przechwycić wiele znaczących danych ze strony internetowej do innego podprogramu jako dane wejściowe.

Ten samouczek jest zasadniczo zaprojektowany, aby poprowadzić Cię przez scarowanie strony internetowej. Podstawowym wymaganiem tego wszystkiego jest uzyskanie znaczących danych z ogromnego, niezorganizowanego zbioru danych. Docelowymi odbiorcami tego samouczka mogą być:

Każdy, kto chce wiedzieć - jak zeskrobać stronę w Pythonie za pomocą BeautifulSoup 4.
Każdy programista / entuzjasta nauki o danych lub ktokolwiek, jak chce wykorzystać te zeskrobane (znaczące) dane do różnych bibliotek nauki danych Pythona, aby podjąć lepszą decyzję.

Chociaż NIE ma obowiązkowego wymogu posiadania tego samouczka. Jeśli jednak masz jakąkolwiek lub całą (superfajną) wiedzę na temat którejkolwiek z poniższych technologii, będzie to dodatkowa zaleta -

Znajomość wszelkich technologii internetowych (HTML / CSS / model obiektów dokumentu itp.).
Język Python (ponieważ jest to pakiet pythona).
Programiści, którzy mają wcześniejszą wiedzę na temat skrobania w dowolnym języku.
Podstawowe rozumienie struktury drzewa HTML.