美しいスープのチュートリアル
このチュートリアルでは、Beautiful Soup 4を使用してPythonでWebスクレイピングを実行し、HTML、XML、およびその他のマークアップ言語からデータを取得する方法を示します。ここでは、さまざまな異なるWebサイト(IMDBを含む)からWebページを廃棄しようとします。HTML Webページを効率的かつ明確にナビゲート、検索、および解析するための美しいスープ4、Pythonの基本ツールについて説明します。このチュートリアルでは、Beautiful Soup4のほぼすべての機能をカバーしようとしました。このチュートリアルで紹介した複数の機能を1つの大きなプログラムに組み合わせて、Webサイトから他のサブプログラムに入力として複数の意味のあるデータを取り込むことができます。
このチュートリアルは、基本的にWebページのスカーピングをガイドするように設計されています。これらすべての基本的な要件は、組織化されていない膨大なデータセットから意味のあるデータを取得することです。このチュートリアルの対象読者は、次のいずれかです。
知りたい人– BeautifulSoup4を使用してPythonでWebページをスクラップする方法。
データサイエンスの開発者/愛好家や誰でも、この削り取られた(意味のある)データをさまざまなPythonデータサイエンスライブラリに使用して、より良い決定を下したいと考えています。
このチュートリアルに必須の要件はありませんが。ただし、以下のテクノロジーに関する(超クールな)事前知識のいずれかまたはすべてを持っている場合は、追加の利点になります-
Web関連のテクノロジー(HTML / CSS /ドキュメントオブジェクトモデルなど)に関する知識。
Python言語(Pythonパッケージであるため)。
任意の言語でのスクレイピングの予備知識がある開発者。
HTMLツリー構造の基本的な理解。