Python-パンダ
Pandasは、強力なデータ構造を使用した高性能のデータ操作とデータ分析に使用されるオープンソースのPythonライブラリです。パンダを使用したPythonは、金融、経済、統計、広告、Web分析など、さまざまな学術および商業分野で使用されています。Pandasを使用すると、データの出所に関係なく、データの処理と分析において、データの読み込み、整理、操作、モデル化、分析という5つの典型的なステップを実行できます。
以下は、特にデータ処理とデータ分析作業に使用されるパンダの重要な機能の一部です。
パンダの主な機能
- デフォルトのカスタマイズされたインデックスを使用した、高速で効率的なDataFrameオブジェクト。
- さまざまなファイル形式からインメモリデータオブジェクトにデータをロードするためのツール。
- データの調整と欠落データの統合処理。
- 日付セットの再形成とピボット。
- 大規模なデータセットのラベルベースのスライス、インデックス作成、サブセット化。
- データ構造の列は削除または挿入できます。
- 集計と変換のためにデータでグループ化します。
- データの高性能なマージと結合。
- 時系列機能。
パンダは次の3つのデータ構造を扱います-
- Series
- DataFrame
これらのデータ構造はNumpyアレイの上に構築されているため、高速で効率的です。
寸法と説明
これらのデータ構造を考える最良の方法は、高次元のデータ構造が低次元のデータ構造のコンテナーであるということです。たとえば、DataFrameはSeriesのコンテナであり、PanelはDataFrameのコンテナです。
データ構造 | 寸法 | 説明 |
---|---|---|
シリーズ | 1 | サイズ不変の1Dラベル付き同種配列。 |
データフレーム | 2 | 不均一に型付けされる可能性のある列を持つ、一般的な2Dラベル付きのサイズ変更可能な表形式の構造。 |
DataFrameは広く使用されており、最も重要なデータ構造です。
シリーズ
シリーズは、同種のデータを持つ構造のような1次元配列です。たとえば、次のシリーズは整数10、23、56、…のコレクションです。
10 | 23 | 56 | 17 | 52 | 61 | 73 | 90 | 26 | 72 |
シリーズの要点
- 均質なデータ
- サイズ不変
- 可変データの値
DataFrame
DataFrameは、異種データを含む2次元配列です。例えば、
名前 | 年齢 | 性別 | 評価 |
---|---|---|---|
スティーブ | 32 | 男性 | 3.45 |
リア | 28 | 女性 | 4.6 |
ヴィン | 45 | 男性 | 3.9 |
ケイティ | 38 | 女性 | 2.78 |
この表は、組織の営業チームのデータと全体的なパフォーマンス評価を表しています。データは行と列で表されます。各列は属性を表し、各行は人を表します。
列のデータ型
4列のデータ型は次のとおりです-
カラム | タイプ |
---|---|
名前 | ストリング |
年齢 | 整数 |
性別 | ストリング |
評価 | 浮く |
データフレームの要点
- 異種データ
- サイズ可変
- データ可変
次の章では、データサイエンスの作業でPythonのパンダライブラリを使用する例をたくさん見ていきます。