Python-パンダ

Pandasは、強力なデータ構造を使用した高性能のデータ操作とデータ分析に使用されるオープンソースのPythonライブラリです。パンダを使用したPythonは、金融、経済、統計、広告、Web分析など、さまざまな学術および商業分野で使用されています。Pandasを使用すると、データの出所に関係なく、データの処理と分析において、データの読み込み、整理、操作、モデル化、分析という5つの典型的なステップを実行できます。

以下は、特にデータ処理とデータ分析作業に使用されるパンダの重要な機能の一部です。

パンダの主な機能

デフォルトのカスタマイズされたインデックスを使用した、高速で効率的なDataFrameオブジェクト。
さまざまなファイル形式からインメモリデータオブジェクトにデータをロードするためのツール。
データの調整と欠落データの統合処理。
日付セットの再形成とピボット。
大規模なデータセットのラベルベースのスライス、インデックス作成、サブセット化。
データ構造の列は削除または挿入できます。
集計と変換のためにデータでグループ化します。
データの高性能なマージと結合。
時系列機能。

パンダは次の3つのデータ構造を扱います-

Series
DataFrame

これらのデータ構造はNumpyアレイの上に構築されているため、高速で効率的です。

寸法と説明

これらのデータ構造を考える最良の方法は、高次元のデータ構造が低次元のデータ構造のコンテナーであるということです。たとえば、DataFrameはSeriesのコンテナであり、PanelはDataFrameのコンテナです。

データ構造	寸法	説明
シリーズ	1	サイズ不変の1Dラベル付き同種配列。
データフレーム	2	不均一に型付けされる可能性のある列を持つ、一般的な2Dラベル付きのサイズ変更可能な表形式の構造。