Pythonパンダ-カテゴリデータ
多くの場合、リアルタイムで、データには繰り返しのテキスト列が含まれます。性別、国、コードなどの機能は常に繰り返されます。これらは、カテゴリーデータの例です。
カテゴリ変数は、限られた数の可能な値のみをとることができます。固定長の他に、カテゴリデータには順序がある場合がありますが、数値演算を実行することはできません。カテゴリカルはパンダのデータ型です。
カテゴリカルデータ型は、次の場合に役立ちます-
いくつかの異なる値のみで構成される文字列変数。このような文字列変数をカテゴリ変数に変換すると、メモリを節約できます。
変数の辞書式順序は、論理順序(「1」、「2」、「3」)と同じではありません。カテゴリに変換し、カテゴリの順序を指定することにより、並べ替えと最小/最大は辞書式順序ではなく論理順序を使用します。
この列をカテゴリ変数として扱う必要があることを他のPythonライブラリに通知するため(たとえば、適切な統計手法やプロットタイプを使用するため)。
オブジェクトの作成
カテゴリカルオブジェクトは、複数の方法で作成できます。さまざまな方法を以下に説明します-
カテゴリー
pandasオブジェクトの作成でdtypeを「category」として指定する。
import pandas as pd
s = pd.Series(["a","b","c","a"], dtype="category")
print s
その output 次のとおりです-
0 a
1 b
2 c
3 a
dtype: category
Categories (3, object): [a, b, c]
シリーズオブジェクトに渡される要素の数は4つですが、カテゴリは3つだけです。出力カテゴリでも同じことを確認してください。
pd.Categorical
標準のパンダカテゴリカルコンストラクターを使用して、カテゴリオブジェクトを作成できます。
pandas.Categorical(values, categories, ordered)
例を見てみましょう-
import pandas as pd
cat = pd.Categorical(['a', 'b', 'c', 'a', 'b', 'c'])
print cat
その output 次のとおりです-
[a, b, c, a, b, c]
Categories (3, object): [a, b, c]
別の例を見てみましょう-
import pandas as pd
cat = cat=pd.Categorical(['a','b','c','a','b','c','d'], ['c', 'b', 'a'])
print cat
その output 次のとおりです-
[a, b, c, a, b, c, NaN]
Categories (3, object): [c, b, a]
ここで、2番目の引数はカテゴリを示します。したがって、カテゴリに存在しない値は次のように扱われます。NaN。
ここで、次の例を見てください-
import pandas as pd
cat = cat=pd.Categorical(['a','b','c','a','b','c','d'], ['c', 'b', 'a'],ordered=True)
print cat
その output 次のとおりです-
[a, b, c, a, b, c, NaN]
Categories (3, object): [c < b < a]
論理的には、順序は次のことを意味します。 a より大きい b そして b より大きい c。
説明
を使用して .describe() カテゴリカルデータに対するコマンドを実行すると、次のような出力が得られます。 Series または DataFrame の type ストリング。
import pandas as pd
import numpy as np
cat = pd.Categorical(["a", "c", "c", np.nan], categories=["b", "a", "c"])
df = pd.DataFrame({"cat":cat, "s":["a", "c", "c", np.nan]})
print df.describe()
print df["cat"].describe()
その output 次のとおりです-
cat s
count 3 3
unique 2 2
top c c
freq 2 2
count 3
unique 2
top c
freq 2
Name: cat, dtype: object
カテゴリのプロパティを取得する
obj.cat.categories コマンドを使用して、 categories of the object。
import pandas as pd
import numpy as np
s = pd.Categorical(["a", "c", "c", np.nan], categories=["b", "a", "c"])
print s.categories
その output 次のとおりです-
Index([u'b', u'a', u'c'], dtype='object')
obj.ordered コマンドは、オブジェクトの順序を取得するために使用されます。
import pandas as pd
import numpy as np
cat = pd.Categorical(["a", "c", "c", np.nan], categories=["b", "a", "c"])
print cat.ordered
その output 次のとおりです-
False
返された関数 false 順序を指定していないためです。
カテゴリの名前変更
カテゴリの名前変更は、に新しい値を割り当てることによって行われます。 series.cat.categoriesseries.cat.categoriesプロパティ。
import pandas as pd
s = pd.Series(["a","b","c","a"], dtype="category")
s.cat.categories = ["Group %s" % g for g in s.cat.categories]
print s.cat.categories
その output 次のとおりです-
Index([u'Group a', u'Group b', u'Group c'], dtype='object')
初期カテゴリ [a,b,c] によって更新されます s.cat.categories オブジェクトのプロパティ。
新しいカテゴリの追加
Categorical.add.categories()メソッドを使用して、新しいカテゴリを追加できます。
import pandas as pd
s = pd.Series(["a","b","c","a"], dtype="category")
s = s.cat.add_categories([4])
print s.cat.categories
その output 次のとおりです-
Index([u'a', u'b', u'c', 4], dtype='object')
カテゴリの削除
を使用して Categorical.remove_categories() メソッドでは、不要なカテゴリを削除できます。
import pandas as pd
s = pd.Series(["a","b","c","a"], dtype="category")
print ("Original object:")
print s
print ("After removal:")
print s.cat.remove_categories("a")
その output 次のとおりです-
Original object:
0 a
1 b
2 c
3 a
dtype: category
Categories (3, object): [a, b, c]
After removal:
0 NaN
1 b
2 c
3 NaN
dtype: category
Categories (2, object): [b, c]
カテゴリカルデータの比較
カテゴリデータを他のオブジェクトと比較することは、次の3つの場合に可能です。
等式(==および!=)を、カテゴリデータと同じ長さのリストのようなオブジェクト(リスト、シリーズ、配列、...)と比較します。
順序付けされた== Trueでカテゴリが同じ場合の、カテゴリデータと別のカテゴリシリーズとのすべての比較(==、!=、>、> =、<、および<=)。
カテゴリカルデータとスカラーのすべての比較。
次の例を見てください-
import pandas as pd
cat = pd.Series([1,2,3]).astype("category", categories=[1,2,3], ordered=True)
cat1 = pd.Series([2,2,2]).astype("category", categories=[1,2,3], ordered=True)
print cat>cat1
その output 次のとおりです-
0 False
1 False
2 True
dtype: bool