Python Pandas - Kategorik Veriler

Genellikle gerçek zamanlı olarak veriler, tekrar eden metin sütunlarını içerir. Cinsiyet, ülke ve kodlar gibi özellikler her zaman tekrarlanır. Bunlar kategorik veriler için örneklerdir.

Kategorik değişkenler yalnızca sınırlı ve genellikle sabit sayıda olası değer alabilir. Sabit uzunluğun yanı sıra, kategorik veriler bir sıraya sahip olabilir ancak sayısal işlem gerçekleştiremez. Kategorik, Pandalar veri türüdür.

Kategorik veri türü aşağıdaki durumlarda kullanışlıdır -

  • Yalnızca birkaç farklı değerden oluşan bir dize değişkeni. Böyle bir dizgi değişkenini kategorik bir değişkene dönüştürmek hafızada bir miktar tasarruf sağlayacaktır.

  • Bir değişkenin sözlü sıralaması mantıksal sıra ile aynı değildir ("bir", "iki", "üç"). Kategoriye dönüştürerek ve kategoriler üzerinde bir sıralama belirleyerek, sıralama ve min / maks, sözcük düzeni yerine mantıksal sıralamayı kullanacaktır.

  • Diğer python kitaplıklarına, bu sütunun kategorik bir değişken olarak ele alınması gerektiğine dair bir sinyal olarak (örneğin, uygun istatistiksel yöntemleri veya çizim türlerini kullanmak için).

Nesne Oluşturma

Kategorik nesne birden çok yolla oluşturulabilir. Farklı yollar aşağıda açıklanmıştır -

kategori

Pandalar nesne oluştururken dtype'ı "kategori" olarak belirterek.

import pandas as pd

s = pd.Series(["a","b","c","a"], dtype="category")
print s

Onun output aşağıdaki gibidir -

0  a
1  b
2  c
3  a
dtype: category
Categories (3, object): [a, b, c]

Seri nesnesine aktarılan öğelerin sayısı dörttür, ancak kategoriler yalnızca üçtür. Aynı şeyi çıktı kategorilerinde de gözlemleyin.

pd. Kategorik

Standart pandalar Categorical yapıcısını kullanarak bir kategori nesnesi oluşturabiliriz.

pandas.Categorical(values, categories, ordered)

Bir örnek alalım -

import pandas as pd

cat = pd.Categorical(['a', 'b', 'c', 'a', 'b', 'c'])
print cat

Onun output aşağıdaki gibidir -

[a, b, c, a, b, c]
Categories (3, object): [a, b, c]

Başka bir örnek verelim -

import pandas as pd

cat = cat=pd.Categorical(['a','b','c','a','b','c','d'], ['c', 'b', 'a'])
print cat

Onun output aşağıdaki gibidir -

[a, b, c, a, b, c, NaN]
Categories (3, object): [c, b, a]

Burada ikinci argüman kategorileri belirtir. Bu nedenle, kategorilerde bulunmayan herhangi bir değer,NaN.

Şimdi, aşağıdaki örneğe bir göz atın -

import pandas as pd

cat = cat=pd.Categorical(['a','b','c','a','b','c','d'], ['c', 'b', 'a'],ordered=True)
print cat

Onun output aşağıdaki gibidir -

[a, b, c, a, b, c, NaN]
Categories (3, object): [c < b < a]

Mantıksal olarak, sipariş şu anlama gelir: a daha büyüktür b ve b daha büyüktür c.

Açıklama

Kullanmak .describe() kategorik verilerdeki komuta benzer bir çıktı elde ederiz. Series veya DataFrame of type dize.

import pandas as pd
import numpy as np

cat = pd.Categorical(["a", "c", "c", np.nan], categories=["b", "a", "c"])
df = pd.DataFrame({"cat":cat, "s":["a", "c", "c", np.nan]})

print df.describe()
print df["cat"].describe()

Onun output aşağıdaki gibidir -

cat s
count    3 3
unique   2 2
top      c c
freq     2 2
count     3
unique    2
top       c
freq      2
Name: cat, dtype: object

Kategorinin Özelliklerini Alın

obj.cat.categories komutu almak için kullanılır categories of the object.

import pandas as pd
import numpy as np

s = pd.Categorical(["a", "c", "c", np.nan], categories=["b", "a", "c"])
print s.categories

Onun output aşağıdaki gibidir -

Index([u'b', u'a', u'c'], dtype='object')

obj.ordered komutu nesnenin sırasını almak için kullanılır.

import pandas as pd
import numpy as np

cat = pd.Categorical(["a", "c", "c", np.nan], categories=["b", "a", "c"])
print cat.ordered

Onun output aşağıdaki gibidir -

False

İşlev döndürüldü false çünkü herhangi bir sipariş belirtmedik.

Kategorileri Yeniden Adlandırma

Kategorilerin yeniden adlandırılması, yeni değerler atanarak yapılır. series.cat.categoriesseries.cat.categories özelliği.

import pandas as pd

s = pd.Series(["a","b","c","a"], dtype="category")
s.cat.categories = ["Group %s" % g for g in s.cat.categories]
print s.cat.categories

Onun output aşağıdaki gibidir -

Index([u'Group a', u'Group b', u'Group c'], dtype='object')

İlk kategoriler [a,b,c] tarafından güncellenir s.cat.categories nesnenin özelliği.

Yeni Kategoriler Ekleme

Categorical.add.categories () yöntemi kullanılarak yeni kategoriler eklenebilir.

import pandas as pd

s = pd.Series(["a","b","c","a"], dtype="category")
s = s.cat.add_categories([4])
print s.cat.categories

Onun output aşağıdaki gibidir -

Index([u'a', u'b', u'c', 4], dtype='object')

Kategorileri Kaldırma

Kullanmak Categorical.remove_categories() yöntemi, istenmeyen kategoriler kaldırılabilir.

import pandas as pd

s = pd.Series(["a","b","c","a"], dtype="category")
print ("Original object:")
print s

print ("After removal:")
print s.cat.remove_categories("a")

Onun output aşağıdaki gibidir -

Original object:
0  a
1  b
2  c
3  a
dtype: category
Categories (3, object): [a, b, c]

After removal:
0  NaN
1  b
2  c
3  NaN
dtype: category
Categories (2, object): [b, c]

Kategorik Verilerin Karşılaştırılması

Kategorik verileri diğer nesnelerle karşılaştırmak üç durumda mümkündür -

  • eşitliği (== ve! =) kategorik verilerle aynı uzunluktaki liste benzeri bir nesneyle (liste, Seri, dizi, ...) karşılaştırmak.

  • kategorik verilerin tüm karşılaştırmaları (==,! =,>,> =, <ve <=) başka bir kategorik Seriyle, sipariş edildiğinde == Doğru ve kategoriler aynıdır.

  • kategorik bir verinin bir skaler ile tüm karşılaştırmaları.

Aşağıdaki örneğe bir göz atın -

import pandas as pd

cat = pd.Series([1,2,3]).astype("category", categories=[1,2,3], ordered=True)
cat1 = pd.Series([2,2,2]).astype("category", categories=[1,2,3], ordered=True)

print cat>cat1

Onun output aşağıdaki gibidir -

0  False
1  False
2  True
dtype: bool