Python Pandas - Data Kategorikal

Seringkali dalam waktu nyata, data menyertakan kolom teks, yang berulang. Fitur seperti jenis kelamin, negara, dan kode selalu berulang. Ini adalah contoh untuk data kategorikal.

Variabel kategoris hanya dapat menggunakan sejumlah nilai yang mungkin terbatas dan biasanya tetap. Selain panjang tetap, data kategori mungkin memiliki urutan tetapi tidak dapat melakukan operasi numerik. Kategorikal adalah tipe data Pandas.

Tipe data kategoris berguna dalam kasus berikut -

  • Variabel string yang hanya terdiri dari beberapa nilai berbeda. Mengubah variabel string seperti itu menjadi variabel kategori akan menghemat sebagian memori.

  • Urutan leksikal variabel tidak sama dengan urutan logis (“satu”, “dua”, “tiga”). Dengan mengonversi ke kategori dan menentukan urutan pada kategori, pengurutan dan min / max akan menggunakan urutan logis, bukan urutan leksikal.

  • Sebagai sinyal bagi pustaka python lain bahwa kolom ini harus diperlakukan sebagai variabel kategori (mis. Untuk menggunakan metode statistik atau jenis plot yang sesuai).

Pembuatan Objek

Objek kategoris dapat dibuat dengan berbagai cara. Berbagai cara telah dijelaskan di bawah ini -

kategori

Dengan menetapkan dtype sebagai "kategori" dalam pembuatan objek panda.

import pandas as pd

s = pd.Series(["a","b","c","a"], dtype="category")
print s

Nya output adalah sebagai berikut -

0  a
1  b
2  c
3  a
dtype: category
Categories (3, object): [a, b, c]

Jumlah elemen yang diteruskan ke objek seri ada empat, tetapi kategorinya hanya tiga. Amati hal yang sama di Kategori keluaran.

pd. Kategorikal

Menggunakan konstruktor Categorical pandas standar, kita dapat membuat objek kategori.

pandas.Categorical(values, categories, ordered)

Mari kita ambil contoh -

import pandas as pd

cat = pd.Categorical(['a', 'b', 'c', 'a', 'b', 'c'])
print cat

Nya output adalah sebagai berikut -

[a, b, c, a, b, c]
Categories (3, object): [a, b, c]

Mari kita lihat contoh lain -

import pandas as pd

cat = cat=pd.Categorical(['a','b','c','a','b','c','d'], ['c', 'b', 'a'])
print cat

Nya output adalah sebagai berikut -

[a, b, c, a, b, c, NaN]
Categories (3, object): [c, b, a]

Di sini, argumen kedua menandakan kategori. Dengan demikian, nilai apa pun yang tidak ada dalam kategori akan diperlakukan sebagaiNaN.

Sekarang, lihat contoh berikut -

import pandas as pd

cat = cat=pd.Categorical(['a','b','c','a','b','c','d'], ['c', 'b', 'a'],ordered=True)
print cat

Nya output adalah sebagai berikut -

[a, b, c, a, b, c, NaN]
Categories (3, object): [c < b < a]

Secara logis, urutan berarti, a lebih besar dari b dan b lebih besar dari c.

Deskripsi

Menggunakan .describe() perintah pada data kategorikal, kami mendapatkan output yang mirip dengan a Series atau DataFrame dari type tali.

import pandas as pd
import numpy as np

cat = pd.Categorical(["a", "c", "c", np.nan], categories=["b", "a", "c"])
df = pd.DataFrame({"cat":cat, "s":["a", "c", "c", np.nan]})

print df.describe()
print df["cat"].describe()

Nya output adalah sebagai berikut -

cat s
count    3 3
unique   2 2
top      c c
freq     2 2
count     3
unique    2
top       c
freq      2
Name: cat, dtype: object

Dapatkan Properti Kategori

obj.cat.categories perintah digunakan untuk mendapatkan categories of the object.

import pandas as pd
import numpy as np

s = pd.Categorical(["a", "c", "c", np.nan], categories=["b", "a", "c"])
print s.categories

Nya output adalah sebagai berikut -

Index([u'b', u'a', u'c'], dtype='object')

obj.ordered perintah digunakan untuk mendapatkan urutan objek.

import pandas as pd
import numpy as np

cat = pd.Categorical(["a", "c", "c", np.nan], categories=["b", "a", "c"])
print cat.ordered

Nya output adalah sebagai berikut -

False

Fungsi kembali false karena kami belum menentukan pesanan apa pun.

Mengganti Nama Kategori

Mengganti nama kategori dilakukan dengan menetapkan nilai baru ke series.cat.categoriesseries.cat.categories.

import pandas as pd

s = pd.Series(["a","b","c","a"], dtype="category")
s.cat.categories = ["Group %s" % g for g in s.cat.categories]
print s.cat.categories

Nya output adalah sebagai berikut -

Index([u'Group a', u'Group b', u'Group c'], dtype='object')

Kategori awal [a,b,c] diperbarui oleh s.cat.categories properti objek.

Menambahkan Kategori Baru

Dengan menggunakan metode Categorical.add.categories (), kategori baru dapat ditambahkan.

import pandas as pd

s = pd.Series(["a","b","c","a"], dtype="category")
s = s.cat.add_categories([4])
print s.cat.categories

Nya output adalah sebagai berikut -

Index([u'a', u'b', u'c', 4], dtype='object')

Menghapus Kategori

Menggunakan Categorical.remove_categories() metode, kategori yang tidak diinginkan dapat dihapus.

import pandas as pd

s = pd.Series(["a","b","c","a"], dtype="category")
print ("Original object:")
print s

print ("After removal:")
print s.cat.remove_categories("a")

Nya output adalah sebagai berikut -

Original object:
0  a
1  b
2  c
3  a
dtype: category
Categories (3, object): [a, b, c]

After removal:
0  NaN
1  b
2  c
3  NaN
dtype: category
Categories (2, object): [b, c]

Perbandingan Data Kategorikal

Membandingkan data kategorikal dengan objek lain dimungkinkan dalam tiga kasus -

  • membandingkan persamaan (== dan! =) ke objek seperti daftar (daftar, Seri, larik, ...) dengan panjang yang sama dengan data kategori.

  • semua perbandingan (==,! =,>,> =, <, dan <=) data kategorikal ke Seri kategorikal lain, jika diurutkan == True dan kategorinya sama.

  • semua perbandingan data kategorikal dengan skalar.

Lihat contoh berikut -

import pandas as pd

cat = pd.Series([1,2,3]).astype("category", categories=[1,2,3], ordered=True)
cat1 = pd.Series([2,2,2]).astype("category", categories=[1,2,3], ordered=True)

print cat>cat1

Nya output adalah sebagai berikut -

0  False
1  False
2  True
dtype: bool