Python Pandas - Fungsi Dasar
Sekarang, kita telah mempelajari tentang tiga Struktur Data Pandas dan cara membuatnya. Kami akan fokus pada objek DataFrame karena pentingnya dalam pemrosesan data waktu nyata dan juga membahas beberapa DataStructures lainnya.
Fungsi Dasar Seri
Sr.No. | Atribut atau Metode & Deskripsi |
---|---|
1 | axes Mengembalikan daftar label sumbu baris |
2 | dtype Mengembalikan tipe objek. |
3 | empty Mengembalikan True jika seri kosong. |
4 | ndim Menampilkan jumlah dimensi data yang mendasari, menurut definisi 1. |
5 | size Mengembalikan jumlah elemen dalam data pokok. |
6 | values Mengembalikan Seri sebagai ndarray. |
7 | head() Menampilkan n baris pertama. |
8 | tail() Mengembalikan n baris terakhir. |
Sekarang mari kita membuat Seri dan melihat semua operasi atribut tabulasi di atas.
Contoh
import pandas as pd
import numpy as np
#Create a series with 100 random numbers
s = pd.Series(np.random.randn(4))
print s
Nya output adalah sebagai berikut -
0 0.967853
1 -0.148368
2 -1.395906
3 -1.758394
dtype: float64
sumbu
Menampilkan daftar label seri.
import pandas as pd
import numpy as np
#Create a series with 100 random numbers
s = pd.Series(np.random.randn(4))
print ("The axes are:")
print s.axes
Nya output adalah sebagai berikut -
The axes are:
[RangeIndex(start=0, stop=4, step=1)]
Hasil di atas adalah format kompak dari daftar nilai dari 0 sampai 5, yaitu [0,1,2,3,4].
kosong
Mengembalikan nilai Boolean yang mengatakan apakah Objek kosong atau tidak. Benar menunjukkan bahwa benda tersebut kosong.
import pandas as pd
import numpy as np
#Create a series with 100 random numbers
s = pd.Series(np.random.randn(4))
print ("Is the Object empty?")
print s.empty
Nya output adalah sebagai berikut -
Is the Object empty?
False
ndim
Mengembalikan jumlah dimensi objek. Menurut definisi, Seri adalah struktur data 1D, jadi ia mengembalikan
import pandas as pd
import numpy as np
#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print s
print ("The dimensions of the object:")
print s.ndim
Nya output adalah sebagai berikut -
0 0.175898
1 0.166197
2 -0.609712
3 -1.377000
dtype: float64
The dimensions of the object:
1
ukuran
Mengembalikan ukuran (panjang) rangkaian.
import pandas as pd
import numpy as np
#Create a series with 4 random numbers
s = pd.Series(np.random.randn(2))
print s
print ("The size of the object:")
print s.size
Nya output adalah sebagai berikut -
0 3.078058
1 -1.207803
dtype: float64
The size of the object:
2
nilai-nilai
Mengembalikan data aktual dalam rangkaian sebagai larik.
import pandas as pd
import numpy as np
#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print s
print ("The actual data series is:")
print s.values
Nya output adalah sebagai berikut -
0 1.787373
1 -0.605159
2 0.180477
3 -0.140922
dtype: float64
The actual data series is:
[ 1.78737302 -0.60515881 0.18047664 -0.1409218 ]
Kepala & Ekor
Untuk melihat sampel kecil dari objek Series atau DataFrame, gunakan metode head () dan tail ().
head() mengembalikan yang pertama nbaris (amati nilai indeks). Jumlah default elemen untuk ditampilkan adalah lima, tetapi Anda dapat memberikan nomor kustom.
import pandas as pd
import numpy as np
#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print ("The original series is:")
print s
print ("The first two rows of the data series:")
print s.head(2)
Nya output adalah sebagai berikut -
The original series is:
0 0.720876
1 -0.765898
2 0.479221
3 -0.139547
dtype: float64
The first two rows of the data series:
0 0.720876
1 -0.765898
dtype: float64
tail() mengembalikan yang terakhir nbaris (amati nilai indeks). Jumlah default elemen untuk ditampilkan adalah lima, tetapi Anda dapat memberikan nomor kustom.
import pandas as pd
import numpy as np
#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print ("The original series is:")
print s
print ("The last two rows of the data series:")
print s.tail(2)
Nya output adalah sebagai berikut -
The original series is:
0 -0.655091
1 -0.881407
2 -0.608592
3 -2.341413
dtype: float64
The last two rows of the data series:
2 -0.608592
3 -2.341413
dtype: float64
Fungsi Dasar DataFrame
Mari kita sekarang memahami apa itu Fungsi Dasar DataFrame. Tabel berikut mencantumkan atribut atau metode penting yang membantu dalam Fungsi Dasar DataFrame.
Sr.No. | Atribut atau Metode & Deskripsi |
---|---|
1 | T Mengubah urutan baris dan kolom. |
2 | axes Mengembalikan daftar dengan label sumbu baris dan label sumbu kolom sebagai satu-satunya anggota. |
3 | dtypes Mengembalikan dtypes di objek ini. |
4 | empty True jika NDFrame kosong seluruhnya [tidak ada item]; jika salah satu sumbu memiliki panjang 0. |
5 | ndim Jumlah sumbu / dimensi larik. |
6 | shape Mengembalikan tupel yang mewakili dimensi DataFrame. |
7 | size Jumlah elemen di NDFrame. |
8 | values Representasi numpy dari NDFrame. |
9 | head() Menampilkan n baris pertama. |
10 | tail() Mengembalikan n baris terakhir. |
Mari kita sekarang membuat DataFrame dan melihat semua bagaimana atribut yang disebutkan di atas beroperasi.
Contoh
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our data series is:")
print df
Nya output adalah sebagai berikut -
Our data series is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
T (Transposisi)
Mengembalikan transposisi DataFrame. Baris dan kolom akan saling bertukar.
import pandas as pd
import numpy as np
# Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
# Create a DataFrame
df = pd.DataFrame(d)
print ("The transpose of the data series is:")
print df.T
Nya output adalah sebagai berikut -
The transpose of the data series is:
0 1 2 3 4 5 6
Age 25 26 25 23 30 29 23
Name Tom James Ricky Vin Steve Smith Jack
Rating 4.23 3.24 3.98 2.56 3.2 4.6 3.8
sumbu
Mengembalikan daftar label sumbu baris dan label sumbu kolom.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Row axis labels and column axis labels are:")
print df.axes
Nya output adalah sebagai berikut -
Row axis labels and column axis labels are:
[RangeIndex(start=0, stop=7, step=1), Index([u'Age', u'Name', u'Rating'],
dtype='object')]
dtypes
Mengembalikan tipe data dari setiap kolom.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("The data types of each column are:")
print df.dtypes
Nya output adalah sebagai berikut -
The data types of each column are:
Age int64
Name object
Rating float64
dtype: object
kosong
Mengembalikan nilai Boolean yang mengatakan apakah Objek kosong atau tidak; Benar menunjukkan bahwa benda tersebut kosong.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Is the object empty?")
print df.empty
Nya output adalah sebagai berikut -
Is the object empty?
False
ndim
Mengembalikan jumlah dimensi objek. Menurut definisi, DataFrame adalah objek 2D.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The dimension of the object is:")
print df.ndim
Nya output adalah sebagai berikut -
Our object is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
The dimension of the object is:
2
bentuk
Mengembalikan tupel yang mewakili dimensi DataFrame. Tuple (a, b), di mana a mewakili jumlah baris danb mewakili jumlah kolom.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The shape of the object is:")
print df.shape
Nya output adalah sebagai berikut -
Our object is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
The shape of the object is:
(7, 3)
ukuran
Mengembalikan jumlah elemen di DataFrame.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The total number of elements in our object is:")
print df.size
Nya output adalah sebagai berikut -
Our object is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
The total number of elements in our object is:
21
nilai-nilai
Mengembalikan data aktual di DataFrame sebagai file NDarray.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The actual data in our data frame is:")
print df.values
Nya output adalah sebagai berikut -
Our object is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
The actual data in our data frame is:
[[25 'Tom' 4.23]
[26 'James' 3.24]
[25 'Ricky' 3.98]
[23 'Vin' 2.56]
[30 'Steve' 3.2]
[29 'Smith' 4.6]
[23 'Jack' 3.8]]
Kepala & Ekor
Untuk melihat sampel kecil objek DataFrame, gunakan head() dan metode tail (). head() mengembalikan yang pertama nbaris (amati nilai indeks). Jumlah default elemen untuk ditampilkan adalah lima, tetapi Anda dapat memberikan nomor kustom.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our data frame is:")
print df
print ("The first two rows of the data frame is:")
print df.head(2)
Nya output adalah sebagai berikut -
Our data frame is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
The first two rows of the data frame is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
tail() mengembalikan yang terakhir nbaris (amati nilai indeks). Jumlah default elemen untuk ditampilkan adalah lima, tetapi Anda dapat memberikan nomor kustom.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our data frame is:")
print df
print ("The last two rows of the data frame is:")
print df.tail(2)
Nya output adalah sebagai berikut -
Our data frame is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
The last two rows of the data frame is:
Age Name Rating
5 29 Smith 4.6
6 23 Jack 3.8