Python - Veri İşlemleri
Python, çeşitli biçimlerdeki verileri başlıca iki kitaplık, Pandas ve Numpy aracılığıyla işler. Bu iki kütüphanenin önemli özelliklerini önceki bölümlerde görmüştük. Bu bölümde, veri üzerinde nasıl çalışılacağına dair her bir kütüphaneden bazı temel örnekler göreceğiz.
Numpy'de Veri İşlemleri
NumPy'de tanımlanan en önemli nesne, ndarray adı verilen N boyutlu bir dizi türüdür. Aynı türden öğelerin koleksiyonunu açıklar. Koleksiyondaki öğelere sıfır tabanlı bir dizin kullanılarak erişilebilir. Ndarray sınıfının bir örneği, öğreticide daha sonra açıklanan farklı dizi oluşturma rutinleri tarafından oluşturulabilir. Temel ndarray, NumPy'de aşağıdaki gibi bir dizi işlevi kullanılarak oluşturulur -
numpy.array
Aşağıda, Numpy Data işleme ile ilgili bazı örnekler verilmiştir.
örnek 1
# more than one dimensions
import numpy as np
a = np.array([[1, 2], [3, 4]])
print a
Çıktı aşağıdaki gibidir -
[[1, 2]
[3, 4]]
Örnek 2
# minimum dimensions
import numpy as np
a = np.array([1, 2, 3,4,5], ndmin = 2)
print a
Çıktı aşağıdaki gibidir -
[[1, 2, 3, 4, 5]]
Örnek 3
# dtype parameter
import numpy as np
a = np.array([1, 2, 3], dtype = complex)
print a
Çıktı aşağıdaki gibidir -
[ 1.+0.j, 2.+0.j, 3.+0.j]
Pandalarda Veri İşlemleri
Pandalar, verileri kullanarak Series,Data Frame, ve Panel. Bunların her birinden bazı örnekler göreceğiz.
Pandalar Serisi
Seri, her türden veriyi (tamsayı, dize, kayan nokta, python nesneleri vb.) Tutabilen tek boyutlu etiketlenmiş bir dizidir. Eksen etiketleri topluca indeks olarak adlandırılır. Aşağıdaki kurucu kullanılarak bir Pandalar Serisi oluşturulabilir -
pandas.Series( data, index, dtype, copy)
Misal
Burada Numpy Array'den bir dizi oluşturuyoruz.
#import the pandas library and aliasing as pd
import pandas as pd
import numpy as np
data = np.array(['a','b','c','d'])
s = pd.Series(data)
print s
Onun output aşağıdaki gibidir -
0 a
1 b
2 c
3 d
dtype: object
Pandas DataFrame
Bir Veri çerçevesi iki boyutlu bir veri yapısıdır, yani veriler satırlar ve sütunlar halinde tablo şeklinde hizalanır. Pandas DataFrame, aşağıdaki yapıcı kullanılarak oluşturulabilir -
pandas.DataFrame( data, index, columns, dtype, copy)
Şimdi dizileri kullanarak indisli bir DataFrame oluşturalım.
import pandas as pd
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data, index=['rank1','rank2','rank3','rank4'])
print df
Onun output aşağıdaki gibidir -
Age Name
rank1 28 Tom
rank2 34 Jack
rank3 29 Steve
rank4 42 Ricky
Pandalar Paneli
Bir panel3B bir veri kabıdır. DönemPanel data ekonometriden türetilmiştir ve kısmen pandalar adından sorumludur - pan(el)-da(ta)-s.
Aşağıdaki yapıcı kullanılarak bir Panel oluşturulabilir -
pandas.Panel(data, items, major_axis, minor_axis, dtype, copy)
Aşağıdaki örnekte, DataFrame Nesnelerinin diktinden bir panel oluşturuyoruz.
#creating an empty panel
import pandas as pd
import numpy as np
data = {'Item1' : pd.DataFrame(np.random.randn(4, 3)),
'Item2' : pd.DataFrame(np.random.randn(4, 2))}
p = pd.Panel(data)
print p
Onun output aşağıdaki gibidir -
<class 'pandas.core.panel.Panel'>
Dimensions: 2 (items) x 4 (major_axis) x 5 (minor_axis)
Items axis: 0 to 1
Major_axis axis: 0 to 3
Minor_axis axis: 0 to 4