Python - Pandalar
Pandas, güçlü veri yapılarını kullanarak yüksek performanslı veri işleme ve veri analizi için kullanılan açık kaynaklı bir Python Kitaplığıdır. Pandalı Python, Finans, Ekonomi, İstatistik, Reklamcılık, Web Analizi ve daha fazlası dahil olmak üzere çeşitli akademik ve ticari alanlarda kullanılmaktadır. Pandaları kullanarak, verilerin kaynağına bakılmaksızın verilerin işlenmesi ve analizinde beş tipik adımı gerçekleştirebiliriz - verileri yükleme, düzenleme, kullanma, modelleme ve analiz etme.
Aşağıda, özellikle Veri işleme ve Veri analizi çalışmaları için kullanılan Pandaların bazı önemli özellikleri yer almaktadır.
Pandaların Temel Özellikleri
- Varsayılan ve özelleştirilmiş indeksleme ile hızlı ve verimli DataFrame nesnesi.
- Verileri farklı dosya biçimlerinden bellek içi veri nesnelerine yüklemek için araçlar.
- Veri hizalama ve eksik verilerin entegre yönetimi.
- Tarih setlerinin yeniden şekillendirilmesi ve özetlenmesi.
- Büyük veri kümelerinin etiket tabanlı dilimlenmesi, indekslenmesi ve alt kümelenmesi.
- Bir veri yapısındaki sütunlar silinebilir veya eklenebilir.
- Toplama ve dönüşümler için verilere göre gruplayın.
- Verilerin yüksek performanslı birleştirilmesi ve birleştirilmesi.
- Zaman Serisi işlevselliği.
Pandalar aşağıdaki üç veri yapısıyla ilgilenir -
- Series
- DataFrame
Bu veri yapıları, Numpy dizisinin üzerine inşa edilmiştir, bu da onları hızlı ve verimli hale getirir.
Boyut ve Açıklama
Bu veri yapılarını düşünmenin en iyi yolu, yüksek boyutlu veri yapısının, daha düşük boyutlu veri yapısının bir kabı olmasıdır. Örneğin, DataFrame bir Series kapsayıcıdır, Panel bir DataFrame kapsayıcısıdır.
Veri yapısı | Boyutlar | Açıklama |
---|---|---|
Dizi | 1 | 1D etiketli homojen dizi, boyut değişmez. |
Veri Çerçeveleri | 2 | Potansiyel olarak heterojen tipte sütunlara sahip genel 2D etiketli, boyutu değişebilir tablo yapısı. |
DataFrame yaygın olarak kullanılmaktadır ve en önemli veri yapılarıdır.
Dizi
Seri, homojen verilere sahip tek boyutlu dizi benzeri bir yapıdır. Örneğin, aşağıdaki dizi 10, 23, 56,… tam sayılarından oluşan bir koleksiyondur.
10 | 23 | 56 | 17 | 52 | 61 | 73 | 90 | 26 | 72 |
Serinin Önemli Noktaları
- Homojen veriler
- Boyut Değişmez
- Değişken Verilerin Değerleri
Veri çerçevesi
DataFrame, heterojen verilere sahip iki boyutlu bir dizidir. Örneğin,
İsim | Yaş | Cinsiyet | Değerlendirme |
---|---|---|---|
Steve | 32 | Erkek | 3.45 |
Lia | 28 | Kadın | 4.6 |
Vin | 45 | Erkek | 3.9 |
Katie | 38 | Kadın | 2.78 |
Tablo, bir organizasyonun satış ekibinin verilerini genel performans derecelendirmeleriyle temsil eder. Veriler satırlar ve sütunlar halinde temsil edilir. Her sütun bir özniteliği temsil eder ve her satır bir kişiyi temsil eder.
Sütunların Veri Türü
Dört sütunun veri türleri aşağıdaki gibidir -
Sütun | Tür |
---|---|
İsim | Dize |
Yaş | Tamsayı |
Cinsiyet | Dize |
Değerlendirme | Yüzer |
Veri Çerçevesinin Temel Noktaları
- Heterojen veriler
- Boyut Değişebilir
- Veri Değişebilir
Sonraki bölümlerde Veri bilimi çalışmalarında pandalar python kitaplığı kullanımına ilişkin birçok örnek göreceğiz.