Python - Pandy

Pandas to biblioteka Python typu open source używana do wydajnej manipulacji danymi i analizy danych przy użyciu jej potężnych struktur danych. Python z pandami jest używany w różnych dziedzinach akademickich i komercyjnych, takich jak finanse, ekonomia, statystyka, reklama, analityka internetowa i nie tylko. Korzystając z Pandas, możemy wykonać pięć typowych kroków w przetwarzaniu i analizie danych, niezależnie od ich pochodzenia - ładowanie, organizowanie, manipulowanie, modelowanie i analizowanie danych.

Poniżej znajdują się niektóre z ważnych funkcji Pandas, które są używane specjalnie do przetwarzania danych i analizy danych.

Kluczowe cechy Pand

  • Szybki i wydajny obiekt DataFrame z domyślnym i dostosowanym indeksowaniem.
  • Narzędzia do ładowania danych do obiektów danych w pamięci z różnych formatów plików.
  • Dopasowanie danych i zintegrowana obsługa brakujących danych.
  • Przekształcanie i obracanie zestawów dat.
  • Krojenie na podstawie etykiet, indeksowanie i podzbiór dużych zbiorów danych.
  • Kolumny ze struktury danych można usuwać lub wstawiać.
  • Grupuj według danych w celu agregacji i przekształceń.
  • Wydajne scalanie i łączenie danych.
  • Funkcjonalność szeregów czasowych.

Pandas radzi sobie z następującymi trzema strukturami danych -

  • Series
  • DataFrame

Te struktury danych są zbudowane w oparciu o tablicę Numpy, dzięki czemu są szybkie i wydajne.

Wymiar i opis

Najlepszym sposobem myślenia o tych strukturach danych jest to, że wyżej wymiarowa struktura danych jest zbiornikiem jej niższej wymiarowej struktury danych. Na przykład DataFrame jest kontenerem Series, Panel jest kontenerem DataFrame.

Struktura danych Wymiary Opis
Seria 1 Jednorodna tablica znakowana 1D, niezmienna wielkością.
Ramki danych 2 Ogólna struktura tabelaryczna z etykietami 2D i zmiennymi rozmiarami z potencjalnie niejednorodnymi typami kolumn.

DataFrame jest szeroko stosowana i jest najważniejszą strukturą danych.

Seria

Szereg to jednowymiarowa struktura przypominająca tablicę z jednorodnymi danymi. Na przykład poniższa seria to zbiór liczb całkowitych 10, 23, 56,…

10 23 56 17 52 61 73 90 26 72

Kluczowe punkty serii

  • Jednorodne dane
  • Niezmienny rozmiar
  • Wartości zmiennych danych

Ramka danych

DataFrame to dwuwymiarowa tablica z niejednorodnymi danymi. Na przykład,

Nazwa Wiek Płeć Ocena
Steve 32 Męski 3.45
Lia 28 Płeć żeńska 4.6
Vin 45 Męski 3.9
Katie 38 Płeć żeńska 2,78

Tabela przedstawia dane zespołu sprzedażowego organizacji wraz z ogólną oceną wydajności. Dane są przedstawiane w wierszach i kolumnach. Każda kolumna reprezentuje atrybut, a każdy wiersz reprezentuje osobę.

Typ danych kolumn

Typy danych w czterech kolumnach są następujące -

Kolumna Rodzaj
Nazwa Strunowy
Wiek Liczba całkowita
Płeć Strunowy
Ocena Pływak

Kluczowe punkty ramki danych

  • Dane heterogeniczne
  • Rozmiar Mutable
  • Zmienne dane

W następnych rozdziałach zobaczymy wiele przykładów użycia biblioteki pandas w języku Python w pracy z nauką o danych.