Wprowadzenie do struktur danych

Pandas radzi sobie z następującymi trzema strukturami danych -

  • Series
  • DataFrame
  • Panel

Te struktury danych są zbudowane na szczycie tablicy Numpy, co oznacza, że ​​są szybkie.

Wymiar i opis

Najlepszym sposobem myślenia o tych strukturach danych jest to, że wyżej wymiarowa struktura danych jest zbiornikiem jej niższej wymiarowej struktury danych. Na przykład DataFrame jest kontenerem Series, Panel jest kontenerem DataFrame.

Struktura danych Wymiary Opis
Seria 1 Jednorodna tablica znakowana 1D, z możliwością zmiany rozmiaru.
Ramki danych 2 Ogólna struktura tabelaryczna z etykietami 2D i zmiennymi rozmiarami z potencjalnie niejednorodnymi typami kolumn.
Płyta 3 Ogólna tablica znakowana 3D, zmienna wielkość.

Budowanie i obsługa dwu lub więcej wymiarowych tablic jest żmudnym zadaniem, podczas pisania funkcji na użytkowniku spoczywa ciężar rozważenia orientacji zestawu danych. Jednak użycie struktur danych Pandas ogranicza wysiłek umysłowy użytkownika.

Na przykład w przypadku danych tabelarycznych (DataFrame) bardziej semantycznie pomocne jest myślenie o index (rzędy) i columns zamiast osi 0 i osi 1.

Zmienność

Wszystkie struktury danych Pandas są wartościami zmiennymi (można je zmienić), a poza seriami wszystkie mają zmienną wielkość. Seria ma niezmienną wielkość.

Note- DataFrame jest szeroko stosowana i jest jedną z najważniejszych struktur danych. Panel jest używany znacznie mniej.

Seria

Szereg to jednowymiarowa struktura przypominająca tablicę z jednorodnymi danymi. Na przykład poniższa seria to zbiór liczb całkowitych 10, 23, 56,…

10 23 56 17 52 61 73 90 26 72

Kluczowe punkty

  • Jednorodne dane
  • Niezmienny rozmiar
  • Wartości zmiennych danych

Ramka danych

DataFrame to dwuwymiarowa tablica z niejednorodnymi danymi. Na przykład,

Nazwa Wiek Płeć Ocena
Steve 32 Męski 3.45
Lia 28 Płeć żeńska 4.6
Vin 45 Męski 3.9
Katie 38 Płeć żeńska 2,78

Tabela przedstawia dane zespołu sprzedażowego organizacji wraz z ogólną oceną wydajności. Dane są przedstawiane w wierszach i kolumnach. Każda kolumna reprezentuje atrybut, a każdy wiersz reprezentuje osobę.

Typ danych kolumn

Typy danych w czterech kolumnach są następujące -

Kolumna Rodzaj
Nazwa Strunowy
Wiek Liczba całkowita
Płeć Strunowy
Ocena Pływak

Kluczowe punkty

  • Dane heterogeniczne
  • Rozmiar Mutable
  • Zmienne dane

Płyta

Panel to trójwymiarowa struktura danych z niejednorodnymi danymi. Trudno jest przedstawić panel w graficznej reprezentacji. Ale panel można zilustrować jako kontener DataFrame.

Kluczowe punkty

  • Dane heterogeniczne
  • Rozmiar Mutable
  • Zmienne dane