Wprowadzenie do struktur danych
Pandas radzi sobie z następującymi trzema strukturami danych -
- Series
- DataFrame
- Panel
Te struktury danych są zbudowane na szczycie tablicy Numpy, co oznacza, że są szybkie.
Wymiar i opis
Najlepszym sposobem myślenia o tych strukturach danych jest to, że wyżej wymiarowa struktura danych jest zbiornikiem jej niższej wymiarowej struktury danych. Na przykład DataFrame jest kontenerem Series, Panel jest kontenerem DataFrame.
Struktura danych | Wymiary | Opis |
---|---|---|
Seria | 1 | Jednorodna tablica znakowana 1D, z możliwością zmiany rozmiaru. |
Ramki danych | 2 | Ogólna struktura tabelaryczna z etykietami 2D i zmiennymi rozmiarami z potencjalnie niejednorodnymi typami kolumn. |
Płyta | 3 | Ogólna tablica znakowana 3D, zmienna wielkość. |
Budowanie i obsługa dwu lub więcej wymiarowych tablic jest żmudnym zadaniem, podczas pisania funkcji na użytkowniku spoczywa ciężar rozważenia orientacji zestawu danych. Jednak użycie struktur danych Pandas ogranicza wysiłek umysłowy użytkownika.
Na przykład w przypadku danych tabelarycznych (DataFrame) bardziej semantycznie pomocne jest myślenie o index (rzędy) i columns zamiast osi 0 i osi 1.
Zmienność
Wszystkie struktury danych Pandas są wartościami zmiennymi (można je zmienić), a poza seriami wszystkie mają zmienną wielkość. Seria ma niezmienną wielkość.
Note- DataFrame jest szeroko stosowana i jest jedną z najważniejszych struktur danych. Panel jest używany znacznie mniej.
Seria
Szereg to jednowymiarowa struktura przypominająca tablicę z jednorodnymi danymi. Na przykład poniższa seria to zbiór liczb całkowitych 10, 23, 56,…
10 | 23 | 56 | 17 | 52 | 61 | 73 | 90 | 26 | 72 |
Kluczowe punkty
- Jednorodne dane
- Niezmienny rozmiar
- Wartości zmiennych danych
Ramka danych
DataFrame to dwuwymiarowa tablica z niejednorodnymi danymi. Na przykład,
Nazwa | Wiek | Płeć | Ocena |
---|---|---|---|
Steve | 32 | Męski | 3.45 |
Lia | 28 | Płeć żeńska | 4.6 |
Vin | 45 | Męski | 3.9 |
Katie | 38 | Płeć żeńska | 2,78 |
Tabela przedstawia dane zespołu sprzedażowego organizacji wraz z ogólną oceną wydajności. Dane są przedstawiane w wierszach i kolumnach. Każda kolumna reprezentuje atrybut, a każdy wiersz reprezentuje osobę.
Typ danych kolumn
Typy danych w czterech kolumnach są następujące -
Kolumna | Rodzaj |
---|---|
Nazwa | Strunowy |
Wiek | Liczba całkowita |
Płeć | Strunowy |
Ocena | Pływak |
Kluczowe punkty
- Dane heterogeniczne
- Rozmiar Mutable
- Zmienne dane
Płyta
Panel to trójwymiarowa struktura danych z niejednorodnymi danymi. Trudno jest przedstawić panel w graficznej reprezentacji. Ale panel można zilustrować jako kontener DataFrame.
Kluczowe punkty
- Dane heterogeniczne
- Rozmiar Mutable
- Zmienne dane