Python - Pandy
Pandas to biblioteka Python typu open source używana do wydajnej manipulacji danymi i analizy danych przy użyciu jej potężnych struktur danych. Python z pandami jest używany w różnych dziedzinach akademickich i komercyjnych, takich jak finanse, ekonomia, statystyka, reklama, analityka internetowa i nie tylko. Korzystając z Pandas, możemy wykonać pięć typowych kroków w przetwarzaniu i analizie danych, niezależnie od ich pochodzenia - ładowanie, organizowanie, manipulowanie, modelowanie i analizowanie danych.
Poniżej znajdują się niektóre z ważnych funkcji Pandas, które są używane specjalnie do przetwarzania danych i analizy danych.
Kluczowe cechy Pand
- Szybki i wydajny obiekt DataFrame z domyślnym i dostosowanym indeksowaniem.
- Narzędzia do ładowania danych do obiektów danych w pamięci z różnych formatów plików.
- Dopasowanie danych i zintegrowana obsługa brakujących danych.
- Przekształcanie i obracanie zestawów dat.
- Krojenie na podstawie etykiet, indeksowanie i podzbiór dużych zbiorów danych.
- Kolumny ze struktury danych można usuwać lub wstawiać.
- Grupuj według danych w celu agregacji i przekształceń.
- Wydajne scalanie i łączenie danych.
- Funkcjonalność szeregów czasowych.
Pandas radzi sobie z następującymi trzema strukturami danych -
- Series
- DataFrame
Te struktury danych są zbudowane w oparciu o tablicę Numpy, dzięki czemu są szybkie i wydajne.
Wymiar i opis
Najlepszym sposobem myślenia o tych strukturach danych jest to, że wyżej wymiarowa struktura danych jest zbiornikiem jej niższej wymiarowej struktury danych. Na przykład DataFrame jest kontenerem Series, Panel jest kontenerem DataFrame.
Struktura danych | Wymiary | Opis |
---|---|---|
Seria | 1 | Jednorodna tablica znakowana 1D, niezmienna wielkością. |
Ramki danych | 2 | Ogólna struktura tabelaryczna z etykietami 2D i zmiennymi rozmiarami z potencjalnie niejednorodnymi typami kolumn. |
DataFrame jest szeroko stosowana i jest najważniejszą strukturą danych.
Seria
Szereg to jednowymiarowa struktura przypominająca tablicę z jednorodnymi danymi. Na przykład poniższa seria to zbiór liczb całkowitych 10, 23, 56,…
10 | 23 | 56 | 17 | 52 | 61 | 73 | 90 | 26 | 72 |
Kluczowe punkty serii
- Jednorodne dane
- Niezmienny rozmiar
- Wartości zmiennych danych
Ramka danych
DataFrame to dwuwymiarowa tablica z niejednorodnymi danymi. Na przykład,
Nazwa | Wiek | Płeć | Ocena |
---|---|---|---|
Steve | 32 | Męski | 3.45 |
Lia | 28 | Płeć żeńska | 4.6 |
Vin | 45 | Męski | 3.9 |
Katie | 38 | Płeć żeńska | 2,78 |
Tabela przedstawia dane zespołu sprzedażowego organizacji wraz z ogólną oceną wydajności. Dane są przedstawiane w wierszach i kolumnach. Każda kolumna reprezentuje atrybut, a każdy wiersz reprezentuje osobę.
Typ danych kolumn
Typy danych w czterech kolumnach są następujące -
Kolumna | Rodzaj |
---|---|
Nazwa | Strunowy |
Wiek | Liczba całkowita |
Płeć | Strunowy |
Ocena | Pływak |
Kluczowe punkty ramki danych
- Dane heterogeniczne
- Rozmiar Mutable
- Zmienne dane
W następnych rozdziałach zobaczymy wiele przykładów użycia biblioteki pandas w języku Python w pracy z nauką o danych.