Python Pandas - wprowadzenie
Pandas to biblioteka Python o otwartym kodzie źródłowym, zapewniająca wydajne narzędzie do manipulacji i analizy danych przy użyciu potężnych struktur danych. Nazwa Pandy pochodzi od słowa Panel Data - an Econometrics from Multidimensional danych.
W 2008 roku deweloper Wes McKinney zaczął opracowywać pandy, gdy potrzebował wydajnego, elastycznego narzędzia do analizy danych.
Przed Pandas, Python był głównie używany do zmiany danych i przygotowania. Miał bardzo mały wkład w analizę danych. Pandy rozwiązały ten problem. Korzystając z Pandas, możemy wykonać pięć typowych kroków w przetwarzaniu i analizie danych, niezależnie od ich pochodzenia - ładowanie, przygotowywanie, manipulowanie, modelowanie i analizowanie.
Python z Pandas jest używany w wielu dziedzinach, w tym w dziedzinach akademickich i komercyjnych, w tym w finansach, ekonomii, statystyce, analitykach itp.
Kluczowe cechy Pand
- Szybki i wydajny obiekt DataFrame z domyślnym i dostosowanym indeksowaniem.
- Narzędzia do ładowania danych do obiektów danych w pamięci z różnych formatów plików.
- Dopasowanie danych i zintegrowana obsługa brakujących danych.
- Przekształcanie i obracanie zestawów dat.
- Krojenie na podstawie etykiet, indeksowanie i podzbiór dużych zbiorów danych.
- Kolumny ze struktury danych można usuwać lub wstawiać.
- Grupuj według danych w celu agregacji i przekształceń.
- Wydajne scalanie i łączenie danych.
- Funkcjonalność szeregów czasowych.