Python - Панды
Pandas - это библиотека Python с открытым исходным кодом, используемая для высокопроизводительного манипулирования данными и анализа данных с использованием мощных структур данных. Python с пандами используется в различных академических и коммерческих областях, включая финансы, экономику, статистику, рекламу, веб-аналитику и другие. Используя Pandas, мы можем выполнить пять типичных шагов в обработке и анализе данных, независимо от их происхождения: загрузка, организация, манипулирование, моделирование и анализ данных.
Ниже приведены некоторые из важных функций Pandas, которые используются специально для обработки данных и анализа данных.
Ключевые особенности Pandas
- Быстрый и эффективный объект DataFrame с индексированием по умолчанию и индивидуальной индексацией.
 - Инструменты для загрузки данных в объекты данных в памяти из файлов разных форматов.
 - Согласование данных и интегрированная обработка недостающих данных.
 - Изменение формы и поворот наборов дат.
 - Нарезка на основе меток, индексация и разбиение больших наборов данных.
 - Столбцы из структуры данных можно удалять или вставлять.
 - Группируйте по данным для агрегирования и преобразования.
 - Высокопроизводительное слияние и соединение данных.
 - Функциональность временных рядов.
 
Pandas имеет дело со следующими тремя структурами данных -
- Series
 - DataFrame
 
Эти структуры данных построены на основе массива Numpy, что делает их быстрыми и эффективными.
Размер и описание
Лучший способ думать об этих структурах данных - это то, что структура данных более высокого измерения является контейнером структуры данных более низкого измерения. Например, DataFrame - это контейнер Series, Panel - контейнер DataFrame.
| Структура данных | Габаритные размеры | Описание | 
|---|---|---|
| Серии | 1 | Однородный массив, помеченный 1D, неизменный размер. | 
| Фреймы данных | 2 | Общая двухмерная маркированная табличная структура с изменяемым размером и потенциально неоднородно типизированными столбцами. | 
DataFrame широко используется, и это наиболее важные структуры данных.
Серии
Серия - это одномерный массив, подобный структуре с однородными данными. Например, следующая серия представляет собой набор целых чисел 10, 23, 56,…
| 10 | 23 | 56 | 17 | 52 | 61 | 73 | 90 | 26 | 72 | 
Ключевые моменты серии
- Однородные данные
 - Неизменяемый размер
 - Значения изменяемых данных
 
DataFrame
DataFrame - это двумерный массив с разнородными данными. Например,
| имя | Возраст | Пол | Рейтинг | 
|---|---|---|---|
| Стив | 32 | мужчина | 3,45 | 
| Лия | 28 | женский | 4.6 | 
| Вин | 45 | мужчина | 3.9 | 
| Кэти | 38 | женский | 2,78 | 
В таблице представлены данные отдела продаж организации с их общим рейтингом производительности. Данные представлены в строках и столбцах. Каждый столбец представляет атрибут, а каждая строка представляет человека.
Тип данных столбцов
Типы данных четырех столбцов следующие:
| Столбец | Тип | 
|---|---|
| имя | Строка | 
| Возраст | Целое число | 
| Пол | Строка | 
| Рейтинг | Плавать | 
Ключевые моменты фрейма данных
- Гетерогенные данные
 - Размер изменяемый
 - Изменяемые данные
 
В следующих главах мы увидим множество примеров использования библиотеки pandas для python в Data Science.