Python - Панды

Pandas - это библиотека Python с открытым исходным кодом, используемая для высокопроизводительного манипулирования данными и анализа данных с использованием мощных структур данных. Python с пандами используется в различных академических и коммерческих областях, включая финансы, экономику, статистику, рекламу, веб-аналитику и другие. Используя Pandas, мы можем выполнить пять типичных шагов в обработке и анализе данных, независимо от их происхождения: загрузка, организация, манипулирование, моделирование и анализ данных.

Ниже приведены некоторые из важных функций Pandas, которые используются специально для обработки данных и анализа данных.

Ключевые особенности Pandas

  • Быстрый и эффективный объект DataFrame с индексированием по умолчанию и индивидуальной индексацией.
  • Инструменты для загрузки данных в объекты данных в памяти из файлов разных форматов.
  • Согласование данных и интегрированная обработка недостающих данных.
  • Изменение формы и поворот наборов дат.
  • Нарезка на основе меток, индексация и разбиение больших наборов данных.
  • Столбцы из структуры данных можно удалять или вставлять.
  • Группируйте по данным для агрегирования и преобразования.
  • Высокопроизводительное слияние и соединение данных.
  • Функциональность временных рядов.

Pandas имеет дело со следующими тремя структурами данных -

  • Series
  • DataFrame

Эти структуры данных построены на основе массива Numpy, что делает их быстрыми и эффективными.

Размер и описание

Лучший способ думать об этих структурах данных - это то, что структура данных более высокого измерения является контейнером структуры данных более низкого измерения. Например, DataFrame - это контейнер Series, Panel - контейнер DataFrame.

Структура данных Габаритные размеры Описание
Серии 1 Однородный массив, помеченный 1D, неизменный размер.
Фреймы данных 2 Общая двухмерная маркированная табличная структура с изменяемым размером и потенциально неоднородно типизированными столбцами.

DataFrame широко используется, и это наиболее важные структуры данных.

Серии

Серия - это одномерный массив, подобный структуре с однородными данными. Например, следующая серия представляет собой набор целых чисел 10, 23, 56,…

10 23 56 17 52 61 73 90 26 72

Ключевые моменты серии

  • Однородные данные
  • Неизменяемый размер
  • Значения изменяемых данных

DataFrame

DataFrame - это двумерный массив с разнородными данными. Например,

имя Возраст Пол Рейтинг
Стив 32 мужчина 3,45
Лия 28 женский 4.6
Вин 45 мужчина 3.9
Кэти 38 женский 2,78

В таблице представлены данные отдела продаж организации с их общим рейтингом производительности. Данные представлены в строках и столбцах. Каждый столбец представляет атрибут, а каждая строка представляет человека.

Тип данных столбцов

Типы данных четырех столбцов следующие:

Столбец Тип
имя Строка
Возраст Целое число
Пол Строка
Рейтинг Плавать

Ключевые моменты фрейма данных

  • Гетерогенные данные
  • Размер изменяемый
  • Изменяемые данные

В следующих главах мы увидим множество примеров использования библиотеки pandas для python в Data Science.