Введение в структуры данных
Pandas имеет дело со следующими тремя структурами данных -
- Series
- DataFrame
- Panel
Эти структуры данных построены на основе массива Numpy, что означает, что они быстрые.
Размер и описание
Лучший способ думать об этих структурах данных - это то, что структура данных более высокого измерения является контейнером структуры данных более низкого измерения. Например, DataFrame - это контейнер Series, Panel - контейнер DataFrame.
Структура данных | Габаритные размеры | Описание |
---|---|---|
Серии | 1 | Однородный массив, помеченный 1D, неизменяемый размер. |
Фреймы данных | 2 | Общая двухмерная маркированная табличная структура с изменяемым размером и потенциально неоднородно типизированными столбцами. |
Панель | 3 | Обычный трехмерный помеченный массив с изменяемым размером. |
Создание и обработка двух или более размерных массивов - утомительная задача, на пользователя ложится бремя учитывать ориентацию набора данных при написании функций. Но с использованием структур данных Pandas умственные усилия пользователя снижаются.
Например, с табличными данными (DataFrame) семантически более полезно подумать о index (ряды) и columns вместо оси 0 и оси 1.
Изменчивость
Все структуры данных Pandas являются изменяемыми по значению (могут быть изменены), и, за исключением Series, все изменяются по размеру. Размер серии неизменен.
Note- DataFrame широко используется и является одной из самых важных структур данных. Панель используется гораздо реже.
Серии
Серия - это одномерный массив, подобный структуре с однородными данными. Например, следующая серия представляет собой набор целых чисел 10, 23, 56,…
10 | 23 | 56 | 17 | 52 | 61 | 73 | 90 | 26 | 72 |
Ключевые моменты
- Однородные данные
- Неизменяемый размер
- Значения изменяемых данных
DataFrame
DataFrame - это двумерный массив с разнородными данными. Например,
имя | Возраст | Пол | Рейтинг |
---|---|---|---|
Стив | 32 | мужчина | 3,45 |
Лия | 28 | женский | 4.6 |
Вин | 45 | мужчина | 3.9 |
Кэти | 38 | женский | 2,78 |
В таблице представлены данные отдела продаж организации с их общим рейтингом производительности. Данные представлены в строках и столбцах. Каждый столбец представляет атрибут, а каждая строка представляет человека.
Тип данных столбцов
Типы данных четырех столбцов следующие:
Столбец | Тип |
---|---|
имя | Строка |
Возраст | Целое число |
Пол | Строка |
Рейтинг | Плавать |
Ключевые моменты
- Гетерогенные данные
- Размер изменяемый
- Изменяемые данные
Панель
Panel - это трехмерная структура данных с разнородными данными. Панель сложно представить в графическом виде. Но панель можно проиллюстрировать как контейнер DataFrame.
Ключевые моменты
- Гетерогенные данные
- Размер изменяемый
- Изменяемые данные