Introdução às Estruturas de Dados

O Pandas lida com as três estruturas de dados a seguir -

  • Series
  • DataFrame
  • Panel

Essas estruturas de dados são construídas em cima do array Numpy, o que significa que são rápidas.

Dimensão e descrição

A melhor maneira de pensar nessas estruturas de dados é que a estrutura de dados de dimensão superior é um contêiner de sua estrutura de dados de dimensão inferior. Por exemplo, DataFrame é um contêiner de Series, Panel é um contêiner de DataFrame.

Estrutura de dados Dimensões Descrição
Series 1 Array homogêneo marcado 1D, tamanho imutável.
Frames de dados 2 Estrutura tabular rotulada em 2D geral, com tamanho mutável com colunas potencialmente heterogeneamente tipadas.
Painel 3 Matriz rotulada em 3D geral, com tamanho mutável.

Construir e lidar com dois ou mais arrays dimensionais é uma tarefa tediosa, pois o usuário tem que considerar a orientação do conjunto de dados ao escrever funções. Mas usando as estruturas de dados do Pandas, o esforço mental do usuário é reduzido.

Por exemplo, com dados tabulares (DataFrame), é semanticamente mais útil pensar no index (as linhas) e o columns em vez do eixo 0 e eixo 1.

Mutabilidade

Todas as estruturas de dados do Pandas são mutáveis ​​por valor (podem ser alteradas) e, exceto Series, todas têm tamanho mutável. A série tem tamanho imutável.

Note- DataFrame é amplamente utilizado e uma das estruturas de dados mais importantes. O painel é usado muito menos.

Series

A série é uma estrutura semelhante a uma matriz unidimensional com dados homogêneos. Por exemplo, a série a seguir é uma coleção de inteiros 10, 23, 56, ...

10 23 56 17 52 61 73 90 26 72

Pontos chave

  • Dados homogêneos
  • Tamanho imutável
  • Valores de dados mutáveis

Quadro de dados

DataFrame é uma matriz bidimensional com dados heterogêneos. Por exemplo,

Nome Era Gênero Avaliação
Steve 32 Masculino 3,45
Lia 28 Fêmea 4,6
Vin 45 Masculino 3,9
Katie 38 Fêmea 2,78

A tabela representa os dados de uma equipe de vendas de uma organização com sua classificação geral de desempenho. Os dados são representados em linhas e colunas. Cada coluna representa um atributo e cada linha representa uma pessoa.

Tipo de dados das colunas

Os tipos de dados das quatro colunas são os seguintes -

Coluna Tipo
Nome Corda
Era Inteiro
Gênero Corda
Avaliação Flutuador

Pontos chave

  • Dados heterogêneos
  • Tamanho mutável
  • Dados mutáveis

Painel

Painel é uma estrutura de dados tridimensional com dados heterogêneos. É difícil representar o painel em representação gráfica. Mas um painel pode ser ilustrado como um contêiner de DataFrame.

Pontos chave

  • Dados heterogêneos
  • Tamanho mutável
  • Dados mutáveis