Introdução às Estruturas de Dados
O Pandas lida com as três estruturas de dados a seguir -
- Series
- DataFrame
- Panel
Essas estruturas de dados são construídas em cima do array Numpy, o que significa que são rápidas.
Dimensão e descrição
A melhor maneira de pensar nessas estruturas de dados é que a estrutura de dados de dimensão superior é um contêiner de sua estrutura de dados de dimensão inferior. Por exemplo, DataFrame é um contêiner de Series, Panel é um contêiner de DataFrame.
Estrutura de dados | Dimensões | Descrição |
---|---|---|
Series | 1 | Array homogêneo marcado 1D, tamanho imutável. |
Frames de dados | 2 | Estrutura tabular rotulada em 2D geral, com tamanho mutável com colunas potencialmente heterogeneamente tipadas. |
Painel | 3 | Matriz rotulada em 3D geral, com tamanho mutável. |
Construir e lidar com dois ou mais arrays dimensionais é uma tarefa tediosa, pois o usuário tem que considerar a orientação do conjunto de dados ao escrever funções. Mas usando as estruturas de dados do Pandas, o esforço mental do usuário é reduzido.
Por exemplo, com dados tabulares (DataFrame), é semanticamente mais útil pensar no index (as linhas) e o columns em vez do eixo 0 e eixo 1.
Mutabilidade
Todas as estruturas de dados do Pandas são mutáveis por valor (podem ser alteradas) e, exceto Series, todas têm tamanho mutável. A série tem tamanho imutável.
Note- DataFrame é amplamente utilizado e uma das estruturas de dados mais importantes. O painel é usado muito menos.
Series
A série é uma estrutura semelhante a uma matriz unidimensional com dados homogêneos. Por exemplo, a série a seguir é uma coleção de inteiros 10, 23, 56, ...
10 | 23 | 56 | 17 | 52 | 61 | 73 | 90 | 26 | 72 |
Pontos chave
- Dados homogêneos
- Tamanho imutável
- Valores de dados mutáveis
Quadro de dados
DataFrame é uma matriz bidimensional com dados heterogêneos. Por exemplo,
Nome | Era | Gênero | Avaliação |
---|---|---|---|
Steve | 32 | Masculino | 3,45 |
Lia | 28 | Fêmea | 4,6 |
Vin | 45 | Masculino | 3,9 |
Katie | 38 | Fêmea | 2,78 |
A tabela representa os dados de uma equipe de vendas de uma organização com sua classificação geral de desempenho. Os dados são representados em linhas e colunas. Cada coluna representa um atributo e cada linha representa uma pessoa.
Tipo de dados das colunas
Os tipos de dados das quatro colunas são os seguintes -
Coluna | Tipo |
---|---|
Nome | Corda |
Era | Inteiro |
Gênero | Corda |
Avaliação | Flutuador |
Pontos chave
- Dados heterogêneos
- Tamanho mutável
- Dados mutáveis
Painel
Painel é uma estrutura de dados tridimensional com dados heterogêneos. É difícil representar o painel em representação gráfica. Mas um painel pode ser ilustrado como um contêiner de DataFrame.
Pontos chave
- Dados heterogêneos
- Tamanho mutável
- Dados mutáveis