Python - limpeza de dados
Dados ausentes são sempre um problema em cenários da vida real. Áreas como aprendizado de máquina e mineração de dados enfrentam sérios problemas na precisão de suas previsões de modelo devido à baixa qualidade dos dados causada por valores ausentes. Nessas áreas, o tratamento de valor faltante é o principal ponto de foco para tornar seus modelos mais precisos e válidos.
Quando e por que os dados estão perdidos?
Vamos considerar uma pesquisa online para um produto. Muitas vezes, as pessoas não compartilham todas as informações relacionadas a elas. Poucas pessoas compartilham sua experiência, mas não há quanto tempo estão usando o produto; poucas pessoas compartilham há quanto tempo estão usando o produto, sua experiência, mas não suas informações de contato. Assim, de uma ou outra forma, sempre falta uma parte dos dados, e isso é muito comum em tempo real.
Vamos agora ver como podemos lidar com os valores ausentes (digamos NA ou NaN) usando o Pandas.
# import the pandas library
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f',
'h'],columns=['one', 'two', 'three'])
df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
print df
Está output é o seguinte -
one two three
a 0.077988 0.476149 0.965836
b NaN NaN NaN
c -0.390208 -0.551605 -2.301950
d NaN NaN NaN
e -2.000303 -0.788201 1.510072
f -0.930230 -0.670473 1.146615
g NaN NaN NaN
h 0.085100 0.532791 0.887415
Usando a reindexação, criamos um DataFrame com valores ausentes. Na saída,NaN significa Not a Number.
Verifique se há valores ausentes
Para tornar a detecção de valores ausentes mais fácil (e em diferentes tipos de matriz), o Pandas fornece o isnull() e notnull() funções, que também são métodos em objetos Series e DataFrame -
Exemplo
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f',
'h'],columns=['one', 'two', 'three'])
df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
print df['one'].isnull()
Está output é o seguinte -
a False
b True
c False
d True
e False
f False
g True
h False
Name: one, dtype: bool
Limpeza / preenchimento de dados ausentes
O Pandas fornece vários métodos para limpar os valores ausentes. A função fillna pode “preencher” os valores NA com dados não nulos de algumas maneiras, que ilustramos nas seções a seguir.
Substitua NaN por um Valor Escalar
O programa a seguir mostra como você pode substituir "NaN" por "0".
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(3, 3), index=['a', 'c', 'e'],columns=['one',
'two', 'three'])
df = df.reindex(['a', 'b', 'c'])
print df
print ("NaN replaced with '0':")
print df.fillna(0)
Está output é o seguinte -
one two three
a -0.576991 -0.741695 0.553172
b NaN NaN NaN
c 0.744328 -1.735166 1.749580
NaN replaced with '0':
one two three
a -0.576991 -0.741695 0.553172
b 0.000000 0.000000 0.000000
c 0.744328 -1.735166 1.749580
Aqui, estamos preenchendo com valor zero; em vez disso, também podemos preencher com qualquer outro valor.
Preencher NA para frente e para trás
Usando os conceitos de preenchimento discutidos no Capítulo ReIndexação, preencheremos os valores ausentes.
Método | Açao |
---|---|
almofada / preenchimento | Métodos de preenchimento para frente |
bfill / backfill | Métodos de preenchimento para trás |
Exemplo
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f',
'h'],columns=['one', 'two', 'three'])
df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
print df.fillna(method='pad')
Está output é o seguinte -
one two three
a 0.077988 0.476149 0.965836
b 0.077988 0.476149 0.965836
c -0.390208 -0.551605 -2.301950
d -0.390208 -0.551605 -2.301950
e -2.000303 -0.788201 1.510072
f -0.930230 -0.670473 1.146615
g -0.930230 -0.670473 1.146615
h 0.085100 0.532791 0.887415
Abandone os valores ausentes
Se você deseja simplesmente excluir os valores ausentes, use o dropna funcionar junto com o axisargumento. Por padrão, eixo = 0, ou seja, ao longo da linha, o que significa que se qualquer valor dentro de uma linha for NA, então toda a linha é excluída.
Exemplo
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f',
'h'],columns=['one', 'two', 'three'])
df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
print df.dropna()
Está output é o seguinte -
one two three
a 0.077988 0.476149 0.965836
c -0.390208 -0.551605 -2.301950
e -2.000303 -0.788201 1.510072
f -0.930230 -0.670473 1.146615
h 0.085100 0.532791 0.887415
Substituir Valores Ausentes (ou) Genéricos
Muitas vezes, temos que substituir um valor genérico por algum valor específico. Podemos conseguir isso aplicando o método de substituição.
Substituir NA por um valor escalar é o comportamento equivalente do fillna() função.
Exemplo
import pandas as pd
import numpy as np
df = pd.DataFrame({'one':[10,20,30,40,50,2000],
'two':[1000,0,30,40,50,60]})
print df.replace({1000:10,2000:60})
Está output é o seguinte -
one two
0 10 10
1 20 0
2 30 30
3 40 40
4 50 50
5 60 60