Pythonパンダ-DataFrame
データフレームは2次元のデータ構造です。つまり、データは行と列に表形式で配置されます。
DataFrameの機能
- 潜在的に列は異なるタイプです
- サイズ–変更可能
- ラベル付きの軸(行と列)
- 行と列に対して算術演算を実行できます
構造
学生のデータを使用してデータフレームを作成していると仮定します。
これは、SQLテーブルまたはスプレッドシートのデータ表現と考えることができます。
pandas.DataFrame
pandas DataFrameは、次のコンストラクターを使用して作成できます-
pandas.DataFrame( data, index, columns, dtype, copy)
コンストラクターのパラメーターは次のとおりです-
シニア番号 | パラメータと説明 |
---|---|
1 |
data データは、ndarray、series、map、lists、dict、constants、および別のDataFrameなどのさまざまな形式を取ります。 |
2 |
index 行ラベルの場合、結果のフレームに使用されるインデックスは、インデックスが渡されない場合、オプションのデフォルトnp.arange(n)です。 |
3 |
columns 列ラベルの場合、オプションのデフォルト構文は--np.arange(n)です。これは、インデックスが渡されない場合にのみ当てはまります。 |
4 |
dtype 各列のデータ型。 |
5 |
copy デフォルトがFalseの場合、このコマンド(またはそれが何であれ)はデータのコピーに使用されます。 |
DataFrameを作成する
pandas DataFrameは、次のようなさまざまな入力を使用して作成できます。
- Lists
- dict
- Series
- ゴツゴツしたndarrays
- 別のDataFrame
この章の後続のセクションでは、これらの入力を使用してDataFrameを作成する方法を説明します。
空のデータフレームを作成する
作成できる基本的なDataFrameはEmptyDataframeです。
例
#import the pandas library and aliasing as pd
import pandas as pd
df = pd.DataFrame()
print df
その output 次のとおりです-
Empty DataFrame
Columns: []
Index: []
リストからDataFrameを作成する
DataFrameは、単一のリストまたはリストのリストを使用して作成できます。
例1
import pandas as pd
data = [1,2,3,4,5]
df = pd.DataFrame(data)
print df
その output 次のとおりです-
0
0 1
1 2
2 3
3 4
4 5
例2
import pandas as pd
data = [['Alex',10],['Bob',12],['Clarke',13]]
df = pd.DataFrame(data,columns=['Name','Age'])
print df
その output 次のとおりです-
Name Age
0 Alex 10
1 Bob 12
2 Clarke 13
例3
import pandas as pd
data = [['Alex',10],['Bob',12],['Clarke',13]]
df = pd.DataFrame(data,columns=['Name','Age'],dtype=float)
print df
その output 次のとおりです-
Name Age
0 Alex 10.0
1 Bob 12.0
2 Clarke 13.0
Note −観察してください dtype パラメータは、Age列のタイプを浮動小数点に変更します。
ndarrays / ListsのディクトからDataFrameを作成します
全ての ndarrays同じ長さである必要があります。インデックスが渡される場合、インデックスの長さは配列の長さと等しくなければなりません。
インデックスが渡されない場合、デフォルトでは、インデックスはrange(n)になります。ここで、 n は配列の長さです。
例1
import pandas as pd
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data)
print df
その output 次のとおりです-
Age Name
0 28 Tom
1 34 Jack
2 29 Steve
3 42 Ricky
Note−値0、1、2、3を観察します。これらは、関数range(n)を使用してそれぞれに割り当てられるデフォルトのインデックスです。
例2
次に、配列を使用してインデックス付きのDataFrameを作成しましょう。
import pandas as pd
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data, index=['rank1','rank2','rank3','rank4'])
print df
その output 次のとおりです-
Age Name
rank1 28 Tom
rank2 34 Jack
rank3 29 Steve
rank4 42 Ricky
Note −観察してください index パラメータは、各行にインデックスを割り当てます。
ディクトのリストからDataFrameを作成する
辞書のリストを入力データとして渡して、DataFrameを作成できます。辞書キーは、デフォルトで列名として使用されます。
例1
次の例は、辞書のリストを渡してDataFrameを作成する方法を示しています。
import pandas as pd
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data)
print df
その output 次のとおりです-
a b c
0 1 2 NaN
1 5 10 20.0
Note −観察してください、NaN(数字ではありません)が欠落している領域に追加されています。
例2
次の例は、辞書のリストと行インデックスを渡してDataFrameを作成する方法を示しています。
import pandas as pd
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data, index=['first', 'second'])
print df
その output 次のとおりです-
a b c
first 1 2 NaN
second 5 10 20.0
例3
次の例は、辞書、行インデックス、および列インデックスのリストを使用してDataFrameを作成する方法を示しています。
import pandas as pd
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
#With two column indices, values same as dictionary keys
df1 = pd.DataFrame(data, index=['first', 'second'], columns=['a', 'b'])
#With two column indices with one index with other name
df2 = pd.DataFrame(data, index=['first', 'second'], columns=['a', 'b1'])
print df1
print df2
その output 次のとおりです-
#df1 output
a b
first 1 2
second 5 10
#df2 output
a b1
first 1 NaN
second 5 NaN
Note−注意してください。df2DataFrameは、辞書キー以外の列インデックスで作成されます。したがって、NaNを所定の位置に追加しました。一方、df1は辞書キーと同じ列インデックスで作成されるため、NaNが追加されます。
Dict ofSeriesからDataFrameを作成する
シリーズのディクショナリを渡して、DataFrameを形成できます。結果のインデックスは、渡されたすべてのシリーズインデックスの和集合です。
例
import pandas as pd
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
print df
その output 次のとおりです-
one two
a 1.0 1
b 2.0 2
c 3.0 3
d NaN 4
Note −シリーズ1の場合、ラベルがないことに注意してください ‘d’ 合格しましたが、結果として、 d ラベル、NaNにはNaNが追加されます。
今理解しましょう column selection, addition、および deletion 例を通して。
列の選択
これは、DataFrameから列を選択することで理解できます。
例
import pandas as pd
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
print df ['one']
その output 次のとおりです-
a 1.0
b 2.0
c 3.0
d NaN
Name: one, dtype: float64
列の追加
これは、既存のデータフレームに新しい列を追加することで理解できます。
例
import pandas as pd
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
# Adding a new column to an existing DataFrame object with column label by passing new series
print ("Adding a new column by passing as Series:")
df['three']=pd.Series([10,20,30],index=['a','b','c'])
print df
print ("Adding a new column using the existing columns in DataFrame:")
df['four']=df['one']+df['three']
print df
その output 次のとおりです-
Adding a new column by passing as Series:
one two three
a 1.0 1 10.0
b 2.0 2 20.0
c 3.0 3 30.0
d NaN 4 NaN
Adding a new column using the existing columns in DataFrame:
one two three four
a 1.0 1 10.0 11.0
b 2.0 2 20.0 22.0
c 3.0 3 30.0 33.0
d NaN 4 NaN NaN
列の削除
列は削除またはポップできます。例を挙げて、その方法を理解しましょう。
例
# Using the previous DataFrame, we will delete a column
# using del function
import pandas as pd
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']),
'three' : pd.Series([10,20,30], index=['a','b','c'])}
df = pd.DataFrame(d)
print ("Our dataframe is:")
print df
# using del function
print ("Deleting the first column using DEL function:")
del df['one']
print df
# using pop function
print ("Deleting another column using POP function:")
df.pop('two')
print df
その output 次のとおりです-
Our dataframe is:
one three two
a 1.0 10.0 1
b 2.0 20.0 2
c 3.0 30.0 3
d NaN NaN 4
Deleting the first column using DEL function:
three two
a 10.0 1
b 20.0 2
c 30.0 3
d NaN 4
Deleting another column using POP function:
three
a 10.0
b 20.0
c 30.0
d NaN
行の選択、追加、および削除
例を通して、行の選択、追加、削除について理解します。選択の概念から始めましょう。
ラベルによる選択
行ラベルをに渡すことで行を選択できます loc 関数。
import pandas as pd
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
print df.loc['b']
その output 次のとおりです-
one 2.0
two 2.0
Name: b, dtype: float64
結果は、DataFrameの列名としてラベルを持つシリーズです。また、シリーズの名前は、シリーズを取得するためのラベルです。
整数位置による選択
行は整数の位置をに渡すことで選択できます iloc 関数。
import pandas as pd
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
print df.iloc[2]
その output 次のとおりです-
one 3.0
two 3.0
Name: c, dtype: float64
スライス行
':'演算子を使用して複数の行を選択できます。
import pandas as pd
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
print df[2:4]
その output 次のとおりです-
one two
c 3.0 3
d NaN 4
行の追加
を使用してDataFrameに新しい行を追加します append関数。この関数は、最後に行を追加します。
import pandas as pd
df = pd.DataFrame([[1, 2], [3, 4]], columns = ['a','b'])
df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['a','b'])
df = df.append(df2)
print df
その output 次のとおりです-
a b
0 1 2
1 3 4
0 5 6
1 7 8
行の削除
インデックスラベルを使用して、DataFrameから行を削除または削除します。ラベルが重複している場合、複数の行が削除されます。
観察すると、上記の例では、ラベルが重複しています。ラベルを削除して、削除される行数を確認しましょう。
import pandas as pd
df = pd.DataFrame([[1, 2], [3, 4]], columns = ['a','b'])
df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['a','b'])
df = df.append(df2)
# Drop rows with label 0
df = df.drop(0)
print df
その output 次のとおりです-
a b
1 3 4
1 7 8
上記の例では、2つの行に同じラベル0が含まれているため、2つの行が削除されました。