Python Pandas - Grundfunktionalität
Inzwischen haben wir die drei Pandas DataStructures kennengelernt und erfahren, wie sie erstellt werden. Wir werden uns aufgrund seiner Bedeutung für die Echtzeit-Datenverarbeitung hauptsächlich auf die DataFrame-Objekte konzentrieren und auch einige andere DataStructures diskutieren.
Grundlegende Funktionalität der Serie
Sr.Nr. | Attribut oder Methode & Beschreibung |
---|---|
1 | axes Gibt eine Liste der Zeilenachsenbeschriftungen zurück |
2 | dtype Gibt den dtype des Objekts zurück. |
3 | empty Gibt True zurück, wenn die Serie leer ist. |
4 | ndim Gibt die Anzahl der Dimensionen der zugrunde liegenden Daten per Definition 1 zurück. |
5 | size Gibt die Anzahl der Elemente in den zugrunde liegenden Daten zurück. |
6 | values Gibt die Serie als ndarray zurück. |
7 | head() Gibt die ersten n Zeilen zurück. |
8 | tail() Gibt die letzten n Zeilen zurück. |
Lassen Sie uns nun eine Serie erstellen und alle oben aufgeführten Operationen mit tabellarischen Attributen anzeigen.
Beispiel
import pandas as pd
import numpy as np
#Create a series with 100 random numbers
s = pd.Series(np.random.randn(4))
print s
Es ist output ist wie folgt -
0 0.967853
1 -0.148368
2 -1.395906
3 -1.758394
dtype: float64
Achsen
Gibt die Liste der Beschriftungen der Serie zurück.
import pandas as pd
import numpy as np
#Create a series with 100 random numbers
s = pd.Series(np.random.randn(4))
print ("The axes are:")
print s.axes
Es ist output ist wie folgt -
The axes are:
[RangeIndex(start=0, stop=4, step=1)]
Das obige Ergebnis ist ein kompaktes Format einer Liste von Werten von 0 bis 5, dh [0,1,2,3,4].
leer
Gibt den Booleschen Wert zurück, der angibt, ob das Objekt leer ist oder nicht. True gibt an, dass das Objekt leer ist.
import pandas as pd
import numpy as np
#Create a series with 100 random numbers
s = pd.Series(np.random.randn(4))
print ("Is the Object empty?")
print s.empty
Es ist output ist wie folgt -
Is the Object empty?
False
ndim
Gibt die Anzahl der Dimensionen des Objekts zurück. Per Definition ist eine Serie eine 1D-Datenstruktur, daher wird sie zurückgegeben
import pandas as pd
import numpy as np
#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print s
print ("The dimensions of the object:")
print s.ndim
Es ist output ist wie folgt -
0 0.175898
1 0.166197
2 -0.609712
3 -1.377000
dtype: float64
The dimensions of the object:
1
Größe
Gibt die Größe (Länge) der Serie zurück.
import pandas as pd
import numpy as np
#Create a series with 4 random numbers
s = pd.Series(np.random.randn(2))
print s
print ("The size of the object:")
print s.size
Es ist output ist wie folgt -
0 3.078058
1 -1.207803
dtype: float64
The size of the object:
2
Werte
Gibt die tatsächlichen Daten in der Reihe als Array zurück.
import pandas as pd
import numpy as np
#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print s
print ("The actual data series is:")
print s.values
Es ist output ist wie folgt -
0 1.787373
1 -0.605159
2 0.180477
3 -0.140922
dtype: float64
The actual data series is:
[ 1.78737302 -0.60515881 0.18047664 -0.1409218 ]
Kopf & Schwanz
Verwenden Sie die Methoden head () und tail (), um ein kleines Beispiel einer Serie oder des DataFrame-Objekts anzuzeigen.
head() gibt den ersten zurück nZeilen (Indexwerte beachten). Die Standardanzahl der anzuzeigenden Elemente beträgt fünf, Sie können jedoch eine benutzerdefinierte Anzahl übergeben.
import pandas as pd
import numpy as np
#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print ("The original series is:")
print s
print ("The first two rows of the data series:")
print s.head(2)
Es ist output ist wie folgt -
The original series is:
0 0.720876
1 -0.765898
2 0.479221
3 -0.139547
dtype: float64
The first two rows of the data series:
0 0.720876
1 -0.765898
dtype: float64
tail() gibt den letzten zurück nZeilen (Indexwerte beachten). Die Standardanzahl der anzuzeigenden Elemente beträgt fünf, Sie können jedoch eine benutzerdefinierte Anzahl übergeben.
import pandas as pd
import numpy as np
#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print ("The original series is:")
print s
print ("The last two rows of the data series:")
print s.tail(2)
Es ist output ist wie folgt -
The original series is:
0 -0.655091
1 -0.881407
2 -0.608592
3 -2.341413
dtype: float64
The last two rows of the data series:
2 -0.608592
3 -2.341413
dtype: float64
Grundlegende DataFrame-Funktionalität
Lassen Sie uns nun verstehen, was DataFrame Basic Functionality ist. In den folgenden Tabellen sind die wichtigen Attribute oder Methoden aufgeführt, die für die grundlegende Funktionalität von DataFrame hilfreich sind.
Sr.Nr. | Attribut oder Methode & Beschreibung |
---|---|
1 | T Transponiert Zeilen und Spalten. |
2 | axes Gibt eine Liste mit den Zeilenachsen- und Spaltenachsenbeschriftungen als einzigen Elementen zurück. |
3 | dtypes Gibt die dtypes in diesem Objekt zurück. |
4 | empty True, wenn NDFrame vollständig leer ist [keine Elemente]; wenn eine der Achsen die Länge 0 hat. |
5 | ndim Anzahl der Achsen / Array-Dimensionen. |
6 | shape Gibt ein Tupel zurück, das die Dimensionalität des DataFrame darstellt. |
7 | size Anzahl der Elemente im NDFrame. |
8 | values Numpy Darstellung von NDFrame. |
9 | head() Gibt die ersten n Zeilen zurück. |
10 | tail() Gibt die letzten n Zeilen zurück. |
Lassen Sie uns nun einen DataFrame erstellen und sehen, wie die oben genannten Attribute funktionieren.
Beispiel
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our data series is:")
print df
Es ist output ist wie folgt -
Our data series is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
T (Transponieren)
Gibt die Transponierung des DataFrame zurück. Die Zeilen und Spalten werden ausgetauscht.
import pandas as pd
import numpy as np
# Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
# Create a DataFrame
df = pd.DataFrame(d)
print ("The transpose of the data series is:")
print df.T
Es ist output ist wie folgt -
The transpose of the data series is:
0 1 2 3 4 5 6
Age 25 26 25 23 30 29 23
Name Tom James Ricky Vin Steve Smith Jack
Rating 4.23 3.24 3.98 2.56 3.2 4.6 3.8
Achsen
Gibt die Liste der Zeilenachsenbeschriftungen und Spaltenachsenbeschriftungen zurück.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Row axis labels and column axis labels are:")
print df.axes
Es ist output ist wie folgt -
Row axis labels and column axis labels are:
[RangeIndex(start=0, stop=7, step=1), Index([u'Age', u'Name', u'Rating'],
dtype='object')]
dtypes
Gibt den Datentyp jeder Spalte zurück.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("The data types of each column are:")
print df.dtypes
Es ist output ist wie folgt -
The data types of each column are:
Age int64
Name object
Rating float64
dtype: object
leer
Gibt den Booleschen Wert zurück, der angibt, ob das Objekt leer ist oder nicht. True gibt an, dass das Objekt leer ist.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Is the object empty?")
print df.empty
Es ist output ist wie folgt -
Is the object empty?
False
ndim
Gibt die Anzahl der Dimensionen des Objekts zurück. Per Definition ist DataFrame ein 2D-Objekt.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The dimension of the object is:")
print df.ndim
Es ist output ist wie folgt -
Our object is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
The dimension of the object is:
2
gestalten
Gibt ein Tupel zurück, das die Dimensionalität des DataFrame darstellt. Tupel (a, b), wobei a die Anzahl der Zeilen und darstelltb repräsentiert die Anzahl der Spalten.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The shape of the object is:")
print df.shape
Es ist output ist wie folgt -
Our object is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
The shape of the object is:
(7, 3)
Größe
Gibt die Anzahl der Elemente im DataFrame zurück.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The total number of elements in our object is:")
print df.size
Es ist output ist wie folgt -
Our object is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
The total number of elements in our object is:
21
Werte
Gibt die tatsächlichen Daten im DataFrame als zurück NDarray.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The actual data in our data frame is:")
print df.values
Es ist output ist wie folgt -
Our object is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
The actual data in our data frame is:
[[25 'Tom' 4.23]
[26 'James' 3.24]
[25 'Ricky' 3.98]
[23 'Vin' 2.56]
[30 'Steve' 3.2]
[29 'Smith' 4.6]
[23 'Jack' 3.8]]
Kopf & Schwanz
Verwenden Sie die Taste, um ein kleines Beispiel eines DataFrame-Objekts anzuzeigen head() und tail () Methoden. head() gibt den ersten zurück nZeilen (Indexwerte beachten). Die Standardanzahl der anzuzeigenden Elemente beträgt fünf, Sie können jedoch eine benutzerdefinierte Anzahl übergeben.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our data frame is:")
print df
print ("The first two rows of the data frame is:")
print df.head(2)
Es ist output ist wie folgt -
Our data frame is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
The first two rows of the data frame is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
tail() gibt den letzten zurück nZeilen (Indexwerte beachten). Die Standardanzahl der anzuzeigenden Elemente beträgt fünf, Sie können jedoch eine benutzerdefinierte Anzahl übergeben.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our data frame is:")
print df
print ("The last two rows of the data frame is:")
print df.tail(2)
Es ist output ist wie folgt -
Our data frame is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
The last two rows of the data frame is:
Age Name Rating
5 29 Smith 4.6
6 23 Jack 3.8