Python Pandas - Grundfunktionalität

Inzwischen haben wir die drei Pandas DataStructures kennengelernt und erfahren, wie sie erstellt werden. Wir werden uns aufgrund seiner Bedeutung für die Echtzeit-Datenverarbeitung hauptsächlich auf die DataFrame-Objekte konzentrieren und auch einige andere DataStructures diskutieren.

Grundlegende Funktionalität der Serie

Sr.Nr. Attribut oder Methode & Beschreibung
1

axes

Gibt eine Liste der Zeilenachsenbeschriftungen zurück

2

dtype

Gibt den dtype des Objekts zurück.

3

empty

Gibt True zurück, wenn die Serie leer ist.

4

ndim

Gibt die Anzahl der Dimensionen der zugrunde liegenden Daten per Definition 1 zurück.

5

size

Gibt die Anzahl der Elemente in den zugrunde liegenden Daten zurück.

6

values

Gibt die Serie als ndarray zurück.

7

head()

Gibt die ersten n Zeilen zurück.

8

tail()

Gibt die letzten n Zeilen zurück.

Lassen Sie uns nun eine Serie erstellen und alle oben aufgeführten Operationen mit tabellarischen Attributen anzeigen.

Beispiel

import pandas as pd
import numpy as np

#Create a series with 100 random numbers
s = pd.Series(np.random.randn(4))
print s

Es ist output ist wie folgt -

0   0.967853
1  -0.148368
2  -1.395906
3  -1.758394
dtype: float64

Achsen

Gibt die Liste der Beschriftungen der Serie zurück.

import pandas as pd
import numpy as np

#Create a series with 100 random numbers
s = pd.Series(np.random.randn(4))
print ("The axes are:")
print s.axes

Es ist output ist wie folgt -

The axes are:
[RangeIndex(start=0, stop=4, step=1)]

Das obige Ergebnis ist ein kompaktes Format einer Liste von Werten von 0 bis 5, dh [0,1,2,3,4].

leer

Gibt den Booleschen Wert zurück, der angibt, ob das Objekt leer ist oder nicht. True gibt an, dass das Objekt leer ist.

import pandas as pd
import numpy as np

#Create a series with 100 random numbers
s = pd.Series(np.random.randn(4))
print ("Is the Object empty?")
print s.empty

Es ist output ist wie folgt -

Is the Object empty?
False

ndim

Gibt die Anzahl der Dimensionen des Objekts zurück. Per Definition ist eine Serie eine 1D-Datenstruktur, daher wird sie zurückgegeben

import pandas as pd
import numpy as np

#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print s

print ("The dimensions of the object:")
print s.ndim

Es ist output ist wie folgt -

0   0.175898
1   0.166197
2  -0.609712
3  -1.377000
dtype: float64

The dimensions of the object:
1

Größe

Gibt die Größe (Länge) der Serie zurück.

import pandas as pd
import numpy as np

#Create a series with 4 random numbers
s = pd.Series(np.random.randn(2))
print s
print ("The size of the object:")
print s.size

Es ist output ist wie folgt -

0   3.078058
1  -1.207803
dtype: float64

The size of the object:
2

Werte

Gibt die tatsächlichen Daten in der Reihe als Array zurück.

import pandas as pd
import numpy as np

#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print s

print ("The actual data series is:")
print s.values

Es ist output ist wie folgt -

0   1.787373
1  -0.605159
2   0.180477
3  -0.140922
dtype: float64

The actual data series is:
[ 1.78737302 -0.60515881 0.18047664 -0.1409218 ]

Kopf & Schwanz

Verwenden Sie die Methoden head () und tail (), um ein kleines Beispiel einer Serie oder des DataFrame-Objekts anzuzeigen.

head() gibt den ersten zurück nZeilen (Indexwerte beachten). Die Standardanzahl der anzuzeigenden Elemente beträgt fünf, Sie können jedoch eine benutzerdefinierte Anzahl übergeben.

import pandas as pd
import numpy as np

#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print ("The original series is:")
print s

print ("The first two rows of the data series:")
print s.head(2)

Es ist output ist wie folgt -

The original series is:
0   0.720876
1  -0.765898
2   0.479221
3  -0.139547
dtype: float64

The first two rows of the data series:
0   0.720876
1  -0.765898
dtype: float64

tail() gibt den letzten zurück nZeilen (Indexwerte beachten). Die Standardanzahl der anzuzeigenden Elemente beträgt fünf, Sie können jedoch eine benutzerdefinierte Anzahl übergeben.

import pandas as pd
import numpy as np

#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print ("The original series is:")
print s

print ("The last two rows of the data series:")
print s.tail(2)

Es ist output ist wie folgt -

The original series is:
0 -0.655091
1 -0.881407
2 -0.608592
3 -2.341413
dtype: float64

The last two rows of the data series:
2 -0.608592
3 -2.341413
dtype: float64

Grundlegende DataFrame-Funktionalität

Lassen Sie uns nun verstehen, was DataFrame Basic Functionality ist. In den folgenden Tabellen sind die wichtigen Attribute oder Methoden aufgeführt, die für die grundlegende Funktionalität von DataFrame hilfreich sind.

Sr.Nr. Attribut oder Methode & Beschreibung
1

T

Transponiert Zeilen und Spalten.

2

axes

Gibt eine Liste mit den Zeilenachsen- und Spaltenachsenbeschriftungen als einzigen Elementen zurück.

3

dtypes

Gibt die dtypes in diesem Objekt zurück.

4

empty

True, wenn NDFrame vollständig leer ist [keine Elemente]; wenn eine der Achsen die Länge 0 hat.

5

ndim

Anzahl der Achsen / Array-Dimensionen.

6

shape

Gibt ein Tupel zurück, das die Dimensionalität des DataFrame darstellt.

7

size

Anzahl der Elemente im NDFrame.

8

values

Numpy Darstellung von NDFrame.

9

head()

Gibt die ersten n Zeilen zurück.

10

tail()

Gibt die letzten n Zeilen zurück.

Lassen Sie uns nun einen DataFrame erstellen und sehen, wie die oben genannten Attribute funktionieren.

Beispiel

import pandas as pd
import numpy as np

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

#Create a DataFrame
df = pd.DataFrame(d)
print ("Our data series is:")
print df

Es ist output ist wie folgt -

Our data series is:
    Age   Name    Rating
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30    Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80

T (Transponieren)

Gibt die Transponierung des DataFrame zurück. Die Zeilen und Spalten werden ausgetauscht.

import pandas as pd
import numpy as np
 
# Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

# Create a DataFrame
df = pd.DataFrame(d)
print ("The transpose of the data series is:")
print df.T

Es ist output ist wie folgt -

The transpose of the data series is:
         0     1       2      3      4      5       6
Age      25    26      25     23     30     29      23
Name     Tom   James   Ricky  Vin    Steve  Smith   Jack
Rating   4.23  3.24    3.98   2.56   3.2    4.6     3.8

Achsen

Gibt die Liste der Zeilenachsenbeschriftungen und Spaltenachsenbeschriftungen zurück.

import pandas as pd
import numpy as np

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

#Create a DataFrame
df = pd.DataFrame(d)
print ("Row axis labels and column axis labels are:")
print df.axes

Es ist output ist wie folgt -

Row axis labels and column axis labels are:

[RangeIndex(start=0, stop=7, step=1), Index([u'Age', u'Name', u'Rating'],
dtype='object')]

dtypes

Gibt den Datentyp jeder Spalte zurück.

import pandas as pd
import numpy as np

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

#Create a DataFrame
df = pd.DataFrame(d)
print ("The data types of each column are:")
print df.dtypes

Es ist output ist wie folgt -

The data types of each column are:
Age     int64
Name    object
Rating  float64
dtype: object

leer

Gibt den Booleschen Wert zurück, der angibt, ob das Objekt leer ist oder nicht. True gibt an, dass das Objekt leer ist.

import pandas as pd
import numpy as np
 
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 
#Create a DataFrame
df = pd.DataFrame(d)
print ("Is the object empty?")
print df.empty

Es ist output ist wie folgt -

Is the object empty?
False

ndim

Gibt die Anzahl der Dimensionen des Objekts zurück. Per Definition ist DataFrame ein 2D-Objekt.

import pandas as pd
import numpy as np

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The dimension of the object is:")
print df.ndim

Es ist output ist wie folgt -

Our object is:
      Age    Name     Rating
0     25     Tom      4.23
1     26     James    3.24
2     25     Ricky    3.98
3     23     Vin      2.56
4     30     Steve    3.20
5     29     Smith    4.60
6     23     Jack     3.80

The dimension of the object is:
2

gestalten

Gibt ein Tupel zurück, das die Dimensionalität des DataFrame darstellt. Tupel (a, b), wobei a die Anzahl der Zeilen und darstelltb repräsentiert die Anzahl der Spalten.

import pandas as pd
import numpy as np
 
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The shape of the object is:")
print df.shape

Es ist output ist wie folgt -

Our object is:
   Age   Name    Rating
0  25    Tom     4.23
1  26    James   3.24
2  25    Ricky   3.98
3  23    Vin     2.56
4  30    Steve   3.20
5  29    Smith   4.60
6  23    Jack    3.80

The shape of the object is:
(7, 3)

Größe

Gibt die Anzahl der Elemente im DataFrame zurück.

import pandas as pd
import numpy as np
 
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The total number of elements in our object is:")
print df.size

Es ist output ist wie folgt -

Our object is:
    Age   Name    Rating
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30    Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80

The total number of elements in our object is:
21

Werte

Gibt die tatsächlichen Daten im DataFrame als zurück NDarray.

import pandas as pd
import numpy as np
 
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The actual data in our data frame is:")
print df.values

Es ist output ist wie folgt -

Our object is:
    Age   Name    Rating
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30    Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80
The actual data in our data frame is:
[[25 'Tom' 4.23]
[26 'James' 3.24]
[25 'Ricky' 3.98]
[23 'Vin' 2.56]
[30 'Steve' 3.2]
[29 'Smith' 4.6]
[23 'Jack' 3.8]]

Kopf & Schwanz

Verwenden Sie die Taste, um ein kleines Beispiel eines DataFrame-Objekts anzuzeigen head() und tail () Methoden. head() gibt den ersten zurück nZeilen (Indexwerte beachten). Die Standardanzahl der anzuzeigenden Elemente beträgt fünf, Sie können jedoch eine benutzerdefinierte Anzahl übergeben.

import pandas as pd
import numpy as np
 
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

#Create a DataFrame
df = pd.DataFrame(d)
print ("Our data frame is:")
print df
print ("The first two rows of the data frame is:")
print df.head(2)

Es ist output ist wie folgt -

Our data frame is:
    Age   Name    Rating
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30    Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80

The first two rows of the data frame is:
   Age   Name   Rating
0  25    Tom    4.23
1  26    James  3.24

tail() gibt den letzten zurück nZeilen (Indexwerte beachten). Die Standardanzahl der anzuzeigenden Elemente beträgt fünf, Sie können jedoch eine benutzerdefinierte Anzahl übergeben.

import pandas as pd
import numpy as np

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]), 
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our data frame is:")
print df
print ("The last two rows of the data frame is:")
print df.tail(2)

Es ist output ist wie folgt -

Our data frame is:
    Age   Name    Rating
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30    Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80

The last two rows of the data frame is:
    Age   Name    Rating
5   29    Smith    4.6
6   23    Jack     3.8