Pandas werden durchschnittlich und entfernen Duplikate
Nov 30 2020
Ich habe folgenden Datenrahmen:
import pandas as pd
df = pd.read_csv(...)
A B C
x 3 .
x 5 .
x 1 .
y 6 .
y 4 .
z 1 .
z 1 .
z 2 .
z 4 .
Kann mir jemand sagen, wie ich das erreichen kann:
A B
x 3
y 5
z 2
1. Löschen Sie Spalte C
2. Berechnen Sie den Durchschnitt basierend auf Spalte A
3. Entfernen Sie doppelte Zeilen basierend auf Spalte A.
Es ist mein erstes Abenteuer mit Python, Entschuldigung für Spam - ich habe versucht, andere Antworten zu verwenden, aber nichts funktioniert für mich.
Antworten
ombk Nov 30 2020 at 07:51
df = pd.DataFrame({"ali":["x","x","x","y","y","z",'z'],"mali":[1,10,2,4,6,6,7]})
#output
ali mali
0 x 1
1 x 10
2 x 2
3 y 4
4 y 6
5 z 6
6 z 7
df.groupby("ali")["mali"].mean()
ali
x 4.333333
y 5.000000
z 6.500000
Name: mali, dtype: float64
für Ihren Code wäre das
df.groupby("A")["B"].mean()
1 frankr6591 Nov 30 2020 at 08:12
Versuchen:
import requests
url = 'https://gist.githubusercontent.com/AlbertKozera/6396b4333d1a9222193e11401069ed9a/raw/ab8733a2135bcf61999bbcac4f92e0de5fd56794/Pojazdy%2520elektryczne%2520w%2520USA.csv'
r = requests.get(url)
from io import StringIO
with StringIO(r.text) as sio:
df = pd.read_csv(sio)
print(df.head(3))
x =df.drop(['state', 'brand', 'model', 'year of production', 'type'], axis=1)
df2 = df.groupby('code').range.mean()
print("\n GROUPBY State x Range (mean)")
print(df2.head())