คอลัมน์ที่ซ้ำกันใน Julia Dataframes

Aug 25 2020

ใน Python Pandas และ R เราสามารถกำจัดคอลัมน์ที่ซ้ำกันได้อย่างง่ายดายเพียงแค่โหลดข้อมูลกำหนดชื่อคอลัมน์และเลือกคอลัมน์ที่ไม่ซ้ำกัน

แนวทางปฏิบัติที่ดีที่สุดในการจัดการกับข้อมูลดังกล่าวกับ Julia Dataframes คืออะไร ไม่อนุญาตให้กำหนดชื่อคอลัมน์ที่ซ้ำกันที่นี่ ฉันเข้าใจว่าวิธีเดียวคือการนวดข้อมูลที่เข้ามาให้มากขึ้นและกำจัดข้อมูลดังกล่าวก่อนสร้าง Dataframe?

สิ่งนี้ก็คือการจัดการกับคอลัมน์ที่ซ้ำกันในดาต้าเฟรมที่สร้างไว้แล้วนั้นง่ายกว่าในข้อมูลขาเข้า

UPD:ฉันหมายถึงชื่อคอลัมน์ที่ซ้ำกัน ฉันสร้างดาต้าเฟรมจากข้อมูลดิบโดยที่ชื่อคอลัมน์ (และข้อมูล) สามารถทำซ้ำได้

UPD2:เพิ่มตัวอย่าง Python

>>> import numpy as np
>>> import pandas as pd
>>> df = pd.DataFrame(np.hstack([np.zeros((4,1)), np.ones((4,2))]), columns=["a", "b", "b"])
>>> df
     a    b    b
0  0.0  1.0  1.0
1  0.0  1.0  1.0
2  0.0  1.0  1.0
3  0.0  1.0  1.0
>>> df.loc[:, ~df.columns.duplicated()]
     a    b
0  0.0  1.0
1  0.0  1.0
2  0.0  1.0
3  0.0  1.0

ฉันสร้าง Julia Dataframe จากเมทริกซ์ Float32 จากนั้นกำหนดชื่อคอลัมน์จากเวกเตอร์ นั่นคือที่ที่ฉันต้องกำจัดคอลัมน์ที่มีชื่อซ้ำกัน (มีอยู่แล้วในดาต้าเฟรม) นั่นคือลักษณะของข้อมูลพื้นฐานบางครั้งมันก็มี dups บางครั้งก็ไม่มีฉันไม่สามารถควบคุมการสร้างได้

คำตอบ

2 BogumiłKamiński Aug 24 2020 at 23:38

นี่คือสิ่งที่คุณกำลังมองหา (ฉันไม่แน่ใจ 100% จากคำอธิบายของคุณ - หากนี่ไม่ใช่สิ่งที่คุณต้องการโปรดอัปเดตคำถามด้วยตัวอย่าง):

julia> df = DataFrame([zeros(4,3) ones(4,5)])
4×8 DataFrame
│ Row │ x1      │ x2      │ x3      │ x4      │ x5      │ x6      │ x7      │ x8      │
│     │ Float64 │ Float64 │ Float64 │ Float64 │ Float64 │ Float64 │ Float64 │ Float64 │
├─────┼─────────┼─────────┼─────────┼─────────┼─────────┼─────────┼─────────┼─────────┤
│ 1   │ 0.0     │ 0.0     │ 0.0     │ 1.0     │ 1.0     │ 1.0     │ 1.0     │ 1.0     │
│ 2   │ 0.0     │ 0.0     │ 0.0     │ 1.0     │ 1.0     │ 1.0     │ 1.0     │ 1.0     │
│ 3   │ 0.0     │ 0.0     │ 0.0     │ 1.0     │ 1.0     │ 1.0     │ 1.0     │ 1.0     │
│ 4   │ 0.0     │ 0.0     │ 0.0     │ 1.0     │ 1.0     │ 1.0     │ 1.0     │ 1.0     │

julia> DataFrame(unique(last, pairs(eachcol(df))))
4×2 DataFrame
│ Row │ x1      │ x4      │
│     │ Float64 │ Float64 │
├─────┼─────────┼─────────┤
│ 1   │ 0.0     │ 1.0     │
│ 2   │ 0.0     │ 1.0     │
│ 3   │ 0.0     │ 1.0     │
│ 4   │ 0.0     │ 1.0     │

แก้ไข

ในการลบชื่อคอลัมน์ที่ซ้ำกันให้ใช้makeuniqueอาร์กิวเมนต์คำหลัก:

julia> DataFrame(rand(3,4), [:x, :x, :x, :x], makeunique=true)
3×4 DataFrame
│ Row │ x         │ x_1      │ x_2      │ x_3       │
│     │ Float64   │ Float64  │ Float64  │ Float64   │
├─────┼───────────┼──────────┼──────────┼───────────┤
│ 1   │ 0.410494  │ 0.775563 │ 0.819916 │ 0.0520466 │
│ 2   │ 0.0503997 │ 0.427499 │ 0.262234 │ 0.965793  │
│ 3   │ 0.838595  │ 0.996305 │ 0.833607 │ 0.953539  │

แก้ไข 2

ดูเหมือนว่าคุณจะสามารถเข้าถึงชื่อคอลัมน์ได้เมื่อสร้างกรอบข้อมูล ในกรณีนี้ฉันจะทำ:

julia> mat = [ones(3,1) zeros(3,2)]
3×3 Array{Float64,2}:
 1.0  0.0  0.0
 1.0  0.0  0.0
 1.0  0.0  0.0

julia> cols = ["a", "b", "b"]
3-element Array{String,1}:
 "a"
 "b"
 "b"

julia> df = DataFrame(mat, cols, makeunique=true)
3×3 DataFrame
│ Row │ a       │ b       │ b_1     │
│     │ Float64 │ Float64 │ Float64 │
├─────┼─────────┼─────────┼─────────┤
│ 1   │ 1.0     │ 0.0     │ 0.0     │
│ 2   │ 1.0     │ 0.0     │ 0.0     │
│ 3   │ 1.0     │ 0.0     │ 0.0     │

julia> select!(df, unique(cols))
3×2 DataFrame
│ Row │ a       │ b       │
│     │ Float64 │ Float64 │
├─────┼─────────┼─────────┤
│ 1   │ 1.0     │ 0.0     │
│ 2   │ 1.0     │ 0.0     │
│ 3   │ 1.0     │ 0.0     │