विशिष्ट वर्ण स्ट्रिंग (R) [डुप्लिकेट] के साथ समाप्त होने वाले कॉलम नामों के साथ कॉलम में सम पंक्तियाँ

Aug 18 2020

मैं निम्नलिखित कोड का उपयोग कर रहा हूं, जो प्रति उपसमूह पर z स्कोर की गणना करता है। मैं अंत में एक और कॉलम जोड़ना चाहूंगा, जो z स्कोर को समेटता है, इसलिए पंक्ति-वार उन सभी कॉलमों में सभी मानों का जोड़ देता है जो "_zscore" के साथ समाप्त होते हैं। मैं विशेष रूप से उन कॉलमों का चयन कैसे कर सकता हूं?

(ध्यान दें कि मेरे वास्तविक डेटा में कई और कॉलम हैं, इसलिए मैं विशेष रूप से कॉलम नामों में "_zscore" का चयन करना चाहता हूं।)

 library(dplyr)
 set.seed(12345)
 df1 = data.frame(a=c(rep("a",8), rep("b",5), rep("c",7), rep("d",10)), 
      b=rnorm(30, 6, 2), 
      c=rnorm(30, 12, 3.5), 
      d=rnorm(30, 8, 3)
      )
 df1_z <- df1 %>%
   group_by(a) %>%
   mutate(across(b:d, list(zscore = ~as.numeric(scale(.)))))

जवाब

4 RonakShah Aug 18 2020 at 05:28

आप उन selectस्तंभों का चयन करने के लिए उपयोग कर सकते हैं जो समाप्त होते हैं "zscore"और उपयोग करते हैं rowSums:

library(dplyr)
df1 %>%
  group_by(a) %>%
  mutate(across(b:d, list(zscore = ~as.numeric(scale(.))))) %>%
  ungroup %>%
  mutate(total = rowSums(select(., ends_with('zscore'))))

# A tibble: 30 x 8
#   a         b     c     d b_zscore c_zscore d_zscore  total
#   <chr> <dbl> <dbl> <dbl>    <dbl>    <dbl>    <dbl>  <dbl>
# 1 a      7.17 14.8   8.45    0.697   0.101    0.0179  0.816
# 2 a      7.42 19.7   3.97    0.841   1.17    -1.14    0.865
# 3 a      5.78 19.2   9.66   -0.108   1.05     0.332   1.28 
# 4 a      5.09 17.7  12.8    -0.508   0.732    1.14    1.36 
# 5 a      7.21 12.9   6.24    0.721  -0.329   -0.555  -0.163
# 6 a      2.36 13.7   2.50   -2.09   -0.146   -1.52   -3.76 
# 7 a      7.26 10.9  10.7     0.749  -0.774    0.593   0.567
# 8 a      5.45  6.18 12.8    -0.302  -1.80     1.14   -0.965
# 9 b      5.43 18.2   9.55   -0.445   1.12     1.34    2.02 
#10 b      4.16 12.1   4.11   -1.06    0.0776  -1.02   -2.01 
# … with 20 more rows
2 Wimpel Aug 18 2020 at 06:30

यहाँ एक data.table समाधान है

यह मूल रूप से कोड फॉम रोनक के उत्तर के समान है, लेकिन फिर data.tableवाक्य रचना में।

स्पष्टीकरण
setDT(df1_z)सेट करने के लिए प्रयोग किया जाता है df1_zएक data.table प्रारूप करने के लिए
total := rowSums(.SD)एक नया स्तंभ बनाता है total, जिनमें से मूल्य था rowSumsकी .SD(चयनित स्तंभों का एक सेट)
.SDcols = patterns("_zscore$")के लिए चुने जाने वाले कॉलम को परिभाषित करता है .SD। यहाँ, यह कॉलम हैं जिनका नाम रेगेक्स पैटर्न से मेल खाता है _zscore$(जिसका अर्थ है: के साथ समाप्त होना _zscore)

library( data.table )
setDT(df1_z)[, total := rowSums(.SD), .SDcols = patterns("_zscore$")]