R - Panduan Cepat

R adalah bahasa pemrograman dan lingkungan perangkat lunak untuk analisis statistik, representasi grafik, dan pelaporan. R dibuat oleh Ross Ihaka dan Robert Gentleman di Universitas Auckland, Selandia Baru, dan saat ini dikembangkan oleh Tim Inti Pengembangan R.

Inti dari R adalah bahasa komputer yang diinterpretasikan yang memungkinkan percabangan dan perulangan serta pemrograman modular menggunakan fungsi. R memungkinkan integrasi dengan prosedur yang ditulis dalam bahasa C, C ++, .Net, Python, atau FORTRAN untuk efisiensi.

R tersedia secara bebas di bawah Lisensi Publik Umum GNU, dan versi biner yang telah dikompilasi sebelumnya disediakan untuk berbagai sistem operasi seperti Linux, Windows dan Mac.

R adalah perangkat lunak gratis yang didistribusikan di bawah salinan gaya GNU, dan merupakan bagian resmi dari proyek GNU yang disebut GNU S.

Evolusi R

R awalnya ditulis oleh Ross Ihaka dan Robert Gentlemandi Departemen Statistik Universitas Auckland di Auckland, Selandia Baru. R muncul pertama kali pada tahun 1993.

  • Sekelompok besar individu telah berkontribusi pada R dengan mengirimkan kode dan laporan bug.

  • Sejak pertengahan 1997 telah ada grup inti ("R Core Team") yang dapat mengubah arsip kode sumber R.

Fitur R

Seperti yang dinyatakan sebelumnya, R adalah bahasa pemrograman dan lingkungan perangkat lunak untuk analisis statistik, representasi grafik, dan pelaporan. Berikut ini adalah fitur-fitur penting R -

  • R adalah bahasa pemrograman yang berkembang dengan baik, sederhana dan efektif yang mencakup kondisional, loop, fungsi rekursif yang ditentukan pengguna dan fasilitas input dan output.

  • R memiliki fasilitas penanganan dan penyimpanan data yang efektif,

  • R menyediakan seperangkat operator untuk kalkulasi pada array, list, vektor, dan matriks.

  • R menyediakan kumpulan alat yang besar, koheren dan terintegrasi untuk analisis data.

  • R menyediakan fasilitas grafis untuk analisis data dan ditampilkan langsung di komputer atau dicetak di kertas.

Sebagai kesimpulan, R adalah bahasa pemrograman statistik yang paling banyak digunakan di dunia. Ini adalah pilihan data scientist # 1 dan didukung oleh komunitas kontributor yang bersemangat dan berbakat. R diajarkan di universitas dan digunakan dalam aplikasi bisnis misi kritis. Tutorial ini akan mengajari Anda pemrograman R beserta contoh-contoh yang sesuai dengan langkah-langkah sederhana dan mudah.

Pengaturan Lingkungan Lokal

Jika Anda masih ingin menyiapkan lingkungan untuk R, Anda dapat mengikuti langkah-langkah yang diberikan di bawah ini.

Instalasi Windows

Anda dapat mengunduh versi penginstal Windows R dari R-3.2.2 untuk Windows (32/64 bit) dan menyimpannya di direktori lokal.

Karena ini adalah penginstal Windows (.exe) dengan nama "R-version-win.exe". Anda cukup mengklik dua kali dan menjalankan penginstal yang menerima pengaturan default. Jika Windows Anda adalah versi 32-bit, itu menginstal versi 32-bit. Tetapi jika windows Anda 64-bit, maka itu menginstal versi 32-bit dan 64-bit.

Setelah instalasi, Anda dapat menemukan ikon untuk menjalankan Program dalam struktur direktori "R \ R3.2.2 \ bin \ i386 \ Rgui.exe" di bawah File Program Windows. Mengklik ikon ini menampilkan R-GUI yang merupakan konsol R untuk melakukan Pemrograman R.

Instalasi Linux

R tersedia sebagai biner untuk banyak versi Linux di lokasi R Binaries .

Instruksi untuk menginstal Linux bervariasi dari satu rasa ke rasa lainnya. Langkah-langkah ini disebutkan di bawah setiap jenis versi Linux di tautan yang disebutkan. Namun, jika Anda sedang terburu-buru, maka Anda bisa menggunakannyayum perintah untuk menginstal R sebagai berikut -

$ yum install R

Perintah di atas akan menginstal fungsionalitas inti pemrograman R bersama dengan paket standar, masih Anda memerlukan paket tambahan, maka Anda dapat meluncurkan prompt R sebagai berikut -

$ R
R version 3.2.0 (2015-04-16) -- "Full of  Ingredients"          
Copyright (C) 2015 The R Foundation for Statistical Computing
Platform: x86_64-redhat-linux-gnu (64-bit)

R is free software and comes with ABSOLUTELY NO WARRANTY.
You are welcome to redistribute it under certain conditions.
Type 'license()' or 'licence()' for distribution details.

R is a collaborative project with many  contributors.                    
Type 'contributors()' for more information and
'citation()' on how to cite R or R packages in publications.

Type 'demo()' for some demos, 'help()' for on-line help, or
'help.start()' for an HTML browser interface to help.
Type 'q()' to quit R.
>

Sekarang Anda dapat menggunakan perintah instal pada prompt R untuk menginstal paket yang diperlukan. Misalnya, perintah berikut akan menginstalplotrix paket yang diperlukan untuk grafik 3D.

> install.packages("plotrix")

Sebagai konvensi, kita akan mulai mempelajari pemrograman R dengan menulis "Hello, World!" program. Tergantung pada kebutuhan, Anda dapat memprogram baik pada command prompt R atau Anda dapat menggunakan file skrip R untuk menulis program Anda. Mari kita periksa keduanya satu per satu.

Prompt Perintah R.

Setelah Anda memiliki pengaturan lingkungan R, maka mudah untuk memulai command prompt R Anda hanya dengan mengetikkan perintah berikut di command prompt Anda -

$ R

Ini akan meluncurkan juru bahasa R dan Anda akan mendapatkan prompt> di mana Anda dapat mulai mengetik program Anda sebagai berikut -

> myString <- "Hello, World!"
> print ( myString)
[1] "Hello, World!"

Di sini pernyataan pertama mendefinisikan variabel string myString, di mana kita menetapkan string "Hello, World!" dan kemudian pernyataan print () berikutnya digunakan untuk mencetak nilai yang disimpan dalam variabel myString.

File R Script

Biasanya, Anda akan melakukan pemrograman dengan menulis program Anda dalam file skrip dan kemudian Anda menjalankan skrip tersebut di command prompt dengan bantuan juru bahasa R yang disebut Rscript. Jadi mari kita mulai dengan menulis kode berikut dalam file teks bernama test.R seperti di bawah -

# My first program in R Programming
myString <- "Hello, World!"

print ( myString)

Simpan kode di atas dalam file test.R dan jalankan di command prompt Linux seperti yang diberikan di bawah ini. Bahkan jika Anda menggunakan Windows atau sistem lain, sintaksisnya akan tetap sama.

$ Rscript test.R

Ketika kita menjalankan program di atas, hasilnya adalah sebagai berikut.

[1] "Hello, World!"

Komentar

Komentar seperti teks bantuan dalam program R Anda dan mereka diabaikan oleh penerjemah saat menjalankan program Anda yang sebenarnya. Komentar tunggal ditulis menggunakan # di awal pernyataan sebagai berikut -

# My first program in R Programming

R tidak mendukung komentar multi-baris tetapi Anda dapat melakukan trik sebagai berikut -

if(FALSE) {
   "This is a demo for multi-line comments and it should be put inside either a 
      single OR double quote"
}

myString <- "Hello, World!"
print ( myString)
[1] "Hello, World!"

Meskipun komentar di atas akan dijalankan oleh juru bahasa R, komentar tersebut tidak akan mengganggu program Anda yang sebenarnya. Anda harus memasukkan komentar seperti itu di dalam, baik kutipan tunggal maupun ganda.

Umumnya, saat melakukan pemrograman dalam bahasa pemrograman apa pun, Anda perlu menggunakan berbagai variabel untuk menyimpan berbagai informasi. Variabel hanyalah lokasi memori yang dicadangkan untuk menyimpan nilai. Artinya, saat Anda membuat variabel, Anda menyediakan beberapa ruang di memori.

Anda mungkin ingin menyimpan informasi dari berbagai tipe data seperti karakter, karakter lebar, integer, floating point, double floating point, Boolean dll. Berdasarkan tipe data variabel, sistem operasi mengalokasikan memori dan memutuskan apa yang dapat disimpan di memori cadangan.

Berbeda dengan bahasa pemrograman lain seperti C dan java di R, variabel tidak dideklarasikan sebagai beberapa tipe data. Variabel ditugaskan dengan R-Objects dan tipe data dari R-object menjadi tipe data dari variabel tersebut. Ada banyak tipe objek-R. Yang sering digunakan adalah -

  • Vectors
  • Lists
  • Matrices
  • Arrays
  • Factors
  • Bingkai Data

Yang paling sederhana dari objek ini adalah vector objectdan ada enam tipe data dari vektor atom ini, juga disebut sebagai enam kelas vektor. Objek R lainnya dibangun di atas vektor atom.

Tipe data Contoh Memeriksa
Logis BENAR SALAH
v <- TRUE 
print(class(v))

itu menghasilkan hasil sebagai berikut -

[1] "logical"
Numerik 12,3, 5, 999
v <- 23.5
print(class(v))

itu menghasilkan hasil sebagai berikut -

[1] "numeric"
Bilangan bulat 2L, 34L, 0L
v <- 2L
print(class(v))

itu menghasilkan hasil sebagai berikut -

[1] "integer"
Kompleks 3 + 2i
v <- 2+5i
print(class(v))

itu menghasilkan hasil sebagai berikut -

[1] "complex"
Karakter 'a', '"good", "TRUE", '23 .4'
v <- "TRUE"
print(class(v))

itu menghasilkan hasil sebagai berikut -

[1] "character"
Mentah "Halo" disimpan sebagai 48 65 6c 6c 6f
v <- charToRaw("Hello")
print(class(v))

itu menghasilkan hasil sebagai berikut -

[1] "raw"

Dalam pemrograman R, tipe data yang paling dasar disebut objek-R vectorsyang memegang elemen kelas yang berbeda seperti yang ditunjukkan di atas. Harap dicatat di R jumlah kelas tidak terbatas hanya pada enam jenis di atas. Misalnya, kita dapat menggunakan banyak vektor atom dan membuat array yang kelasnya akan menjadi array.

Vektor

Saat Anda ingin membuat vektor dengan lebih dari satu elemen, Anda harus menggunakan c() function yang artinya menggabungkan elemen-elemen menjadi sebuah vektor.

# Create a vector.
apple <- c('red','green',"yellow")
print(apple)

# Get the class of the vector.
print(class(apple))

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] "red"    "green"  "yellow"
[1] "character"

Daftar

List adalah R-object yang dapat berisi berbagai jenis elemen di dalamnya seperti vektor, fungsi, dan bahkan list lain di dalamnya.

# Create a list.
list1 <- list(c(2,5,3),21.3,sin)

# Print the list.
print(list1)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[[1]]
[1] 2 5 3

[[2]]
[1] 21.3

[[3]]
function (x)  .Primitive("sin")

Matriks

Matriks adalah kumpulan data persegi dua dimensi. Itu dapat dibuat menggunakan input vektor ke fungsi matriks.

# Create a matrix.
M = matrix( c('a','a','b','c','b','a'), nrow = 2, ncol = 3, byrow = TRUE)
print(M)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[,1] [,2] [,3]
[1,] "a"  "a"  "b" 
[2,] "c"  "b"  "a"

Array

Meskipun matriks dibatasi pada dua dimensi, array dapat terdiri dari sejumlah dimensi. Fungsi larik mengambil atribut redup yang menghasilkan jumlah dimensi yang diperlukan. Pada contoh di bawah ini kami membuat sebuah array dengan dua elemen yang masing-masing merupakan matriks 3x3.

# Create an array.
a <- array(c('green','yellow'),dim = c(3,3,2))
print(a)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

, , 1

     [,1]     [,2]     [,3]    
[1,] "green"  "yellow" "green" 
[2,] "yellow" "green"  "yellow"
[3,] "green"  "yellow" "green" 

, , 2

     [,1]     [,2]     [,3]    
[1,] "yellow" "green"  "yellow"
[2,] "green"  "yellow" "green" 
[3,] "yellow" "green"  "yellow"

Faktor

Faktor adalah objek-r yang dibuat menggunakan vektor. Ini menyimpan vektor bersama dengan nilai-nilai yang berbeda dari elemen dalam vektor sebagai label. Label selalu berupa karakter terlepas dari apakah itu numerik atau karakter atau Boolean dll. Dalam vektor input. Mereka berguna dalam pemodelan statistik.

Faktor dibuat menggunakan factor()fungsi. Itunlevels fungsi memberikan jumlah level.

# Create a vector.
apple_colors <- c('green','green','yellow','red','red','red','green')

# Create a factor object.
factor_apple <- factor(apple_colors)

# Print the factor.
print(factor_apple)
print(nlevels(factor_apple))

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] green  green  yellow red    red    red    green 
Levels: green red yellow
[1] 3

Bingkai Data

Bingkai data adalah objek data tabular. Tidak seperti matriks dalam bingkai data, setiap kolom dapat berisi mode data yang berbeda. Kolom pertama bisa numerik sedangkan kolom kedua bisa karakter dan kolom ketiga bisa logis. Ini adalah daftar vektor dengan panjang yang sama.

Bingkai Data dibuat menggunakan data.frame() fungsi.

# Create the data frame.
BMI <- 	data.frame(
   gender = c("Male", "Male","Female"), 
   height = c(152, 171.5, 165), 
   weight = c(81,93, 78),
   Age = c(42,38,26)
)
print(BMI)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

gender height weight Age
1   Male  152.0     81  42
2   Male  171.5     93  38
3 Female  165.0     78  26

Variabel memberi kita penyimpanan bernama yang dapat dimanipulasi oleh program kita. Variabel di R dapat menyimpan vektor atom, kelompok vektor atom, atau kombinasi dari banyak Robject. Nama variabel yang valid terdiri dari huruf, angka, dan titik atau karakter garis bawah. Nama variabel dimulai dengan huruf atau titik tidak diikuti dengan angka.

Nama Variabel Keabsahan Alasan
var_name2. sah Memiliki huruf, angka, titik, dan garis bawah
var_name% Tidak valid Memiliki karakter '%'. Hanya titik (.) Dan garis bawah yang diperbolehkan.
2var_name tidak valid Dimulai dengan angka

.var_name,

var.name

sah Bisa dimulai dengan titik (.) Tetapi titik (.) Tidak boleh diikuti dengan angka.
.2var_name tidak valid Titik awal diikuti dengan angka sehingga tidak valid.
_var_name tidak valid Dimulai dengan _ yang tidak valid

Penugasan Variabel

Variabel dapat diberi nilai menggunakan operator kiri, kanan dan sama dengan. Nilai variabel dapat dicetak menggunakanprint() atau cat()fungsi. Itucat() fungsi menggabungkan beberapa item menjadi hasil cetak berkelanjutan.

# Assignment using equal operator.
var.1 = c(0,1,2,3)           

# Assignment using leftward operator.
var.2 <- c("learn","R")   

# Assignment using rightward operator.   
c(TRUE,1) -> var.3           

print(var.1)
cat ("var.1 is ", var.1 ,"\n")
cat ("var.2 is ", var.2 ,"\n")
cat ("var.3 is ", var.3 ,"\n")

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] 0 1 2 3
var.1 is  0 1 2 3 
var.2 is  learn R 
var.3 is  1 1

Note- Vektor c (TRUE, 1) memiliki campuran kelas logika dan numerik. Jadi kelas logika dipaksakan ke kelas numerik sehingga TRUE menjadi 1.

Jenis Data Variabel

Dalam R, variabel itu sendiri tidak dideklarasikan dari tipe data apapun, melainkan mendapatkan tipe data dari R - object yang ditugaskan padanya. Jadi R disebut bahasa yang diketik secara dinamis, yang berarti bahwa kita dapat mengubah tipe data variabel dari variabel yang sama berulang kali saat menggunakannya dalam program.

var_x <- "Hello"
cat("The class of var_x is ",class(var_x),"\n")

var_x <- 34.5
cat("  Now the class of var_x is ",class(var_x),"\n")

var_x <- 27L
cat("   Next the class of var_x becomes ",class(var_x),"\n")

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

The class of var_x is  character 
   Now the class of var_x is  numeric 
      Next the class of var_x becomes  integer

Menemukan Variabel

Untuk mengetahui semua variabel yang saat ini tersedia di ruang kerja kami menggunakan ls()fungsi. Juga fungsi ls () dapat menggunakan pola untuk mencocokkan nama variabel.

print(ls())

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] "my var"     "my_new_var" "my_var"     "var.1"      
[5] "var.2"      "var.3"      "var.name"   "var_name2."
[9] "var_x"      "varname"

Note - Ini adalah contoh keluaran tergantung pada variabel apa yang dideklarasikan di lingkungan Anda.

Fungsi ls () bisa menggunakan pola untuk mencocokkan nama variabel.

# List the variables starting with the pattern "var".
print(ls(pattern = "var"))

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] "my var"     "my_new_var" "my_var"     "var.1"      
[5] "var.2"      "var.3"      "var.name"   "var_name2."
[9] "var_x"      "varname"

Variabel dimulai dengan dot(.) disembunyikan, mereka dapat didaftarkan menggunakan argumen "all.names = TRUE" ke fungsi ls ().

print(ls(all.name = TRUE))

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] ".cars"        ".Random.seed" ".var_name"    ".varname"     ".varname2"   
[6] "my var"       "my_new_var"   "my_var"       "var.1"        "var.2"        
[11]"var.3"        "var.name"     "var_name2."   "var_x"

Menghapus Variabel

Variabel dapat dihapus dengan menggunakan rm()fungsi. Di bawah ini kami menghapus variabel var.3. Saat mencetak nilai kesalahan variabel dilemparkan.

rm(var.3)
print(var.3)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] "var.3"
Error in print(var.3) : object 'var.3' not found

Semua variabel dapat dihapus dengan menggunakan rm() dan ls() berfungsi bersama.

rm(list = ls())
print(ls())

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

character(0)

Operator adalah simbol yang memberi tahu kompiler untuk melakukan manipulasi matematika atau logika tertentu. Bahasa R kaya akan operator bawaan dan menyediakan jenis operator berikut.

Jenis Operator

Kami memiliki jenis operator berikut dalam pemrograman R -

  • Operator Aritmatika
  • Operator Relasional
  • Operator Logis
  • Operator Penugasan
  • Operator Miscellaneous

Operator Aritmatika

Tabel berikut menunjukkan operator aritmatika yang didukung oleh bahasa R. Operator bertindak pada setiap elemen vektor.

Operator Deskripsi Contoh
+ Menambahkan dua vektor
v <- c( 2,5.5,6)
t <- c(8, 3, 4)
print(v+t)

itu menghasilkan hasil sebagai berikut -

[1] 10.0  8.5  10.0
- Mengurangi vektor kedua dari yang pertama
v <- c( 2,5.5,6)
t <- c(8, 3, 4)
print(v-t)

itu menghasilkan hasil sebagai berikut -

[1] -6.0  2.5  2.0
* Mengalikan kedua vektor
v <- c( 2,5.5,6)
t <- c(8, 3, 4)
print(v*t)

itu menghasilkan hasil sebagai berikut -

[1] 16.0 16.5 24.0
/ Bagilah vektor pertama dengan yang kedua
v <- c( 2,5.5,6)
t <- c(8, 3, 4)
print(v/t)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] 0.250000 1.833333 1.500000
%% Berikan sisa vektor pertama dengan yang kedua
v <- c( 2,5.5,6)
t <- c(8, 3, 4)
print(v%%t)

itu menghasilkan hasil sebagai berikut -

[1] 2.0 2.5 2.0
% /% Hasil pembagian vektor pertama dengan kedua (hasil bagi)
v <- c( 2,5.5,6)
t <- c(8, 3, 4)
print(v%/%t)

itu menghasilkan hasil sebagai berikut -

[1] 0 1 1
^ Vektor pertama dipangkatkan ke eksponen vektor kedua
v <- c( 2,5.5,6)
t <- c(8, 3, 4)
print(v^t)

itu menghasilkan hasil sebagai berikut -

[1]  256.000  166.375 1296.000

Operator Relasional

Tabel berikut menunjukkan operator relasional yang didukung oleh bahasa R. Setiap elemen dari vektor pertama dibandingkan dengan elemen yang sesuai dari vektor kedua. Hasil perbandingan adalah nilai Boolean.

Operator Deskripsi Contoh
> Memeriksa apakah setiap elemen vektor pertama lebih besar dari elemen terkait dari vektor kedua.
v <- c(2,5.5,6,9)
t <- c(8,2.5,14,9)
print(v>t)

itu menghasilkan hasil sebagai berikut -

[1] FALSE  TRUE FALSE FALSE
< Memeriksa apakah setiap elemen vektor pertama lebih kecil dari elemen yang sesuai pada vektor kedua.
v <- c(2,5.5,6,9)
t <- c(8,2.5,14,9)
print(v < t)

itu menghasilkan hasil sebagai berikut -

[1]  TRUE FALSE  TRUE FALSE
== Memeriksa apakah setiap elemen dari vektor pertama sama dengan elemen yang sesuai dari vektor kedua.
v <- c(2,5.5,6,9)
t <- c(8,2.5,14,9)
print(v == t)

itu menghasilkan hasil sebagai berikut -

[1] FALSE FALSE FALSE  TRUE
<= Memeriksa apakah setiap elemen dari vektor pertama kurang dari atau sama dengan elemen yang sesuai dari vektor kedua.
v <- c(2,5.5,6,9)
t <- c(8,2.5,14,9)
print(v<=t)

itu menghasilkan hasil sebagai berikut -

[1]  TRUE FALSE  TRUE  TRUE
> = Memeriksa apakah setiap elemen vektor pertama lebih besar dari atau sama dengan elemen terkait dari vektor kedua.
v <- c(2,5.5,6,9)
t <- c(8,2.5,14,9)
print(v>=t)

itu menghasilkan hasil sebagai berikut -

[1] FALSE  TRUE FALSE  TRUE
! = Memeriksa apakah setiap elemen dari vektor pertama tidak sama dengan elemen yang sesuai dari vektor kedua.
v <- c(2,5.5,6,9)
t <- c(8,2.5,14,9)
print(v!=t)

itu menghasilkan hasil sebagai berikut -

[1]  TRUE  TRUE  TRUE FALSE

Operator Logis

Tabel berikut menunjukkan operator logika yang didukung oleh bahasa R. Ini hanya berlaku untuk vektor tipe logis, numerik atau kompleks. Semua angka yang lebih besar dari 1 dianggap sebagai nilai logika BENAR.

Setiap elemen dari vektor pertama dibandingkan dengan elemen yang sesuai dari vektor kedua. Hasil perbandingan adalah nilai Boolean.

Operator Deskripsi Contoh
& Ini disebut operator AND Logis yang bijaksana. Ini menggabungkan setiap elemen vektor pertama dengan elemen yang sesuai dari vektor kedua dan memberikan keluaran BENAR jika kedua elemen BENAR.
v <- c(3,1,TRUE,2+3i)
t <- c(4,1,FALSE,2+3i)
print(v&t)

itu menghasilkan hasil sebagai berikut -

[1]  TRUE  TRUE FALSE  TRUE
| Ini disebut operator OR Logis yang Bijaksana Elemen. Ini menggabungkan setiap elemen dari vektor pertama dengan elemen yang sesuai dari vektor kedua dan memberikan keluaran TRUE jika salah satu elemennya BENAR.
v <- c(3,0,TRUE,2+2i)
t <- c(4,0,FALSE,2+3i)
print(v|t)

itu menghasilkan hasil sebagai berikut -

[1]  TRUE FALSE  TRUE  TRUE
! Ini disebut operator NOT Logical. Mengambil setiap elemen vektor dan memberikan nilai logika yang berlawanan.
v <- c(3,0,TRUE,2+2i)
print(!v)

itu menghasilkan hasil sebagai berikut -

[1] FALSE  TRUE FALSE FALSE

Operator logika && dan || menganggap hanya elemen pertama dari vektor dan memberikan vektor elemen tunggal sebagai output.

Operator Deskripsi Contoh
&& Disebut Logical AND operator. Mengambil elemen pertama dari kedua vektor dan memberikan TRUE hanya jika keduanya BENAR.
v <- c(3,0,TRUE,2+2i)
t <- c(1,3,TRUE,2+3i)
print(v&&t)

itu menghasilkan hasil sebagai berikut -

[1] TRUE
|| Disebut Logical OR operator. Mengambil elemen pertama dari kedua vektor dan memberikan TRUE jika salah satunya BENAR.
v <- c(0,0,TRUE,2+2i)
t <- c(0,3,TRUE,2+3i)
print(v||t)

itu menghasilkan hasil sebagai berikut -

[1] FALSE

Operator Penugasan

Operator ini digunakan untuk menetapkan nilai ke vektor.

Operator Deskripsi Contoh

<-

atau

=

atau

<< -

Disebut Left Assignment
v1 <- c(3,1,TRUE,2+3i)
v2 <<- c(3,1,TRUE,2+3i)
v3 = c(3,1,TRUE,2+3i)
print(v1)
print(v2)
print(v3)

itu menghasilkan hasil sebagai berikut -

[1] 3+0i 1+0i 1+0i 2+3i
[1] 3+0i 1+0i 1+0i 2+3i
[1] 3+0i 1+0i 1+0i 2+3i

->

atau

- >>

Disebut Penugasan Kanan
c(3,1,TRUE,2+3i) -> v1
c(3,1,TRUE,2+3i) ->> v2 
print(v1)
print(v2)

itu menghasilkan hasil sebagai berikut -

[1] 3+0i 1+0i 1+0i 2+3i
[1] 3+0i 1+0i 1+0i 2+3i

Operator Miscellaneous

Operator ini digunakan untuk tujuan tertentu dan bukan perhitungan matematis atau logis umum.

Operator Deskripsi Contoh
: Operator usus besar. Ini menciptakan rangkaian angka secara berurutan untuk sebuah vektor.
v <- 2:8
print(v)

itu menghasilkan hasil sebagai berikut -

[1] 2 3 4 5 6 7 8
%di% Operator ini digunakan untuk mengidentifikasi apakah suatu elemen termasuk dalam vektor.
v1 <- 8
v2 <- 12
t <- 1:10
print(v1 %in% t) 
print(v2 %in% t)

itu menghasilkan hasil sebagai berikut -

[1] TRUE
[1] FALSE
% *% Operator ini digunakan untuk mengalikan matriks dengan transposenya.
M = matrix( c(2,6,5,1,10,4), nrow = 2,ncol = 3,byrow = TRUE)
t = M %*% t(M)
print(t)

itu menghasilkan hasil sebagai berikut -

[,1] [,2]
[1,]   65   82
[2,]   82  117

Struktur pengambilan keputusan mengharuskan pemrogram untuk menentukan satu atau lebih kondisi untuk dievaluasi atau diuji oleh program, bersama dengan pernyataan atau pernyataan yang akan dieksekusi jika kondisi ditentukan untuk menjadi true, dan secara opsional, pernyataan lain yang akan dijalankan jika kondisi ditentukan untuk dijalankan false.

Berikut ini adalah bentuk umum dari struktur pengambilan keputusan khas yang ditemukan di sebagian besar bahasa pemrograman -

R memberikan jenis pernyataan pengambilan keputusan berikut. Klik tautan berikut untuk memeriksa detailnya.

Sr.No. Pernyataan & Deskripsi
1 jika pernyataan

Sebuah if pernyataan terdiri dari ekspresi Boolean diikuti oleh satu atau lebih pernyataan.

2 jika ... pernyataan lain

Sebuah if Pernyataan dapat diikuti dengan opsional else pernyataan, yang dijalankan ketika ekspresi Boolean salah.

3 pernyataan switch

SEBUAH switch pernyataan memungkinkan variabel untuk diuji kesetaraan terhadap daftar nilai.

Mungkin ada situasi ketika Anda perlu mengeksekusi blok kode beberapa kali. Secara umum, pernyataan dieksekusi secara berurutan. Pernyataan pertama dalam suatu fungsi dijalankan pertama, diikuti oleh yang kedua, dan seterusnya.

Bahasa pemrograman menyediakan berbagai struktur kontrol yang memungkinkan jalur eksekusi yang lebih rumit.

Pernyataan loop memungkinkan kita untuk mengeksekusi pernyataan atau sekelompok pernyataan beberapa kali dan berikut ini adalah bentuk umum dari pernyataan loop di sebagian besar bahasa pemrograman -

Bahasa pemrograman R menyediakan jenis loop berikut untuk menangani persyaratan perulangan. Klik tautan berikut untuk memeriksa detailnya.

Sr.No. Jenis & Deskripsi Loop
1 ulangi loop

Menjalankan urutan pernyataan beberapa kali dan menyingkat kode yang mengelola variabel loop.

2 while loop

Mengulangi pernyataan atau sekelompok pernyataan saat kondisi tertentu benar. Ini menguji kondisi sebelum menjalankan badan perulangan.

3 untuk loop

Seperti pernyataan while, kecuali pernyataan itu menguji kondisi di akhir badan perulangan.

Pernyataan Kontrol Loop

Pernyataan kontrol loop mengubah eksekusi dari urutan normalnya. Saat eksekusi meninggalkan ruang lingkup, semua objek otomatis yang dibuat dalam lingkup itu dimusnahkan.

R mendukung pernyataan kontrol berikut. Klik tautan berikut untuk memeriksa detailnya.

Sr.No. Pernyataan & Deskripsi Kontrol
1 pernyataan istirahat

Menghentikan loop pernyataan dan transfer eksekusi ke pernyataan segera setelah loop.

2 Pernyataan selanjutnya

Itu next pernyataan mensimulasikan perilaku tombol R.

Fungsi adalah sekumpulan pernyataan yang disusun bersama untuk melakukan tugas tertentu. R memiliki sejumlah besar fungsi built-in dan pengguna dapat membuat fungsinya sendiri.

Di R, fungsi adalah objek sehingga juru bahasa R dapat meneruskan kontrol ke fungsi tersebut, bersama dengan argumen yang mungkin diperlukan agar fungsi tersebut menyelesaikan tindakan.

Fungsi tersebut pada gilirannya melakukan tugasnya dan mengembalikan kontrol ke interpreter serta hasil apa pun yang mungkin disimpan di objek lain.

Definisi Fungsi

Fungsi R dibuat dengan menggunakan kata kunci function. Sintaks dasar dari definisi fungsi R adalah sebagai berikut -

function_name <- function(arg_1, arg_2, ...) {
   Function body 
}

Komponen Fungsi

Bagian yang berbeda dari suatu fungsi adalah -

  • Function Name- Ini adalah nama sebenarnya dari fungsinya. Itu disimpan di lingkungan R sebagai objek dengan nama ini.

  • Arguments- Argumen adalah placeholder. Saat suatu fungsi dipanggil, Anda meneruskan nilai ke argumen. Argumen bersifat opsional; artinya, suatu fungsi tidak boleh berisi argumen. Argumen juga dapat memiliki nilai default.

  • Function Body - Badan fungsi berisi kumpulan pernyataan yang mendefinisikan apa yang dilakukan fungsi.

  • Return Value - Nilai kembali dari suatu fungsi adalah ekspresi terakhir dalam badan fungsi yang akan dievaluasi.

R memiliki banyak in-builtfungsi yang bisa langsung dipanggil dalam program tanpa mendefinisikannya terlebih dahulu. Kami juga dapat membuat dan menggunakan fungsi kami sendiri yang disebutuser defined fungsi.

Fungsi Bawaan

Contoh sederhana dari fungsi built-in adalah seq(), mean(), max(), sum(x) dan paste(...)dll. Mereka secara langsung dipanggil oleh program tertulis pengguna. Anda dapat merujuk fungsi R yang paling banyak digunakan.

# Create a sequence of numbers from 32 to 44.
print(seq(32,44))

# Find mean of numbers from 25 to 82.
print(mean(25:82))

# Find sum of numbers frm 41 to 68.
print(sum(41:68))

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] 32 33 34 35 36 37 38 39 40 41 42 43 44
[1] 53.5
[1] 1526

Fungsi yang Ditentukan Pengguna

Kita dapat membuat fungsi yang ditentukan pengguna di R. Fungsi tersebut spesifik untuk apa yang diinginkan pengguna dan setelah dibuat, fungsi tersebut dapat digunakan seperti fungsi bawaan. Di bawah ini adalah contoh bagaimana sebuah fungsi dibuat dan digunakan.

# Create a function to print squares of numbers in sequence.
new.function <- function(a) {
   for(i in 1:a) {
      b <- i^2
      print(b)
   }
}

Memanggil Fungsi

# Create a function to print squares of numbers in sequence.
new.function <- function(a) {
   for(i in 1:a) {
      b <- i^2
      print(b)
   }
}

# Call the function new.function supplying 6 as an argument.
new.function(6)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] 1
[1] 4
[1] 9
[1] 16
[1] 25
[1] 36

Memanggil Fungsi tanpa Argumen

# Create a function without an argument.
new.function <- function() {
   for(i in 1:5) {
      print(i^2)
   }
}	

# Call the function without supplying an argument.
new.function()

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] 1
[1] 4
[1] 9
[1] 16
[1] 25

Memanggil Fungsi dengan Nilai Argumen (menurut posisi dan nama)

Argumen ke panggilan fungsi dapat diberikan dalam urutan yang sama seperti yang didefinisikan dalam fungsi atau dapat diberikan dalam urutan yang berbeda tetapi ditetapkan ke nama argumen.

# Create a function with arguments.
new.function <- function(a,b,c) {
   result <- a * b + c
   print(result)
}

# Call the function by position of arguments.
new.function(5,3,11)

# Call the function by names of the arguments.
new.function(a = 11, b = 5, c = 3)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] 26
[1] 58

Memanggil Fungsi dengan Argumen Default

Kita dapat menentukan nilai argumen dalam definisi fungsi dan memanggil fungsi tanpa memberikan argumen apa pun untuk mendapatkan hasil default. Tapi kita juga bisa memanggil fungsi seperti itu dengan memberikan nilai baru dari argumen dan mendapatkan hasil non default.

# Create a function with arguments.
new.function <- function(a = 3, b = 6) {
   result <- a * b
   print(result)
}

# Call the function without giving any argument.
new.function()

# Call the function with giving new values of the argument.
new.function(9,5)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] 18
[1] 45

Evaluasi Fungsi Malas

Argumen ke fungsi dievaluasi secara malas, yang artinya argumen ke fungsi hanya dievaluasi saat diperlukan oleh badan fungsi.

# Create a function with arguments.
new.function <- function(a, b) {
   print(a^2)
   print(a)
   print(b)
}

# Evaluate the function without supplying one of the arguments.
new.function(6)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] 36
[1] 6
Error in print(b) : argument "b" is missing, with no default

Nilai apa pun yang ditulis dalam sepasang tanda kutip tunggal atau tanda kutip ganda di R diperlakukan sebagai string. Secara internal R menyimpan setiap string dalam tanda kutip ganda, bahkan saat Anda membuatnya dengan tanda kutip tunggal.

Aturan Diterapkan dalam Konstruksi String

  • Kutipan di awal dan akhir string harus berupa petik ganda atau keduanya. Mereka tidak bisa dicampur.

  • Tanda kutip ganda dapat dimasukkan ke dalam string yang dimulai dan diakhiri dengan tanda kutip tunggal.

  • Kutipan tunggal dapat dimasukkan ke dalam string yang dimulai dan diakhiri dengan tanda kutip ganda.

  • Tanda kutip ganda tidak dapat disisipkan ke dalam string yang dimulai dan diakhiri dengan tanda kutip ganda.

  • Kutipan tunggal tidak dapat dimasukkan ke dalam string yang dimulai dan diakhiri dengan kutipan tunggal.

Contoh String yang Valid

Contoh berikut memperjelas aturan tentang membuat string di R.

a <- 'Start and end with single quote'
print(a)

b <- "Start and end with double quotes"
print(b)

c <- "single quote ' in between double quotes"
print(c)

d <- 'Double quotes " in between single quote'
print(d)

Ketika kode di atas dijalankan, kita mendapatkan output berikut -

[1] "Start and end with single quote"
[1] "Start and end with double quotes"
[1] "single quote ' in between double quote"
[1] "Double quote \" in between single quote"

Contoh String Tidak Valid

e <- 'Mixed quotes" 
print(e)

f <- 'Single quote ' inside single quote'
print(f)

g <- "Double quotes " inside double quotes"
print(g)

Ketika kami menjalankan skrip itu gagal memberikan hasil di bawah ini.

Error: unexpected symbol in:
"print(e)
f <- 'Single"
Execution halted

Manipulasi String

String Penggabungan - paste () fungsi

Banyak string di R digabungkan menggunakan paste()fungsi. Diperlukan sejumlah argumen untuk digabungkan.

Sintaksis

Sintaks dasar untuk fungsi paste adalah -

paste(..., sep = " ", collapse = NULL)

Berikut adalah uraian parameter yang digunakan -

  • ... mewakili sejumlah argumen untuk digabungkan.

  • sepmewakili pemisah apa pun di antara argumen. Ini opsional.

  • collapsedigunakan untuk menghilangkan spasi di antara dua string. Tapi bukan spasi dalam dua kata dari satu string.

Contoh

a <- "Hello"
b <- 'How'
c <- "are you? "

print(paste(a,b,c))

print(paste(a,b,c, sep = "-"))

print(paste(a,b,c, sep = "", collapse = ""))

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] "Hello How are you? "
[1] "Hello-How-are you? "
[1] "HelloHoware you? "

Memformat angka & string - fungsi format ()

Angka dan string dapat diformat dengan gaya tertentu menggunakan format() fungsi.

Sintaksis

Sintaks dasar untuk fungsi format adalah -

format(x, digits, nsmall, scientific, width, justify = c("left", "right", "centre", "none"))

Berikut adalah uraian parameter yang digunakan -

  • x adalah input vektor.

  • digits adalah jumlah total digit yang ditampilkan.

  • nsmall adalah jumlah digit minimum di sebelah kanan koma desimal.

  • scientific disetel ke TRUE untuk menampilkan notasi ilmiah.

  • width menunjukkan lebar minimum yang akan ditampilkan dengan mengisi kekosongan di awal.

  • justify adalah tampilan string ke kiri, kanan atau tengah.

Contoh

# Total number of digits displayed. Last digit rounded off.
result <- format(23.123456789, digits = 9)
print(result)

# Display numbers in scientific notation.
result <- format(c(6, 13.14521), scientific = TRUE)
print(result)

# The minimum number of digits to the right of the decimal point.
result <- format(23.47, nsmall = 5)
print(result)

# Format treats everything as a string.
result <- format(6)
print(result)

# Numbers are padded with blank in the beginning for width.
result <- format(13.7, width = 6)
print(result)

# Left justify strings.
result <- format("Hello", width = 8, justify = "l")
print(result)

# Justfy string with center.
result <- format("Hello", width = 8, justify = "c")
print(result)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] "23.1234568"
[1] "6.000000e+00" "1.314521e+01"
[1] "23.47000"
[1] "6"
[1] "  13.7"
[1] "Hello   "
[1] " Hello  "

Menghitung jumlah karakter dalam fungsi string - nchar ()

Fungsi ini menghitung jumlah karakter termasuk spasi dalam string.

Sintaksis

Sintaks dasar untuk fungsi nchar () adalah -

nchar(x)

Berikut adalah uraian parameter yang digunakan -

  • x adalah input vektor.

Contoh

result <- nchar("Count the number of characters")
print(result)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] 30

Mengubah fungsi case - toupper () & tolower ()

Fungsi-fungsi ini mengubah huruf besar-kecil dari sebuah string.

Sintaksis

Sintaks dasar untuk fungsi toupper () & tolower () adalah -

toupper(x)
tolower(x)

Berikut adalah uraian parameter yang digunakan -

  • x adalah input vektor.

Contoh

# Changing to Upper case.
result <- toupper("Changing To Upper")
print(result)

# Changing to lower case.
result <- tolower("Changing To Lower")
print(result)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] "CHANGING TO UPPER"
[1] "changing to lower"

Mengekstrak bagian dari fungsi string - substring ()

Fungsi ini mengekstrak bagian dari String.

Sintaksis

Sintaks dasar untuk fungsi substring () adalah -

substring(x,first,last)

Berikut adalah uraian parameter yang digunakan -

  • x adalah input vektor karakter.

  • first adalah posisi karakter pertama yang akan diekstraksi.

  • last adalah posisi karakter terakhir yang akan diekstraksi.

Contoh

# Extract characters from 5th to 7th position.
result <- substring("Extract", 5, 7)
print(result)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] "act"

Vektor adalah objek data R yang paling dasar dan ada enam jenis vektor atom. Mereka logis, bilangan bulat, ganda, kompleks, karakter dan mentah.

Penciptaan Vektor

Vektor Elemen Tunggal

Bahkan ketika Anda menulis hanya satu nilai di R, itu menjadi vektor dengan panjang 1 dan termasuk dalam salah satu jenis vektor di atas.

# Atomic vector of type character.
print("abc");

# Atomic vector of type double.
print(12.5)

# Atomic vector of type integer.
print(63L)

# Atomic vector of type logical.
print(TRUE)

# Atomic vector of type complex.
print(2+3i)

# Atomic vector of type raw.
print(charToRaw('hello'))

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] "abc"
[1] 12.5
[1] 63
[1] TRUE
[1] 2+3i
[1] 68 65 6c 6c 6f

Beberapa Elemen Vektor

Using colon operator with numeric data

# Creating a sequence from 5 to 13.
v <- 5:13
print(v)

# Creating a sequence from 6.6 to 12.6.
v <- 6.6:12.6
print(v)

# If the final element specified does not belong to the sequence then it is discarded.
v <- 3.8:11.4
print(v)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1]  5  6  7  8  9 10 11 12 13
[1]  6.6  7.6  8.6  9.6 10.6 11.6 12.6
[1]  3.8  4.8  5.8  6.8  7.8  8.8  9.8 10.8

Using sequence (Seq.) operator

# Create vector with elements from 5 to 9 incrementing by 0.4.
print(seq(5, 9, by = 0.4))

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] 5.0 5.4 5.8 6.2 6.6 7.0 7.4 7.8 8.2 8.6 9.0

Using the c() function

Nilai non-karakter dipaksakan menjadi tipe karakter jika salah satu elemennya adalah karakter.

# The logical and numeric values are converted to characters.
s <- c('apple','red',5,TRUE)
print(s)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] "apple" "red"   "5"     "TRUE"

Mengakses Elemen Vektor

Elemen Vektor diakses menggunakan pengindeksan. Itu[ ] bracketsdigunakan untuk pengindeksan. Pengindeksan dimulai dengan posisi 1. Memberikan nilai negatif dalam indeks akan menghilangkan elemen tersebut dari hasil.TRUE, FALSE atau 0 dan 1 juga dapat digunakan untuk pengindeksan.

# Accessing vector elements using position.
t <- c("Sun","Mon","Tue","Wed","Thurs","Fri","Sat")
u <- t[c(2,3,6)]
print(u)

# Accessing vector elements using logical indexing.
v <- t[c(TRUE,FALSE,FALSE,FALSE,FALSE,TRUE,FALSE)]
print(v)

# Accessing vector elements using negative indexing.
x <- t[c(-2,-5)]
print(x)

# Accessing vector elements using 0/1 indexing.
y <- t[c(0,0,0,0,0,0,1)]
print(y)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] "Mon" "Tue" "Fri"
[1] "Sun" "Fri"
[1] "Sun" "Tue" "Wed" "Fri" "Sat"
[1] "Sun"

Manipulasi Vektor

Aritmatika vektor

Dua vektor dengan panjang yang sama dapat ditambahkan, dikurangi, dikalikan atau dibagi sehingga menghasilkan keluaran vektor.

# Create two vectors.
v1 <- c(3,8,4,5,0,11)
v2 <- c(4,11,0,8,1,2)

# Vector addition.
add.result <- v1+v2
print(add.result)

# Vector subtraction.
sub.result <- v1-v2
print(sub.result)

# Vector multiplication.
multi.result <- v1*v2
print(multi.result)

# Vector division.
divi.result <- v1/v2
print(divi.result)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1]  7 19  4 13  1 13
[1] -1 -3  4 -3 -1  9
[1] 12 88  0 40  0 22
[1] 0.7500000 0.7272727       Inf 0.6250000 0.0000000 5.5000000

Daur Ulang Elemen Vektor

Jika kita menerapkan operasi aritmatika ke dua vektor yang panjangnya tidak sama, maka elemen dari vektor yang lebih pendek didaur ulang untuk menyelesaikan operasi tersebut.

v1 <- c(3,8,4,5,0,11)
v2 <- c(4,11)
# V2 becomes c(4,11,4,11,4,11)

add.result <- v1+v2
print(add.result)

sub.result <- v1-v2
print(sub.result)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1]  7 19  8 16  4 22
[1] -1 -3  0 -6 -4  0

Penyortiran Elemen Vektor

Elemen dalam vektor dapat diurutkan menggunakan sort() fungsi.

v <- c(3,8,4,5,0,11, -9, 304)

# Sort the elements of the vector.
sort.result <- sort(v)
print(sort.result)

# Sort the elements in the reverse order.
revsort.result <- sort(v, decreasing = TRUE)
print(revsort.result)

# Sorting character vectors.
v <- c("Red","Blue","yellow","violet")
sort.result <- sort(v)
print(sort.result)

# Sorting character vectors in reverse order.
revsort.result <- sort(v, decreasing = TRUE)
print(revsort.result)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1]  -9   0   3   4   5   8  11 304
[1] 304  11   8   5   4   3   0  -9
[1] "Blue"   "Red"    "violet" "yellow"
[1] "yellow" "violet" "Red"    "Blue"

Daftar adalah objek R yang berisi elemen dari berbagai jenis seperti - angka, string, vektor, dan daftar lain di dalamnya. Daftar juga bisa berisi matriks atau fungsi sebagai elemennya. Daftar dibuat menggunakanlist() fungsi.

Membuat Daftar

Berikut adalah contoh untuk membuat list yang berisi string, angka, vektor dan nilai logika.

# Create a list containing strings, numbers, vectors and a logical
# values.
list_data <- list("Red", "Green", c(21,32,11), TRUE, 51.23, 119.1)
print(list_data)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[[1]]
[1] "Red"

[[2]]
[1] "Green"

[[3]]
[1] 21 32 11

[[4]]
[1] TRUE

[[5]]
[1] 51.23

[[6]]
[1] 119.1

Elemen Daftar Penamaan

Elemen daftar dapat diberi nama dan dapat diakses menggunakan nama ini.

# Create a list containing a vector, a matrix and a list.
list_data <- list(c("Jan","Feb","Mar"), matrix(c(3,9,5,1,-2,8), nrow = 2),
   list("green",12.3))

# Give names to the elements in the list.
names(list_data) <- c("1st Quarter", "A_Matrix", "A Inner list")

# Show the list.
print(list_data)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

$`1st_Quarter` [1] "Jan" "Feb" "Mar" $A_Matrix
     [,1] [,2] [,3]
[1,]    3    5   -2
[2,]    9    1    8

$A_Inner_list $A_Inner_list[[1]]
[1] "green"

$A_Inner_list[[2]]
[1] 12.3

Mengakses Elemen Daftar

Elemen daftar dapat diakses dengan indeks elemen dalam daftar. Dalam kasus daftar bernama itu juga dapat diakses menggunakan nama.

Kami terus menggunakan daftar dalam contoh di atas -

# Create a list containing a vector, a matrix and a list.
list_data <- list(c("Jan","Feb","Mar"), matrix(c(3,9,5,1,-2,8), nrow = 2),
   list("green",12.3))

# Give names to the elements in the list.
names(list_data) <- c("1st Quarter", "A_Matrix", "A Inner list")

# Access the first element of the list.
print(list_data[1])

# Access the thrid element. As it is also a list, all its elements will be printed.
print(list_data[3])

# Access the list element using the name of the element.
print(list_data$A_Matrix)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

$`1st_Quarter` [1] "Jan" "Feb" "Mar" $A_Inner_list
$A_Inner_list[[1]] [1] "green" $A_Inner_list[[2]]
[1] 12.3

     [,1] [,2] [,3]
[1,]    3    5   -2
[2,]    9    1    8

Memanipulasi Elemen Daftar

Kita dapat menambah, menghapus dan memperbarui elemen daftar seperti yang ditunjukkan di bawah. Kita dapat menambah dan menghapus elemen hanya di akhir daftar. Tetapi kami dapat memperbarui elemen apa pun.

# Create a list containing a vector, a matrix and a list.
list_data <- list(c("Jan","Feb","Mar"), matrix(c(3,9,5,1,-2,8), nrow = 2),
   list("green",12.3))

# Give names to the elements in the list.
names(list_data) <- c("1st Quarter", "A_Matrix", "A Inner list")

# Add element at the end of the list.
list_data[4] <- "New element"
print(list_data[4])

# Remove the last element.
list_data[4] <- NULL

# Print the 4th Element.
print(list_data[4])

# Update the 3rd Element.
list_data[3] <- "updated element"
print(list_data[3])

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[[1]]
[1] "New element"

$<NA> NULL $`A Inner list`
[1] "updated element"

Menggabungkan Daftar

Anda dapat menggabungkan banyak daftar menjadi satu daftar dengan menempatkan semua daftar di dalam satu fungsi list ().

# Create two lists.
list1 <- list(1,2,3)
list2 <- list("Sun","Mon","Tue")

# Merge the two lists.
merged.list <- c(list1,list2)

# Print the merged list.
print(merged.list)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[[1]]
[1] 1

[[2]]
[1] 2

[[3]]
[1] 3

[[4]]
[1] "Sun"

[[5]]
[1] "Mon"

[[6]]
[1] "Tue"

Mengubah Daftar ke Vektor

Daftar dapat diubah menjadi vektor sehingga elemen-elemen vektor dapat digunakan untuk manipulasi lebih lanjut. Semua operasi aritmatika pada vektor dapat diterapkan setelah daftar diubah menjadi vektor. Untuk melakukan konversi ini, kami menggunakanunlist()fungsi. Dibutuhkan daftar sebagai input dan menghasilkan vektor.

# Create lists.
list1 <- list(1:5)
print(list1)

list2 <-list(10:14)
print(list2)

# Convert the lists to vectors.
v1 <- unlist(list1)
v2 <- unlist(list2)

print(v1)
print(v2)

# Now add the vectors
result <- v1+v2
print(result)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[[1]]
[1] 1 2 3 4 5

[[1]]
[1] 10 11 12 13 14

[1] 1 2 3 4 5
[1] 10 11 12 13 14
[1] 11 13 15 17 19

Matriks adalah objek R yang elemennya disusun dalam tata letak persegi dua dimensi. Mereka mengandung unsur-unsur dari jenis atom yang sama. Meskipun kita dapat membuat matriks yang hanya berisi karakter atau nilai logika saja, mereka tidak banyak berguna. Kami menggunakan matriks yang mengandung elemen numerik untuk digunakan dalam perhitungan matematika.

Matriks dibuat menggunakan matrix() fungsi.

Sintaksis

Sintaks dasar untuk membuat matriks di R adalah -

matrix(data, nrow, ncol, byrow, dimnames)

Berikut adalah uraian parameter yang digunakan -

  • data adalah vektor input yang menjadi elemen data dari matriks.

  • nrow adalah jumlah baris yang akan dibuat.

  • ncol adalah jumlah kolom yang akan dibuat.

  • byrowadalah petunjuk logis. Jika TRUE maka elemen vektor masukan disusun berdasarkan baris.

  • dimname adalah nama yang diberikan ke baris dan kolom.

Contoh

Buat matriks yang mengambil vektor angka sebagai input.

# Elements are arranged sequentially by row.
M <- matrix(c(3:14), nrow = 4, byrow = TRUE)
print(M)

# Elements are arranged sequentially by column.
N <- matrix(c(3:14), nrow = 4, byrow = FALSE)
print(N)

# Define the column and row names.
rownames = c("row1", "row2", "row3", "row4")
colnames = c("col1", "col2", "col3")

P <- matrix(c(3:14), nrow = 4, byrow = TRUE, dimnames = list(rownames, colnames))
print(P)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[,1] [,2] [,3]
[1,]    3    4    5
[2,]    6    7    8
[3,]    9   10   11
[4,]   12   13   14
     [,1] [,2] [,3]
[1,]    3    7   11
[2,]    4    8   12
[3,]    5    9   13
[4,]    6   10   14
     col1 col2 col3
row1    3    4    5
row2    6    7    8
row3    9   10   11
row4   12   13   14

Mengakses Elemen Matriks

Elemen-elemen matriks dapat diakses dengan menggunakan indeks kolom dan baris dari elemen tersebut. Kami mempertimbangkan matriks P di atas untuk menemukan elemen spesifik di bawah ini.

# Define the column and row names.
rownames = c("row1", "row2", "row3", "row4")
colnames = c("col1", "col2", "col3")

# Create the matrix.
P <- matrix(c(3:14), nrow = 4, byrow = TRUE, dimnames = list(rownames, colnames))

# Access the element at 3rd column and 1st row.
print(P[1,3])

# Access the element at 2nd column and 4th row.
print(P[4,2])

# Access only the  2nd row.
print(P[2,])

# Access only the 3rd column.
print(P[,3])

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] 5
[1] 13
col1 col2 col3 
   6    7    8 
row1 row2 row3 row4 
   5    8   11   14

Perhitungan Matriks

Berbagai operasi matematika dilakukan pada matriks menggunakan operator R. Hasil operasi juga berupa matriks.

Dimensi (jumlah baris dan kolom) harus sama untuk matriks yang terlibat dalam operasi.

Penambahan & Pengurangan Matriks

# Create two 2x3 matrices.
matrix1 <- matrix(c(3, 9, -1, 4, 2, 6), nrow = 2)
print(matrix1)

matrix2 <- matrix(c(5, 2, 0, 9, 3, 4), nrow = 2)
print(matrix2)

# Add the matrices.
result <- matrix1 + matrix2
cat("Result of addition","\n")
print(result)

# Subtract the matrices
result <- matrix1 - matrix2
cat("Result of subtraction","\n")
print(result)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[,1] [,2] [,3]
[1,]    3   -1    2
[2,]    9    4    6
     [,1] [,2] [,3]
[1,]    5    0    3
[2,]    2    9    4
Result of addition 
     [,1] [,2] [,3]
[1,]    8   -1    5
[2,]   11   13   10
Result of subtraction 
     [,1] [,2] [,3]
[1,]   -2   -1   -1
[2,]    7   -5    2

Perkalian & Pembagian Matriks

# Create two 2x3 matrices.
matrix1 <- matrix(c(3, 9, -1, 4, 2, 6), nrow = 2)
print(matrix1)

matrix2 <- matrix(c(5, 2, 0, 9, 3, 4), nrow = 2)
print(matrix2)

# Multiply the matrices.
result <- matrix1 * matrix2
cat("Result of multiplication","\n")
print(result)

# Divide the matrices
result <- matrix1 / matrix2
cat("Result of division","\n")
print(result)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[,1] [,2] [,3]
[1,]    3   -1    2
[2,]    9    4    6
     [,1] [,2] [,3]
[1,]    5    0    3
[2,]    2    9    4
Result of multiplication 
     [,1] [,2] [,3]
[1,]   15    0    6
[2,]   18   36   24
Result of division 
     [,1]      [,2]      [,3]
[1,]  0.6      -Inf 0.6666667
[2,]  4.5 0.4444444 1.5000000

Array adalah objek data R yang dapat menyimpan data lebih dari dua dimensi. Misalnya - Jika kita membuat array dimensi (2, 3, 4) maka itu membuat 4 matriks persegi panjang masing-masing dengan 2 baris dan 3 kolom. Array hanya dapat menyimpan tipe data.

Sebuah array dibuat menggunakan array()fungsi. Dibutuhkan vektor sebagai input dan menggunakan nilai didim parameter untuk membuat array.

Contoh

Contoh berikut membuat array dari dua matriks 3x3 masing-masing dengan 3 baris dan 3 kolom.

# Create two vectors of different lengths.
vector1 <- c(5,9,3)
vector2 <- c(10,11,12,13,14,15)

# Take these vectors as input to the array.
result <- array(c(vector1,vector2),dim = c(3,3,2))
print(result)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

, , 1

     [,1] [,2] [,3]
[1,]    5   10   13
[2,]    9   11   14
[3,]    3   12   15

, , 2

     [,1] [,2] [,3]
[1,]    5   10   13
[2,]    9   11   14
[3,]    3   12   15

Penamaan Kolom dan Baris

Kita bisa memberi nama pada baris, kolom dan matriks dalam larik dengan menggunakan dimnames parameter.

# Create two vectors of different lengths.
vector1 <- c(5,9,3)
vector2 <- c(10,11,12,13,14,15)
column.names <- c("COL1","COL2","COL3")
row.names <- c("ROW1","ROW2","ROW3")
matrix.names <- c("Matrix1","Matrix2")

# Take these vectors as input to the array.
result <- array(c(vector1,vector2),dim = c(3,3,2),dimnames = list(row.names,column.names,
   matrix.names))
print(result)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

, , Matrix1

     COL1 COL2 COL3
ROW1    5   10   13
ROW2    9   11   14
ROW3    3   12   15

, , Matrix2

     COL1 COL2 COL3
ROW1    5   10   13
ROW2    9   11   14
ROW3    3   12   15

Mengakses Elemen Array

# Create two vectors of different lengths.
vector1 <- c(5,9,3)
vector2 <- c(10,11,12,13,14,15)
column.names <- c("COL1","COL2","COL3")
row.names <- c("ROW1","ROW2","ROW3")
matrix.names <- c("Matrix1","Matrix2")

# Take these vectors as input to the array.
result <- array(c(vector1,vector2),dim = c(3,3,2),dimnames = list(row.names,
   column.names, matrix.names))

# Print the third row of the second matrix of the array.
print(result[3,,2])

# Print the element in the 1st row and 3rd column of the 1st matrix.
print(result[1,3,1])

# Print the 2nd Matrix.
print(result[,,2])

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

COL1 COL2 COL3 
   3   12   15 
[1] 13
     COL1 COL2 COL3
ROW1    5   10   13
ROW2    9   11   14
ROW3    3   12   15

Memanipulasi Elemen Array

Karena array terdiri dari matriks dalam beberapa dimensi, operasi pada elemen array dilakukan dengan mengakses elemen matriks.

# Create two vectors of different lengths.
vector1 <- c(5,9,3)
vector2 <- c(10,11,12,13,14,15)

# Take these vectors as input to the array.
array1 <- array(c(vector1,vector2),dim = c(3,3,2))

# Create two vectors of different lengths.
vector3 <- c(9,1,0)
vector4 <- c(6,0,11,3,14,1,2,6,9)
array2 <- array(c(vector1,vector2),dim = c(3,3,2))

# create matrices from these arrays.
matrix1 <- array1[,,2]
matrix2 <- array2[,,2]

# Add the matrices.
result <- matrix1+matrix2
print(result)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[,1] [,2] [,3]
[1,]   10   20   26
[2,]   18   22   28
[3,]    6   24   30

Perhitungan Di Seluruh Elemen Array

Kita bisa melakukan perhitungan di seluruh elemen dalam sebuah array menggunakan apply() fungsi.

Sintaksis

apply(x, margin, fun)

Berikut adalah uraian parameter yang digunakan -

  • x adalah sebuah array.

  • margin adalah nama kumpulan data yang digunakan.

  • fun adalah fungsi yang akan diterapkan di seluruh elemen array.

Contoh

Kami menggunakan fungsi apply () di bawah ini untuk menghitung jumlah elemen dalam baris larik di semua matriks.

# Create two vectors of different lengths.
vector1 <- c(5,9,3)
vector2 <- c(10,11,12,13,14,15)

# Take these vectors as input to the array.
new.array <- array(c(vector1,vector2),dim = c(3,3,2))
print(new.array)

# Use apply to calculate the sum of the rows across all the matrices.
result <- apply(new.array, c(1), sum)
print(result)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

, , 1

     [,1] [,2] [,3]
[1,]    5   10   13
[2,]    9   11   14
[3,]    3   12   15

, , 2

     [,1] [,2] [,3]
[1,]    5   10   13
[2,]    9   11   14
[3,]    3   12   15

[1] 56 68 60

Faktor adalah objek data yang digunakan untuk mengkategorikan data dan menyimpannya sebagai level. Mereka dapat menyimpan string dan integer. Mereka berguna di kolom yang memiliki nilai unik dalam jumlah terbatas. Seperti "Pria," Wanita "dan Benar, Salah, dll. Mereka berguna dalam analisis data untuk pemodelan statistik.

Faktor dibuat menggunakan factor () berfungsi dengan mengambil vektor sebagai input.

Contoh

# Create a vector as input.
data <- c("East","West","East","North","North","East","West","West","West","East","North")

print(data)
print(is.factor(data))

# Apply the factor function.
factor_data <- factor(data)

print(factor_data)
print(is.factor(factor_data))

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] "East"  "West"  "East"  "North" "North" "East"  "West"  "West"  "West"  "East" "North"
[1] FALSE
[1] East  West  East  North North East  West  West  West  East  North
Levels: East North West
[1] TRUE

Faktor dalam Data Frame

Saat membuat bingkai data apa pun dengan kolom data teks, R memperlakukan kolom teks sebagai data kategorikal dan membuat faktor di atasnya.

# Create the vectors for data frame.
height <- c(132,151,162,139,166,147,122)
weight <- c(48,49,66,53,67,52,40)
gender <- c("male","male","female","female","male","female","male")

# Create the data frame.
input_data <- data.frame(height,weight,gender)
print(input_data)

# Test if the gender column is a factor.
print(is.factor(input_data$gender)) # Print the gender column so see the levels. print(input_data$gender)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

height weight gender
1    132     48   male
2    151     49   male
3    162     66 female
4    139     53 female
5    166     67   male
6    147     52 female
7    122     40   male
[1] TRUE
[1] male   male   female female male   female male  
Levels: female male

Mengubah Urutan Level

Urutan tingkat dalam suatu faktor dapat diubah dengan menerapkan fungsi faktor lagi dengan urutan tingkat yang baru.

data <- c("East","West","East","North","North","East","West",
   "West","West","East","North")
# Create the factors
factor_data <- factor(data)
print(factor_data)

# Apply the factor function with required order of the level.
new_order_data <- factor(factor_data,levels = c("East","West","North"))
print(new_order_data)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] East  West  East  North North East  West  West  West  East  North
Levels: East North West
 [1] East  West  East  North North East  West  West  West  East  North
Levels: East West North

Tingkat Faktor Penghasil

Kami dapat menghasilkan tingkat faktor dengan menggunakan gl()fungsi. Dibutuhkan dua bilangan bulat sebagai input yang menunjukkan berapa banyak level dan berapa kali setiap level.

Sintaksis

gl(n, k, labels)

Berikut adalah uraian parameter yang digunakan -

  • n adalah bilangan bulat yang memberikan jumlah level.

  • k adalah bilangan bulat yang memberikan jumlah ulangan.

  • labels adalah vektor label untuk tingkat faktor yang dihasilkan.

Contoh

v <- gl(3, 4, labels = c("Tampa", "Seattle","Boston"))
print(v)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

Tampa   Tampa   Tampa   Tampa   Seattle Seattle Seattle Seattle Boston 
[10] Boston  Boston  Boston 
Levels: Tampa Seattle Boston

Bingkai data adalah tabel atau struktur seperti larik dua dimensi di mana setiap kolom berisi nilai dari satu variabel dan setiap baris berisi satu set nilai dari setiap kolom.

Berikut adalah ciri-ciri sebuah kerangka data.

  • Nama kolom tidak boleh kosong.
  • Nama baris harus unik.
  • Data yang disimpan dalam data frame dapat berupa numerik, faktor atau tipe karakter.
  • Setiap kolom harus berisi jumlah item data yang sama.

Buat Bingkai Data

# Create the data frame.
emp.data <- data.frame(
   emp_id = c (1:5), 
   emp_name = c("Rick","Dan","Michelle","Ryan","Gary"),
   salary = c(623.3,515.2,611.0,729.0,843.25), 
   
   start_date = as.Date(c("2012-01-01", "2013-09-23", "2014-11-15", "2014-05-11",
      "2015-03-27")),
   stringsAsFactors = FALSE
)
# Print the data frame.			
print(emp.data)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

emp_id    emp_name     salary     start_date
1     1     Rick        623.30     2012-01-01
2     2     Dan         515.20     2013-09-23
3     3     Michelle    611.00     2014-11-15
4     4     Ryan        729.00     2014-05-11
5     5     Gary        843.25     2015-03-27

Dapatkan Struktur Bingkai Data

Struktur kerangka data dapat dilihat dengan menggunakan str() fungsi.

# Create the data frame.
emp.data <- data.frame(
   emp_id = c (1:5), 
   emp_name = c("Rick","Dan","Michelle","Ryan","Gary"),
   salary = c(623.3,515.2,611.0,729.0,843.25), 
   
   start_date = as.Date(c("2012-01-01", "2013-09-23", "2014-11-15", "2014-05-11",
      "2015-03-27")),
   stringsAsFactors = FALSE
)
# Get the structure of the data frame.
str(emp.data)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

'data.frame':   5 obs. of  4 variables:
 $ emp_id : int 1 2 3 4 5 $ emp_name  : chr  "Rick" "Dan" "Michelle" "Ryan" ...
 $ salary : num 623 515 611 729 843 $ start_date: Date, format: "2012-01-01" "2013-09-23" "2014-11-15" "2014-05-11" ...

Ringkasan Data dalam Data Frame

Ringkasan statistik dan sifat data dapat diperoleh dengan menerapkan summary() fungsi.

# Create the data frame.
emp.data <- data.frame(
   emp_id = c (1:5), 
   emp_name = c("Rick","Dan","Michelle","Ryan","Gary"),
   salary = c(623.3,515.2,611.0,729.0,843.25), 
   
   start_date = as.Date(c("2012-01-01", "2013-09-23", "2014-11-15", "2014-05-11",
      "2015-03-27")),
   stringsAsFactors = FALSE
)
# Print the summary.
print(summary(emp.data))

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

emp_id    emp_name             salary        start_date        
 Min.   :1   Length:5           Min.   :515.2   Min.   :2012-01-01  
 1st Qu.:2   Class :character   1st Qu.:611.0   1st Qu.:2013-09-23  
 Median :3   Mode  :character   Median :623.3   Median :2014-05-11  
 Mean   :3                      Mean   :664.4   Mean   :2014-01-14  
 3rd Qu.:4                      3rd Qu.:729.0   3rd Qu.:2014-11-15  
 Max.   :5                      Max.   :843.2   Max.   :2015-03-27

Ekstrak Data dari Data Frame

Ekstrak kolom tertentu dari bingkai data menggunakan nama kolom.

# Create the data frame.
emp.data <- data.frame(
   emp_id = c (1:5),
   emp_name = c("Rick","Dan","Michelle","Ryan","Gary"),
   salary = c(623.3,515.2,611.0,729.0,843.25),
   
   start_date = as.Date(c("2012-01-01","2013-09-23","2014-11-15","2014-05-11",
      "2015-03-27")),
   stringsAsFactors = FALSE
)
# Extract Specific columns.
result <- data.frame(emp.data$emp_name,emp.data$salary)
print(result)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

emp.data.emp_name emp.data.salary
1              Rick          623.30
2               Dan          515.20
3          Michelle          611.00
4              Ryan          729.00
5              Gary          843.25

Ekstrak dua baris pertama dan kemudian semua kolom

# Create the data frame.
emp.data <- data.frame(
   emp_id = c (1:5),
   emp_name = c("Rick","Dan","Michelle","Ryan","Gary"),
   salary = c(623.3,515.2,611.0,729.0,843.25),
   
   start_date = as.Date(c("2012-01-01", "2013-09-23", "2014-11-15", "2014-05-11",
      "2015-03-27")),
   stringsAsFactors = FALSE
)
# Extract first two rows.
result <- emp.data[1:2,]
print(result)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

emp_id    emp_name   salary    start_date
1      1     Rick      623.3     2012-01-01
2      2     Dan       515.2     2013-09-23

Ekstrak 3 rd dan 5 th berturut-turut dengan 2 nd dan 4 th kolom

# Create the data frame.
emp.data <- data.frame(
   emp_id = c (1:5), 
   emp_name = c("Rick","Dan","Michelle","Ryan","Gary"),
   salary = c(623.3,515.2,611.0,729.0,843.25), 
   
	start_date = as.Date(c("2012-01-01", "2013-09-23", "2014-11-15", "2014-05-11",
      "2015-03-27")),
   stringsAsFactors = FALSE
)

# Extract 3rd and 5th row with 2nd and 4th column.
result <- emp.data[c(3,5),c(2,4)]
print(result)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

emp_name start_date
3 Michelle 2014-11-15
5     Gary 2015-03-27

Luaskan Data Frame

Kerangka data dapat diperluas dengan menambahkan kolom dan baris.

Tambahkan Kolom

Cukup tambahkan vektor kolom menggunakan nama kolom baru.

# Create the data frame.
emp.data <- data.frame(
   emp_id = c (1:5), 
   emp_name = c("Rick","Dan","Michelle","Ryan","Gary"),
   salary = c(623.3,515.2,611.0,729.0,843.25), 
   
   start_date = as.Date(c("2012-01-01", "2013-09-23", "2014-11-15", "2014-05-11",
      "2015-03-27")),
   stringsAsFactors = FALSE
)

# Add the "dept" coulmn.
emp.data$dept <- c("IT","Operations","IT","HR","Finance")
v <- emp.data
print(v)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

emp_id   emp_name    salary    start_date       dept
1     1    Rick        623.30    2012-01-01       IT
2     2    Dan         515.20    2013-09-23       Operations
3     3    Michelle    611.00    2014-11-15       IT
4     4    Ryan        729.00    2014-05-11       HR
5     5    Gary        843.25    2015-03-27       Finance

Menambahkan baris

Untuk menambahkan lebih banyak baris secara permanen ke bingkai data yang ada, kita perlu memasukkan baris baru dalam struktur yang sama dengan bingkai data yang ada dan menggunakan rbind() fungsi.

Pada contoh di bawah ini kami membuat bingkai data dengan baris baru dan menggabungkannya dengan bingkai data yang ada untuk membuat bingkai data akhir.

# Create the first data frame.
emp.data <- data.frame(
   emp_id = c (1:5), 
   emp_name = c("Rick","Dan","Michelle","Ryan","Gary"),
   salary = c(623.3,515.2,611.0,729.0,843.25), 
   
   start_date = as.Date(c("2012-01-01", "2013-09-23", "2014-11-15", "2014-05-11",
      "2015-03-27")),
   dept = c("IT","Operations","IT","HR","Finance"),
   stringsAsFactors = FALSE
)

# Create the second data frame
emp.newdata <- 	data.frame(
   emp_id = c (6:8), 
   emp_name = c("Rasmi","Pranab","Tusar"),
   salary = c(578.0,722.5,632.8), 
   start_date = as.Date(c("2013-05-21","2013-07-30","2014-06-17")),
   dept = c("IT","Operations","Fianance"),
   stringsAsFactors = FALSE
)

# Bind the two data frames.
emp.finaldata <- rbind(emp.data,emp.newdata)
print(emp.finaldata)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

emp_id     emp_name    salary     start_date       dept
1      1     Rick        623.30     2012-01-01       IT
2      2     Dan         515.20     2013-09-23       Operations
3      3     Michelle    611.00     2014-11-15       IT
4      4     Ryan        729.00     2014-05-11       HR
5      5     Gary        843.25     2015-03-27       Finance
6      6     Rasmi       578.00     2013-05-21       IT
7      7     Pranab      722.50     2013-07-30       Operations
8      8     Tusar       632.80     2014-06-17       Fianance

Paket R adalah kumpulan fungsi R, kode yang sesuai, dan data sampel. Mereka disimpan di bawah direktori bernama"library"di lingkungan R. Secara default, R menginstal satu set paket selama instalasi. Lebih banyak paket ditambahkan kemudian, jika diperlukan untuk tujuan tertentu. Saat kami memulai konsol R, hanya paket default yang tersedia secara default. Paket lain yang sudah diinstal harus dimuat secara eksplisit untuk digunakan oleh program R yang akan menggunakannya.

Semua paket yang tersedia dalam bahasa R terdaftar di Paket R.

Di bawah ini adalah daftar perintah yang akan digunakan untuk memeriksa, memverifikasi dan menggunakan paket R.

Periksa Paket R yang Tersedia

Dapatkan lokasi perpustakaan yang berisi paket R.

.libPaths()

Ketika kita mengeksekusi kode di atas, hasilnya adalah sebagai berikut. Ini dapat bervariasi tergantung pada pengaturan lokal komputer Anda.

[2] "C:/Program Files/R/R-3.2.2/library"

Dapatkan daftar semua paket yang diinstal

library()

Ketika kita mengeksekusi kode di atas, hasilnya adalah sebagai berikut. Ini dapat bervariasi tergantung pada pengaturan lokal komputer Anda.

Packages in library ‘C:/Program Files/R/R-3.2.2/library’:

base                    The R Base Package
boot                    Bootstrap Functions (Originally by Angelo Canty
                        for S)
class                   Functions for Classification
cluster                 "Finding Groups in Data": Cluster Analysis
                        Extended Rousseeuw et al.
codetools               Code Analysis Tools for R
compiler                The R Compiler Package
datasets                The R Datasets Package
foreign                 Read Data Stored by 'Minitab', 'S', 'SAS',
                        'SPSS', 'Stata', 'Systat', 'Weka', 'dBase', ...
graphics                The R Graphics Package
grDevices               The R Graphics Devices and Support for Colours
                        and Fonts
grid                    The Grid Graphics Package
KernSmooth              Functions for Kernel Smoothing Supporting Wand
                        & Jones (1995)
lattice                 Trellis Graphics for R
MASS                    Support Functions and Datasets for Venables and
                        Ripley's MASS
Matrix                  Sparse and Dense Matrix Classes and Methods
methods                 Formal Methods and Classes
mgcv                    Mixed GAM Computation Vehicle with GCV/AIC/REML
                        Smoothness Estimation
nlme                    Linear and Nonlinear Mixed Effects Models
nnet                    Feed-Forward Neural Networks and Multinomial
                        Log-Linear Models
parallel                Support for Parallel computation in R
rpart                   Recursive Partitioning and Regression Trees
spatial                 Functions for Kriging and Point Pattern
                        Analysis
splines                 Regression Spline Functions and Classes
stats                   The R Stats Package
stats4                  Statistical Functions using S4 Classes
survival                Survival Analysis
tcltk                   Tcl/Tk Interface
tools                   Tools for Package Development
utils                   The R Utils Package

Dapatkan semua paket yang saat ini dimuat di lingkungan R.

search()

Ketika kita mengeksekusi kode di atas, hasilnya adalah sebagai berikut. Ini dapat bervariasi tergantung pada pengaturan lokal komputer Anda.

[1] ".GlobalEnv"        "package:stats"     "package:graphics" 
[4] "package:grDevices" "package:utils"     "package:datasets" 
[7] "package:methods"   "Autoloads"         "package:base"

Instal Paket Baru

Ada dua cara untuk menambahkan paket R baru. Salah satunya adalah menginstal langsung dari direktori CRAN dan yang lainnya mendownload paket ke sistem lokal Anda dan menginstalnya secara manual.

Instal langsung dari CRAN

Perintah berikut mendapatkan paket langsung dari halaman web CRAN dan menginstal paket di lingkungan R. Anda mungkin diminta untuk memilih cermin terdekat. Pilih salah satu yang sesuai dengan lokasi Anda.

install.packages("Package Name")
 
# Install the package named "XML".
 install.packages("XML")

Instal paket secara manual

Buka tautan Paket R untuk mengunduh paket yang dibutuhkan. Simpan paket sebagai.zip mengajukan di lokasi yang sesuai di sistem lokal.

Sekarang Anda dapat menjalankan perintah berikut untuk menginstal paket ini di lingkungan R.

install.packages(file_name_with_path, repos = NULL, type = "source")

# Install the package named "XML"
install.packages("E:/XML_3.98-1.3.zip", repos = NULL, type = "source")

Muat Paket ke Perpustakaan

Sebelum paket dapat digunakan dalam kode, itu harus dimuat ke lingkungan R saat ini. Anda juga perlu memuat paket yang sudah diinstal sebelumnya tetapi tidak tersedia di lingkungan saat ini.

Paket dimuat menggunakan perintah berikut -

library("package Name", lib.loc = "path to library")

# Load the package named "XML"
install.packages("E:/XML_3.98-1.3.zip", repos = NULL, type = "source")

Pembentukan Ulang Data di R adalah tentang mengubah cara data diatur menjadi baris dan kolom. Sebagian besar waktu pemrosesan data di R dilakukan dengan mengambil data masukan sebagai kerangka data. Mudah untuk mengekstrak data dari baris dan kolom bingkai data tetapi ada situasi ketika kami membutuhkan bingkai data dalam format yang berbeda dari format yang kami terima. R memiliki banyak fungsi untuk memisahkan, menggabungkan, dan mengubah baris menjadi kolom dan sebaliknya dalam bingkai data.

Menggabungkan Kolom dan Baris dalam Bingkai Data

Kita dapat menggabungkan beberapa vektor untuk membuat bingkai data menggunakan cbind()fungsi. Juga kita bisa menggabungkan dua frame data menggunakanrbind() fungsi.

# Create vector objects.
city <- c("Tampa","Seattle","Hartford","Denver")
state <- c("FL","WA","CT","CO")
zipcode <- c(33602,98104,06161,80294)

# Combine above three vectors into one data frame.
addresses <- cbind(city,state,zipcode)

# Print a header.
cat("# # # # The First data frame\n") 

# Print the data frame.
print(addresses)

# Create another data frame with similar columns
new.address <- data.frame(
   city = c("Lowry","Charlotte"),
   state = c("CO","FL"),
   zipcode = c("80230","33949"),
   stringsAsFactors = FALSE
)

# Print a header.
cat("# # # The Second data frame\n") 

# Print the data frame.
print(new.address)

# Combine rows form both the data frames.
all.addresses <- rbind(addresses,new.address)

# Print a header.
cat("# # # The combined data frame\n") 

# Print the result.
print(all.addresses)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

# # # # The First data frame
     city       state zipcode
[1,] "Tampa"    "FL"  "33602"
[2,] "Seattle"  "WA"  "98104"
[3,] "Hartford" "CT"   "6161" 
[4,] "Denver"   "CO"  "80294"

# # # The Second data frame
       city       state   zipcode
1      Lowry      CO      80230
2      Charlotte  FL      33949

# # # The combined data frame
       city      state zipcode
1      Tampa     FL    33602
2      Seattle   WA    98104
3      Hartford  CT     6161
4      Denver    CO    80294
5      Lowry     CO    80230
6     Charlotte  FL    33949

Menggabungkan Bingkai Data

Kita bisa menggabungkan dua frame data dengan menggunakan merge()fungsi. Bingkai data harus memiliki nama kolom yang sama tempat penggabungan terjadi.

Dalam contoh di bawah ini, kami mempertimbangkan kumpulan data tentang Diabetes pada Wanita India Pima yang tersedia di nama perpustakaan "MASS". kami menggabungkan dua kumpulan data berdasarkan nilai tekanan darah ("bp") dan indeks massa tubuh ("bmi"). Saat memilih dua kolom ini untuk penggabungan, rekaman di mana nilai dari dua variabel ini cocok di kedua kumpulan data digabungkan bersama untuk membentuk satu bingkai data.

library(MASS)
merged.Pima <- merge(x = Pima.te, y = Pima.tr,
   by.x = c("bp", "bmi"),
   by.y = c("bp", "bmi")
)
print(merged.Pima)
nrow(merged.Pima)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

bp  bmi npreg.x glu.x skin.x ped.x age.x type.x npreg.y glu.y skin.y ped.y
1  60 33.8       1   117     23 0.466    27     No       2   125     20 0.088
2  64 29.7       2    75     24 0.370    33     No       2   100     23 0.368
3  64 31.2       5   189     33 0.583    29    Yes       3   158     13 0.295
4  64 33.2       4   117     27 0.230    24     No       1    96     27 0.289
5  66 38.1       3   115     39 0.150    28     No       1   114     36 0.289
6  68 38.5       2   100     25 0.324    26     No       7   129     49 0.439
7  70 27.4       1   116     28 0.204    21     No       0   124     20 0.254
8  70 33.1       4    91     32 0.446    22     No       9   123     44 0.374
9  70 35.4       9   124     33 0.282    34     No       6   134     23 0.542
10 72 25.6       1   157     21 0.123    24     No       4    99     17 0.294
11 72 37.7       5    95     33 0.370    27     No       6   103     32 0.324
12 74 25.9       9   134     33 0.460    81     No       8   126     38 0.162
13 74 25.9       1    95     21 0.673    36     No       8   126     38 0.162
14 78 27.6       5    88     30 0.258    37     No       6   125     31 0.565
15 78 27.6      10   122     31 0.512    45     No       6   125     31 0.565
16 78 39.4       2   112     50 0.175    24     No       4   112     40 0.236
17 88 34.5       1   117     24 0.403    40    Yes       4   127     11 0.598
   age.y type.y
1     31     No
2     21     No
3     24     No
4     21     No
5     21     No
6     43    Yes
7     36    Yes
8     40     No
9     29    Yes
10    28     No
11    55     No
12    39     No
13    39     No
14    49    Yes
15    49    Yes
16    38     No
17    28     No
[1] 17

Melting dan Casting

Salah satu aspek yang paling menarik dari pemrograman R adalah tentang mengubah bentuk data dalam beberapa langkah untuk mendapatkan bentuk yang diinginkan. Fungsi yang digunakan untuk melakukan ini disebutmelt() dan cast().

Kami menganggap dataset yang disebut kapal hadir di perpustakaan yang disebut "MASS".

library(MASS)
print(ships)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

type year   period   service   incidents
1     A   60     60        127         0
2     A   60     75         63         0
3     A   65     60       1095         3
4     A   65     75       1095         4
5     A   70     60       1512         6
.............
.............
8     A   75     75       2244         11
9     B   60     60      44882         39
10    B   60     75      17176         29
11    B   65     60      28609         58
............
............
17    C   60     60      1179          1
18    C   60     75       552          1
19    C   65     60       781          0
............
............

Lelehkan Data

Sekarang kami melebur data untuk mengaturnya, mengubah semua kolom selain tipe dan tahun menjadi beberapa baris.

molten.ships <- melt(ships, id = c("type","year"))
print(molten.ships)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

type year  variable  value
1      A   60    period      60
2      A   60    period      75
3      A   65    period      60
4      A   65    period      75
............
............
9      B   60    period      60
10     B   60    period      75
11     B   65    period      60
12     B   65    period      75
13     B   70    period      60
...........
...........
41     A   60    service    127
42     A   60    service     63
43     A   65    service   1095
...........
...........
70     D   70    service   1208
71     D   75    service      0
72     D   75    service   2051
73     E   60    service     45
74     E   60    service      0
75     E   65    service    789
...........
...........
101    C   70    incidents    6
102    C   70    incidents    2
103    C   75    incidents    0
104    C   75    incidents    1
105    D   60    incidents    0
106    D   60    incidents    0
...........
...........

Transmisikan Data Molten

Kami dapat mentransmisikan data cair ke dalam bentuk baru di mana agregat dari setiap jenis kapal untuk setiap tahun dibuat. Itu dilakukan dengan menggunakancast() fungsi.

recasted.ship <- cast(molten.ships, type+year~variable,sum)
print(recasted.ship)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

type year  period  service  incidents
1     A   60    135       190      0
2     A   65    135      2190      7
3     A   70    135      4865     24
4     A   75    135      2244     11
5     B   60    135     62058     68
6     B   65    135     48979    111
7     B   70    135     20163     56
8     B   75    135      7117     18
9     C   60    135      1731      2
10    C   65    135      1457      1
11    C   70    135      2731      8
12    C   75    135       274      1
13    D   60    135       356      0
14    D   65    135       480      0
15    D   70    135      1557     13
16    D   75    135      2051      4
17    E   60    135        45      0
18    E   65    135      1226     14
19    E   70    135      3318     17
20    E   75    135       542      1

Di R, kita dapat membaca data dari file yang disimpan di luar lingkungan R. Kami juga dapat menulis data ke dalam file yang akan disimpan dan diakses oleh sistem operasi. R dapat membaca dan menulis ke dalam berbagai format file seperti csv, excel, xml dll.

Pada bab ini kita akan belajar membaca data dari file csv kemudian menulis data ke dalam file csv. File tersebut harus ada di direktori kerja saat ini sehingga R dapat membacanya. Tentu saja kita juga dapat mengatur direktori kita sendiri dan membaca file dari sana.

Mendapatkan dan Mengatur Direktori Kerja

Anda dapat memeriksa direktori mana yang ditunjuk oleh ruang kerja R menggunakan file getwd()fungsi. Anda juga dapat mengatur direktori kerja baru menggunakansetwd()fungsi.

# Get and print current working directory.
print(getwd())

# Set current working directory.
setwd("/web/com")

# Get and print current working directory.
print(getwd())

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] "/web/com/1441086124_2016"
[1] "/web/com"

Hasil ini tergantung pada OS Anda dan direktori tempat Anda bekerja saat ini.

Masukan sebagai File CSV

File csv adalah file teks yang nilai dalam kolomnya dipisahkan dengan koma. Mari pertimbangkan data berikut yang ada di file bernamainput.csv.

Anda dapat membuat file ini menggunakan windows notepad dengan menyalin dan menempelkan data ini. Simpan file sebagaiinput.csv menggunakan opsi save As All files (*. *) di notepad.

id,name,salary,start_date,dept
1,Rick,623.3,2012-01-01,IT
2,Dan,515.2,2013-09-23,Operations
3,Michelle,611,2014-11-15,IT
4,Ryan,729,2014-05-11,HR
5,Gary,843.25,2015-03-27,Finance
6,Nina,578,2013-05-21,IT
7,Simon,632.8,2013-07-30,Operations
8,Guru,722.5,2014-06-17,Finance

Membaca File CSV

Berikut adalah contoh sederhana dari read.csv() berfungsi untuk membaca file CSV yang tersedia di direktori kerja Anda saat ini -

data <- read.csv("input.csv")
print(data)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

id,   name,    salary,   start_date,     dept
1      1    Rick     623.30    2012-01-01      IT
2      2    Dan      515.20    2013-09-23      Operations
3      3    Michelle 611.00    2014-11-15      IT
4      4    Ryan     729.00    2014-05-11      HR
5     NA    Gary     843.25    2015-03-27      Finance
6      6    Nina     578.00    2013-05-21      IT
7      7    Simon    632.80    2013-07-30      Operations
8      8    Guru     722.50    2014-06-17      Finance

Menganalisis File CSV

Secara default, read.csv()fungsi memberikan keluaran sebagai bingkai data. Ini dapat dengan mudah diperiksa sebagai berikut. Kami juga dapat memeriksa jumlah kolom dan baris.

data <- read.csv("input.csv")

print(is.data.frame(data))
print(ncol(data))
print(nrow(data))

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] TRUE
[1] 5
[1] 8

Setelah kita membaca data dalam bingkai data, kita dapat menerapkan semua fungsi yang berlaku untuk bingkai data seperti yang dijelaskan di bagian selanjutnya.

Dapatkan gaji maksimal

# Create a data frame.
data <- read.csv("input.csv")

# Get the max salary from data frame.
sal <- max(data$salary)
print(sal)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] 843.25

Dapatkan detail orang dengan gaji maksimal

Kita dapat mengambil baris yang memenuhi kriteria filter tertentu yang mirip dengan SQL where clause.

# Create a data frame.
data <- read.csv("input.csv")

# Get the max salary from data frame.
sal <- max(data$salary)

# Get the person detail having max salary.
retval <- subset(data, salary == max(salary))
print(retval)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

id    name  salary  start_date    dept
5     NA    Gary  843.25  2015-03-27    Finance

Dapatkan semua orang yang bekerja di departemen TI

# Create a data frame.
data <- read.csv("input.csv")

retval <- subset( data, dept == "IT")
print(retval)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

id   name      salary   start_date   dept
1      1    Rick      623.3    2012-01-01   IT
3      3    Michelle  611.0    2014-11-15   IT
6      6    Nina      578.0    2013-05-21   IT

Dapatkan orang-orang di departemen TI yang gajinya lebih dari 600

# Create a data frame.
data <- read.csv("input.csv")

info <- subset(data, salary > 600 & dept == "IT")
print(info)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

id   name      salary   start_date   dept
1      1    Rick      623.3    2012-01-01   IT
3      3    Michelle  611.0    2014-11-15   IT

Dapatkan orang-orang yang bergabung pada atau setelah 2014

# Create a data frame.
data <- read.csv("input.csv")

retval <- subset(data, as.Date(start_date) > as.Date("2014-01-01"))
print(retval)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

id   name     salary   start_date    dept
3      3    Michelle 611.00   2014-11-15    IT
4      4    Ryan     729.00   2014-05-11    HR
5     NA    Gary     843.25   2015-03-27    Finance
8      8    Guru     722.50   2014-06-17    Finance

Menulis ke dalam File CSV

R dapat membuat file csv dari data frame yang ada. Ituwrite.csv()fungsi digunakan untuk membuat file csv. File ini dibuat di direktori kerja.

# Create a data frame.
data <- read.csv("input.csv")
retval <- subset(data, as.Date(start_date) > as.Date("2014-01-01"))

# Write filtered data into a new file.
write.csv(retval,"output.csv")
newdata <- read.csv("output.csv")
print(newdata)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

X      id   name      salary   start_date    dept
1 3      3    Michelle  611.00   2014-11-15    IT
2 4      4    Ryan      729.00   2014-05-11    HR
3 5     NA    Gary      843.25   2015-03-27    Finance
4 8      8    Guru      722.50   2014-06-17    Finance

Di sini kolom X berasal dari kumpulan data newper. Ini dapat dihapus dengan menggunakan parameter tambahan saat menulis file.

# Create a data frame.
data <- read.csv("input.csv")
retval <- subset(data, as.Date(start_date) > as.Date("2014-01-01"))

# Write filtered data into a new file.
write.csv(retval,"output.csv", row.names = FALSE)
newdata <- read.csv("output.csv")
print(newdata)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

id    name      salary   start_date    dept
1      3    Michelle  611.00   2014-11-15    IT
2      4    Ryan      729.00   2014-05-11    HR
3     NA    Gary      843.25   2015-03-27    Finance
4      8    Guru      722.50   2014-06-17    Finance

Microsoft Excel adalah program spreadsheet yang paling banyak digunakan yang menyimpan data dalam format .xls atau .xlsx. R dapat membaca langsung dari file-file ini menggunakan beberapa paket khusus excel. Beberapa paket tersebut adalah - XLConnect, xlsx, gdata dll. Kami akan menggunakan paket xlsx. R juga dapat menulis ke file excel menggunakan paket ini.

Instal Paket xlsx

Anda dapat menggunakan perintah berikut di konsol R untuk menginstal paket "xlsx". Ini mungkin meminta untuk menginstal beberapa paket tambahan di mana paket ini bergantung. Ikuti perintah yang sama dengan nama paket yang diperlukan untuk menginstal paket tambahan.

install.packages("xlsx")

Verifikasi dan Muat Paket "xlsx"

Gunakan perintah berikut untuk memverifikasi dan memuat paket "xlsx".

# Verify the package is installed.
any(grepl("xlsx",installed.packages()))

# Load the library into R workspace.
library("xlsx")

Ketika skrip dijalankan, kita mendapatkan output berikut.

[1] TRUE
Loading required package: rJava
Loading required package: methods
Loading required package: xlsxjars

Masukan sebagai File xlsx

Buka Microsoft excel. Salin dan tempel data berikut di lembar kerja bernama sheet1.

id	name      salary    start_date	dept
1	Rick	    623.3	  1/1/2012	   IT
2	Dan       515.2     9/23/2013    Operations
3	Michelle  611	     11/15/2014	IT
4	Ryan	    729	     5/11/2014	   HR
5	Gary	    43.25     3/27/2015  	Finance
6	Nina	    578       5/21/2013	   IT
7	Simon	    632.8	  7/30/2013	   Operations
8	Guru	    722.5	  6/17/2014	   Finance

Juga salin dan tempel data berikut ke lembar kerja lain dan ganti nama lembar kerja ini menjadi "kota".

name	    city
Rick	    Seattle
Dan       Tampa
Michelle  Chicago
Ryan	    Seattle
Gary	    Houston
Nina	    Boston
Simon	    Mumbai
Guru	    Dallas

Simpan file Excel sebagai "input.xlsx". Anda harus menyimpannya di direktori kerja saat ini di ruang kerja R.

Membaca File Excel

Input.xlsx dibaca dengan menggunakan read.xlsx()berfungsi seperti yang ditunjukkan di bawah ini. Hasilnya disimpan sebagai bingkai data di lingkungan R.

# Read the first worksheet in the file input.xlsx.
data <- read.xlsx("input.xlsx", sheetIndex = 1)
print(data)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

id,   name,     salary,   start_date,   dept
1      1    Rick      623.30    2012-01-01    IT
2      2    Dan       515.20    2013-09-23    Operations
3      3    Michelle  611.00    2014-11-15    IT
4      4    Ryan      729.00    2014-05-11    HR
5     NA    Gary      843.25    2015-03-27    Finance
6      6    Nina      578.00    2013-05-21    IT
7      7    Simon     632.80    2013-07-30    Operations
8      8    Guru      722.50    2014-06-17    Finance

File biner adalah file yang berisi informasi yang disimpan hanya dalam bentuk bit dan byte. (0 dan 1). Mereka tidak dapat dibaca manusia karena byte di dalamnya diterjemahkan ke karakter dan simbol yang berisi banyak karakter lain yang tidak dapat dicetak. Mencoba membaca file biner menggunakan editor teks apa pun akan menampilkan karakter seperti Ø dan ð.

File biner harus dibaca oleh program tertentu agar dapat digunakan. Misalnya, file biner dari program Microsoft Word hanya dapat dibaca menjadi bentuk yang dapat dibaca manusia oleh program Word. Yang menunjukkan bahwa, selain teks yang dapat dibaca manusia, terdapat lebih banyak informasi seperti pemformatan karakter dan nomor halaman, dll., Yang juga disimpan bersama dengan karakter alfanumerik. Dan akhirnya file biner adalah urutan byte yang berkelanjutan. Jeda baris yang kita lihat di file teks adalah karakter yang menggabungkan baris pertama ke baris berikutnya.

Terkadang, data yang dihasilkan oleh program lain harus diproses oleh R sebagai file biner. Juga R diperlukan untuk membuat file biner yang dapat dibagikan dengan program lain.

R memiliki dua fungsi WriteBin() dan readBin() untuk membuat dan membaca file biner.

Sintaksis

writeBin(object, con)
readBin(con, what, n )

Berikut adalah uraian parameter yang digunakan -

  • con adalah objek koneksi untuk membaca atau menulis file biner.

  • object adalah file biner yang akan ditulis.

  • what adalah mode seperti karakter, integer dll. mewakili byte yang akan dibaca.

  • n adalah jumlah byte untuk dibaca dari file biner.

Contoh

Kami menganggap R data inbuilt "mtcars". Pertama kita membuat file csv darinya dan mengubahnya menjadi file biner dan menyimpannya sebagai file OS. Selanjutnya kita membaca file biner yang dibuat menjadi R.

Menulis File Biner

Kami membaca bingkai data "mtcars" sebagai file csv dan kemudian menulisnya sebagai file biner ke OS.

# Read the "mtcars" data frame as a csv file and store only the columns 
   "cyl", "am" and "gear".
write.table(mtcars, file = "mtcars.csv",row.names = FALSE, na = "", 
   col.names = TRUE, sep = ",")

# Store 5 records from the csv file as a new data frame.
new.mtcars <- read.table("mtcars.csv",sep = ",",header = TRUE,nrows = 5)

# Create a connection object to write the binary file using mode "wb".
write.filename = file("/web/com/binmtcars.dat", "wb")

# Write the column names of the data frame to the connection object.
writeBin(colnames(new.mtcars), write.filename)

# Write the records in each of the column to the file.
writeBin(c(new.mtcars$cyl,new.mtcars$am,new.mtcars$gear), write.filename)

# Close the file for writing so that it can be read by other program.
close(write.filename)

Membaca File Biner

File biner yang dibuat di atas menyimpan semua data sebagai byte berkelanjutan. Jadi kita akan membacanya dengan memilih nilai yang sesuai dari nama kolom serta nilai kolom.

# Create a connection object to read the file in binary mode using "rb".
read.filename <- file("/web/com/binmtcars.dat", "rb")

# First read the column names. n = 3 as we have 3 columns.
column.names <- readBin(read.filename, character(),  n = 3)

# Next read the column values. n = 18 as we have 3 column names and 15 values.
read.filename <- file("/web/com/binmtcars.dat", "rb")
bindata <- readBin(read.filename, integer(),  n = 18)

# Print the data.
print(bindata)

# Read the values from 4th byte to 8th byte which represents "cyl".
cyldata = bindata[4:8]
print(cyldata)

# Read the values form 9th byte to 13th byte which represents "am".
amdata = bindata[9:13]
print(amdata)

# Read the values form 9th byte to 13th byte which represents "gear".
geardata = bindata[14:18]
print(geardata)

# Combine all the read values to a dat frame.
finaldata = cbind(cyldata, amdata, geardata)
colnames(finaldata) = column.names
print(finaldata)

Ketika kami mengeksekusi kode di atas, ini menghasilkan hasil dan grafik berikut -

[1]    7108963 1728081249    7496037          6          6          4
 [7]          6          8          1          1          1          0
[13]          0          4          4          4          3          3

[1] 6 6 4 6 8

[1] 1 1 1 0 0

[1] 4 4 4 3 3

     cyl am gear
[1,]   6  1    4
[2,]   6  1    4
[3,]   4  1    4
[4,]   6  0    3
[5,]   8  0    3

Seperti yang bisa kita lihat, kita mendapatkan kembali data asli dengan membaca file biner di R.

XML adalah format file yang berbagi format file dan data di World Wide Web, intranet, dan di tempat lain menggunakan teks ASCII standar. Itu singkatan dari Extensible Markup Language (XML). Mirip dengan HTML, ini berisi tag markup. Tetapi tidak seperti HTML dimana tag markup menggambarkan struktur halaman, dalam xml tag markup menggambarkan arti dari data yang terkandung ke dalam file he.

Anda dapat membaca file xml dalam R menggunakan paket "XML". Paket ini dapat diinstal menggunakan perintah berikut.

install.packages("XML")

Memasukan data

Buat file XMl dengan menyalin data di bawah ini ke editor teks seperti notepad. Simpan file dengan.xml ekstensi dan memilih jenis file sebagai all files(*.*).

<RECORDS>
   <EMPLOYEE>
      <ID>1</ID>
      <NAME>Rick</NAME>
      <SALARY>623.3</SALARY>
      <STARTDATE>1/1/2012</STARTDATE>
      <DEPT>IT</DEPT>
   </EMPLOYEE>
	
   <EMPLOYEE>
      <ID>2</ID>
      <NAME>Dan</NAME>
      <SALARY>515.2</SALARY>
      <STARTDATE>9/23/2013</STARTDATE>
      <DEPT>Operations</DEPT>
   </EMPLOYEE>
   
   <EMPLOYEE>
      <ID>3</ID>
      <NAME>Michelle</NAME>
      <SALARY>611</SALARY>
      <STARTDATE>11/15/2014</STARTDATE>
      <DEPT>IT</DEPT>
   </EMPLOYEE>
   
   <EMPLOYEE>
      <ID>4</ID>
      <NAME>Ryan</NAME>
      <SALARY>729</SALARY>
      <STARTDATE>5/11/2014</STARTDATE>
      <DEPT>HR</DEPT>
   </EMPLOYEE>
   
   <EMPLOYEE>
      <ID>5</ID>
      <NAME>Gary</NAME>
      <SALARY>843.25</SALARY>
      <STARTDATE>3/27/2015</STARTDATE>
      <DEPT>Finance</DEPT>
   </EMPLOYEE>
   
   <EMPLOYEE>
      <ID>6</ID>
      <NAME>Nina</NAME>
      <SALARY>578</SALARY>
      <STARTDATE>5/21/2013</STARTDATE>
      <DEPT>IT</DEPT>
   </EMPLOYEE>
   
   <EMPLOYEE>
      <ID>7</ID>
      <NAME>Simon</NAME>
      <SALARY>632.8</SALARY>
      <STARTDATE>7/30/2013</STARTDATE>
      <DEPT>Operations</DEPT>
   </EMPLOYEE>
   
   <EMPLOYEE>
      <ID>8</ID>
      <NAME>Guru</NAME>
      <SALARY>722.5</SALARY>
      <STARTDATE>6/17/2014</STARTDATE>
      <DEPT>Finance</DEPT>
   </EMPLOYEE>
	
</RECORDS>

Membaca File XML

File xml dibaca oleh R menggunakan fungsi tersebut xmlParse(). Itu disimpan sebagai daftar di R.

# Load the package required to read XML files.
library("XML")

# Also load the other required package.
library("methods")

# Give the input file name to the function.
result <- xmlParse(file = "input.xml")

# Print the result.
print(result)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

1
Rick
623.3
1/1/2012
IT

2
Dan
515.2
9/23/2013
Operations

3
Michelle
611
11/15/2014
IT

4
Ryan
729
5/11/2014
HR

5
Gary
843.25
3/27/2015
Finance

6
Nina
578
5/21/2013
IT

7
Simon
632.8
7/30/2013
Operations

8
Guru
722.5
6/17/2014
Finance

Dapatkan Jumlah Node yang Ada di File XML

# Load the packages required to read XML files.
library("XML")
library("methods")

# Give the input file name to the function.
result <- xmlParse(file = "input.xml")

# Exract the root node form the xml file.
rootnode <- xmlRoot(result)

# Find number of nodes in the root.
rootsize <- xmlSize(rootnode)

# Print the result.
print(rootsize)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

output
[1] 8

Rincian Node Pertama

Mari kita lihat record pertama dari file yang diurai. Ini akan memberi kita gambaran tentang berbagai elemen yang ada di node tingkat atas.

# Load the packages required to read XML files.
library("XML")
library("methods")

# Give the input file name to the function.
result <- xmlParse(file = "input.xml")

# Exract the root node form the xml file.
rootnode <- xmlRoot(result)

# Print the result.
print(rootnode[1])

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

$EMPLOYEE
   1
   Rick
   623.3
   1/1/2012
   IT
 

attr(,"class")
[1] "XMLInternalNodeList" "XMLNodeList"

Dapatkan Elemen Berbeda dari sebuah Node

# Load the packages required to read XML files.
library("XML")
library("methods")

# Give the input file name to the function.
result <- xmlParse(file = "input.xml")

# Exract the root node form the xml file.
rootnode <- xmlRoot(result)

# Get the first element of the first node.
print(rootnode[[1]][[1]])

# Get the fifth element of the first node.
print(rootnode[[1]][[5]])

# Get the second element of the third node.
print(rootnode[[3]][[2]])

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

1 
IT 
Michelle

XML ke Data Frame

Untuk menangani data secara efektif dalam file besar, kami membaca data di file xml sebagai bingkai data. Kemudian proses kerangka data untuk analisis data.

# Load the packages required to read XML files.
library("XML")
library("methods")

# Convert the input xml file to a data frame.
xmldataframe <- xmlToDataFrame("input.xml")
print(xmldataframe)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

ID    NAME     SALARY    STARTDATE       DEPT 
1      1    Rick     623.30    2012-01-01      IT
2      2    Dan      515.20    2013-09-23      Operations
3      3    Michelle 611.00    2014-11-15      IT
4      4    Ryan     729.00    2014-05-11      HR
5     NA    Gary     843.25    2015-03-27      Finance
6      6    Nina     578.00    2013-05-21      IT
7      7    Simon    632.80    2013-07-30      Operations
8      8    Guru     722.50    2014-06-17      Finance

Karena data sekarang tersedia sebagai kerangka data, kita dapat menggunakan fungsi terkait bingkai data untuk membaca dan memanipulasi file.

File JSON menyimpan data sebagai teks dalam format yang dapat dibaca manusia. Json adalah singkatan dari JavaScript Object Notation. R dapat membaca file JSON menggunakan paket rjson.

Instal Paket rjson

Di konsol R, Anda dapat mengeluarkan perintah berikut untuk menginstal paket rjson.

install.packages("rjson")

Memasukan data

Buat file JSON dengan menyalin data di bawah ini ke editor teks seperti notepad. Simpan file dengan.json ekstensi dan memilih jenis file sebagai all files(*.*).

{ 
   "ID":["1","2","3","4","5","6","7","8" ],
   "Name":["Rick","Dan","Michelle","Ryan","Gary","Nina","Simon","Guru" ],
   "Salary":["623.3","515.2","611","729","843.25","578","632.8","722.5" ],
   
   "StartDate":[ "1/1/2012","9/23/2013","11/15/2014","5/11/2014","3/27/2015","5/21/2013",
      "7/30/2013","6/17/2014"],
   "Dept":[ "IT","Operations","IT","HR","Finance","IT","Operations","Finance"]
}

Baca File JSON

File JSON dibaca oleh R menggunakan fungsi dari JSON(). Itu disimpan sebagai daftar di R.

# Load the package required to read JSON files.
library("rjson")

# Give the input file name to the function.
result <- fromJSON(file = "input.json")

# Print the result.
print(result)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

$ID
[1] "1"   "2"   "3"   "4"   "5"   "6"   "7"   "8"

$Name [1] "Rick" "Dan" "Michelle" "Ryan" "Gary" "Nina" "Simon" "Guru" $Salary
[1] "623.3"  "515.2"  "611"    "729"    "843.25" "578"    "632.8"  "722.5"

$StartDate [1] "1/1/2012" "9/23/2013" "11/15/2014" "5/11/2014" "3/27/2015" "5/21/2013" "7/30/2013" "6/17/2014" $Dept
[1] "IT"         "Operations" "IT"         "HR"         "Finance"    "IT"
   "Operations" "Finance"

Ubah JSON menjadi Data Frame

Kita dapat mengonversi data yang diekstrak di atas menjadi bingkai data R untuk analisis lebih lanjut menggunakan as.data.frame() fungsi.

# Load the package required to read JSON files.
library("rjson")

# Give the input file name to the function.
result <- fromJSON(file = "input.json")

# Convert JSON file to a data frame.
json_data_frame <- as.data.frame(result)

print(json_data_frame)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

id,   name,    salary,   start_date,     dept
1      1    Rick     623.30    2012-01-01      IT
2      2    Dan      515.20    2013-09-23      Operations
3      3    Michelle 611.00    2014-11-15      IT
4      4    Ryan     729.00    2014-05-11      HR
5     NA    Gary     843.25    2015-03-27      Finance
6      6    Nina     578.00    2013-05-21      IT
7      7    Simon    632.80    2013-07-30      Operations
8      8    Guru     722.50    2014-06-17      Finance

Banyak situs menyediakan data untuk dikonsumsi oleh penggunanya. Misalnya Organisasi Kesehatan Dunia (WHO) memberikan laporan tentang informasi kesehatan dan medis dalam bentuk file CSV, txt dan XML. Dengan menggunakan program R, kami dapat mengekstrak data tertentu secara terprogram dari situs web tersebut. Beberapa paket di R yang digunakan untuk mem-scrap data dari web adalah - "RCurl", XML ", dan" stringr ". Mereka digunakan untuk menghubungkan ke URL, mengidentifikasi link yang diperlukan untuk file dan mendownloadnya ke lingkungan lokal.

Instal Paket R.

Paket berikut diperlukan untuk memproses URL dan tautan ke file. Jika mereka tidak tersedia di Lingkungan R Anda, Anda dapat menginstalnya menggunakan perintah berikut.

install.packages("RCurl")
install.packages("XML")
install.packages("stringr")
install.packages("plyr")

Memasukan data

Kami akan mengunjungi URL data cuaca dan mengunduh file CSV menggunakan R untuk tahun 2015.

Contoh

Kami akan menggunakan fungsinya getHTMLLinks()untuk mengumpulkan URL file. Kemudian kita akan menggunakan fungsinyadownload.file()untuk menyimpan file ke sistem lokal. Karena kami akan menerapkan kode yang sama berulang kali untuk banyak file, kami akan membuat fungsi untuk dipanggil beberapa kali. Nama file dikirimkan sebagai parameter dalam bentuk objek daftar R ke fungsi ini.

# Read the URL.
url <- "http://www.geos.ed.ac.uk/~weather/jcmb_ws/"

# Gather the html links present in the webpage.
links <- getHTMLLinks(url)

# Identify only the links which point to the JCMB 2015 files. 
filenames <- links[str_detect(links, "JCMB_2015")]

# Store the file names as a list.
filenames_list <- as.list(filenames)

# Create a function to download the files by passing the URL and filename list.
downloadcsv <- function (mainurl,filename) {
   filedetails <- str_c(mainurl,filename)
   download.file(filedetails,filename)
}

# Now apply the l_ply function and save the files into the current R working directory.
l_ply(filenames,downloadcsv,mainurl = "http://www.geos.ed.ac.uk/~weather/jcmb_ws/")

Verifikasi Unduhan File

Setelah menjalankan kode di atas, Anda dapat menemukan file berikut di direktori kerja R.

"JCMB_2015.csv" "JCMB_2015_Apr.csv" "JCMB_2015_Feb.csv" "JCMB_2015_Jan.csv"
   "JCMB_2015_Mar.csv"

Data sistem database relasional disimpan dalam format yang dinormalisasi. Jadi, untuk melakukan komputasi statistik, kita memerlukan kueri Sql yang sangat canggih dan kompleks. Tetapi R dapat terhubung dengan mudah ke banyak database relasional seperti MySql, Oracle, Sql server dll. Dan mengambil catatan dari mereka sebagai bingkai data. Setelah data tersedia di lingkungan R, itu menjadi kumpulan data R normal dan dapat dimanipulasi atau dianalisis menggunakan semua paket dan fungsi yang kuat.

Dalam tutorial ini kami akan menggunakan MySql sebagai database referensi kami untuk menghubungkan ke R.

Paket RMySQL

R memiliki paket built-in bernama "RMySQL" yang menyediakan konektivitas asli antara database MySql. Anda dapat menginstal paket ini di lingkungan R menggunakan perintah berikut.

install.packages("RMySQL")

Menghubungkan R ke MySql

Setelah paket diinstal, kami membuat objek koneksi di R untuk terhubung ke database. Dibutuhkan username, password, nama database dan nama host sebagai masukan.

# Create a connection Object to MySQL database.
# We will connect to the sampel database named "sakila" that comes with MySql installation.
mysqlconnection = dbConnect(MySQL(), user = 'root', password = '', dbname = 'sakila',
   host = 'localhost')

# List the tables available in this database.
 dbListTables(mysqlconnection)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] "actor"                      "actor_info"                
 [3] "address"                    "category"                  
 [5] "city"                       "country"                   
 [7] "customer"                   "customer_list"             
 [9] "film"                       "film_actor"                
[11] "film_category"              "film_list"                 
[13] "film_text"                  "inventory"                 
[15] "language"                   "nicer_but_slower_film_list"
[17] "payment"                    "rental"                    
[19] "sales_by_film_category"     "sales_by_store"            
[21] "staff"                      "staff_list"                
[23] "store"

Mengkueri Tabel

Kita bisa query tabel database di MySql menggunakan fungsi tersebut dbSendQuery(). Kueri dijalankan di MySql dan set hasil dikembalikan menggunakan Rfetch()fungsi. Akhirnya disimpan sebagai bingkai data di R.

# Query the "actor" tables to get all the rows.
result = dbSendQuery(mysqlconnection, "select * from actor")

# Store the result in a R data frame object. n = 5 is used to fetch first 5 rows.
data.frame = fetch(result, n = 5)
print(data.fame)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

actor_id   first_name    last_name         last_update
1        1         PENELOPE      GUINESS           2006-02-15 04:34:33
2        2         NICK          WAHLBERG          2006-02-15 04:34:33
3        3         ED            CHASE             2006-02-15 04:34:33
4        4         JENNIFER      DAVIS             2006-02-15 04:34:33
5        5         JOHNNY        LOLLOBRIGIDA      2006-02-15 04:34:33

Query dengan Filter Clause

Kita bisa melewatkan kueri pemilihan yang valid untuk mendapatkan hasilnya.

result = dbSendQuery(mysqlconnection, "select * from actor where last_name = 'TORN'")

# Fetch all the records(with n = -1) and store it as a data frame.
data.frame = fetch(result, n = -1)
print(data)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

actor_id    first_name     last_name         last_update
1        18         DAN            TORN              2006-02-15 04:34:33
2        94         KENNETH        TORN              2006-02-15 04:34:33
3       102         WALTER         TORN              2006-02-15 04:34:33

Memperbarui Baris di Tabel

Kita bisa memperbarui baris dalam tabel Mysql dengan meneruskan kueri pembaruan ke fungsi dbSendQuery ().

dbSendQuery(mysqlconnection, "update mtcars set disp = 168.5 where hp = 110")

Setelah menjalankan kode di atas kita dapat melihat tabel yang diperbarui di Lingkungan MySql.

Memasukkan Data ke dalam Tabel

dbSendQuery(mysqlconnection,
   "insert into mtcars(row_names, mpg, cyl, disp, hp, drat, wt, qsec, vs, am, gear, carb)
   values('New Mazda RX4 Wag', 21, 6, 168.5, 110, 3.9, 2.875, 17.02, 0, 1, 4, 4)"
)

Setelah menjalankan kode di atas kita dapat melihat baris yang dimasukkan ke dalam tabel di MySql Environment.

Membuat Tabel di MySql

Kita bisa membuat tabel di MySql menggunakan fungsi tersebut dbWriteTable(). Ini menimpa tabel jika sudah ada dan mengambil bingkai data sebagai masukan.

# Create the connection object to the database where we want to create the table.
mysqlconnection = dbConnect(MySQL(), user = 'root', password = '', dbname = 'sakila', 
   host = 'localhost')

# Use the R data frame "mtcars" to create the table in MySql.
# All the rows of mtcars are taken inot MySql.
dbWriteTable(mysqlconnection, "mtcars", mtcars[, ], overwrite = TRUE)

Setelah menjalankan kode di atas kita dapat melihat tabel yang dibuat di Lingkungan MySql.

Tabel Menjatuhkan di MySql

Kita bisa meletakkan tabel di database MySql dengan meneruskan pernyataan drop table ke dbSendQuery () dengan cara yang sama kita menggunakannya untuk menanyakan data dari tabel.

dbSendQuery(mysqlconnection, 'drop table if exists mtcars')

Setelah menjalankan kode di atas, kita dapat melihat tabel di-drop di MySql Environment.

Bahasa Pemrograman R memiliki banyak perpustakaan untuk membuat bagan dan grafik. Diagram lingkaran adalah representasi nilai sebagai irisan lingkaran dengan warna berbeda. Irisan diberi label dan nomor yang sesuai untuk setiap irisan juga ditunjukkan dalam bagan.

Di R diagram lingkaran dibuat menggunakan pie()fungsi yang mengambil bilangan positif sebagai input vektor. Parameter tambahan digunakan untuk mengontrol label, warna, judul, dll.

Sintaksis

Sintaks dasar untuk membuat diagram lingkaran menggunakan R adalah -

pie(x, labels, radius, main, col, clockwise)

Berikut adalah uraian parameter yang digunakan -

  • x adalah vektor yang berisi nilai numerik yang digunakan dalam diagram lingkaran.

  • labels digunakan untuk memberikan deskripsi pada irisan.

  • radius menunjukkan jari-jari lingkaran diagram lingkaran (nilai antara −1 dan +1).

  • main menunjukkan judul grafik.

  • col menunjukkan palet warna.

  • clockwise adalah nilai logika yang menunjukkan jika irisan digambar searah jarum jam atau berlawanan arah jarum jam.

Contoh

Diagram lingkaran yang sangat sederhana dibuat hanya dengan menggunakan vektor input dan label. Skrip di bawah ini akan membuat dan menyimpan diagram lingkaran di direktori kerja R.

# Create data for the graph.
x <- c(21, 62, 10, 53)
labels <- c("London", "New York", "Singapore", "Mumbai")

# Give the chart file a name.
png(file = "city.png")

# Plot the chart.
pie(x,labels)

# Save the file.
dev.off()

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

Judul dan Warna Diagram Lingkaran

Kami dapat memperluas fitur bagan dengan menambahkan lebih banyak parameter ke fungsi. Kami akan menggunakan parametermain untuk menambahkan judul ke bagan dan parameter lainnya adalah colyang akan menggunakan palet warna pelangi saat menggambar grafik. Panjang palet harus sama dengan jumlah nilai yang kita miliki untuk grafik. Karenanya kami menggunakan panjang (x).

Contoh

Skrip di bawah ini akan membuat dan menyimpan diagram lingkaran di direktori kerja R.

# Create data for the graph.
x <- c(21, 62, 10, 53)
labels <- c("London", "New York", "Singapore", "Mumbai")

# Give the chart file a name.
png(file = "city_title_colours.jpg")

# Plot the chart with title and rainbow color pallet.
pie(x, labels, main = "City pie chart", col = rainbow(length(x)))

# Save the file.
dev.off()

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

Persentase Irisan dan Legenda Bagan

Kita dapat menambahkan persentase potongan dan legenda bagan dengan membuat variabel bagan tambahan.

# Create data for the graph.
x <-  c(21, 62, 10,53)
labels <-  c("London","New York","Singapore","Mumbai")

piepercent<- round(100*x/sum(x), 1)

# Give the chart file a name.
png(file = "city_percentage_legends.jpg")

# Plot the chart.
pie(x, labels = piepercent, main = "City pie chart",col = rainbow(length(x)))
legend("topright", c("London","New York","Singapore","Mumbai"), cex = 0.8,
   fill = rainbow(length(x)))

# Save the file.
dev.off()

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

Bagan Pai 3D

Diagram lingkaran dengan 3 dimensi dapat digambar menggunakan paket tambahan. Paketplotrix memiliki fungsi yang disebut pie3D() yang digunakan untuk ini.

# Get the library.
library(plotrix)

# Create data for the graph.
x <-  c(21, 62, 10,53)
lbl <-  c("London","New York","Singapore","Mumbai")

# Give the chart file a name.
png(file = "3d_pie_chart.jpg")

# Plot the chart.
pie3D(x,labels = lbl,explode = 0.1, main = "Pie Chart of Countries ")

# Save the file.
dev.off()

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

Bagan batang mewakili data dalam batang persegi panjang dengan panjang batang sebanding dengan nilai variabel. R menggunakan fungsi tersebutbarplot()untuk membuat diagram batang. R dapat menggambar batang vertikal dan horizontal pada diagram batang. Dalam diagram batang, setiap batang dapat diberi warna berbeda.

Sintaksis

Sintaks dasar untuk membuat diagram batang di R adalah -

barplot(H,xlab,ylab,main, names.arg,col)

Berikut adalah uraian parameter yang digunakan -

  • H adalah vektor atau matriks yang berisi nilai numerik yang digunakan dalam diagram batang.
  • xlab adalah label untuk sumbu x.
  • ylab adalah label untuk sumbu y.
  • main adalah judul diagram batang.
  • names.arg adalah vektor nama yang muncul di bawah setiap batang.
  • col digunakan untuk memberi warna pada batang di grafik.

Contoh

Bagan batang sederhana dibuat hanya dengan menggunakan vektor input dan nama setiap batang.

Skrip di bawah ini akan membuat dan menyimpan diagram batang di direktori kerja R.

# Create the data for the chart
H <- c(7,12,28,3,41)

# Give the chart file a name
png(file = "barchart.png")

# Plot the bar chart 
barplot(H)

# Save the file
dev.off()

Ketika kita mengeksekusi kode di atas, hasilnya adalah sebagai berikut -

Label Bar Chart, Judul dan Warna

Fitur diagram batang dapat diperluas dengan menambahkan lebih banyak parameter. Itumain parameter digunakan untuk menambahkan title. Itucolparameter digunakan untuk menambahkan warna ke batang. Ituargs.name adalah vektor yang memiliki jumlah nilai yang sama dengan vektor input untuk mendeskripsikan arti setiap batang.

Contoh

Skrip di bawah ini akan membuat dan menyimpan diagram batang di direktori kerja R.

# Create the data for the chart
H <- c(7,12,28,3,41)
M <- c("Mar","Apr","May","Jun","Jul")

# Give the chart file a name
png(file = "barchart_months_revenue.png")

# Plot the bar chart 
barplot(H,names.arg=M,xlab="Month",ylab="Revenue",col="blue",
main="Revenue chart",border="red")

# Save the file
dev.off()

Ketika kita mengeksekusi kode di atas, hasilnya adalah sebagai berikut -

Bagan Batang Grup dan Bagan Batang Bertumpuk

Kita dapat membuat diagram batang dengan kelompok batang dan tumpukan di setiap batang dengan menggunakan matriks sebagai nilai input.

Lebih dari dua variabel direpresentasikan sebagai matriks yang digunakan untuk membuat diagram batang grup dan diagram batang bertumpuk.

# Create the input vectors.
colors = c("green","orange","brown")
months <- c("Mar","Apr","May","Jun","Jul")
regions <- c("East","West","North")

# Create the matrix of the values.
Values <- matrix(c(2,9,3,11,9,4,8,7,3,12,5,2,8,10,11), nrow = 3, ncol = 5, byrow = TRUE)

# Give the chart file a name
png(file = "barchart_stacked.png")

# Create the bar chart
barplot(Values, main = "total revenue", names.arg = months, xlab = "month", ylab = "revenue", col = colors)

# Add the legend to the chart
legend("topleft", regions, cex = 1.3, fill = colors)

# Save the file
dev.off()

Plot kotak adalah ukuran seberapa baik distribusi data dalam suatu kumpulan data. Ini membagi kumpulan data menjadi tiga kuartil. Grafik ini mewakili kuartil minimum, maksimum, median, kuartil pertama, dan ketiga dalam kumpulan data. Ini juga berguna dalam membandingkan distribusi data di seluruh kumpulan data dengan menggambar diagram kotak untuk masing-masingnya.

Plot kotak dibuat di R dengan menggunakan boxplot() fungsi.

Sintaksis

Sintaks dasar untuk membuat diagram kotak di R adalah -

boxplot(x, data, notch, varwidth, names, main)

Berikut adalah uraian parameter yang digunakan -

  • x adalah vektor atau rumus.

  • data adalah bingkai data.

  • notchadalah nilai logis. Setel sebagai BENAR untuk menggambar takik.

  • varwidthadalah nilai logis. Tetapkan sebagai true untuk menggambar lebar kotak yang proporsional dengan ukuran sampel.

  • names adalah label grup yang akan dicetak di bawah setiap plot kotak.

  • main digunakan untuk memberi judul pada grafik.

Contoh

Kami menggunakan kumpulan data "mtcars" yang tersedia di lingkungan R untuk membuat diagram kotak dasar. Mari kita lihat kolom "mpg" dan "cyl" di mtcars.

input <- mtcars[,c('mpg','cyl')]
print(head(input))

Ketika kita mengeksekusi kode di atas, hasilnya adalah sebagai berikut -

mpg  cyl
Mazda RX4         21.0   6
Mazda RX4 Wag     21.0   6
Datsun 710        22.8   4
Hornet 4 Drive    21.4   6
Hornet Sportabout 18.7   8
Valiant           18.1   6

Membuat Boxplot

Skrip di bawah ini akan membuat grafik diagram kotak untuk hubungan antara mpg (mil per galon) dan silinder (jumlah silinder).

# Give the chart file a name.
png(file = "boxplot.png")

# Plot the chart.
boxplot(mpg ~ cyl, data = mtcars, xlab = "Number of Cylinders",
   ylab = "Miles Per Gallon", main = "Mileage Data")

# Save the file.
dev.off()

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

Boxplot dengan Notch

Kita dapat menggambar diagram kotak dengan takik untuk mengetahui bagaimana median dari kelompok data yang berbeda cocok satu sama lain.

Skrip di bawah ini akan membuat grafik diagram kotak dengan notch untuk masing-masing grup data.

# Give the chart file a name.
png(file = "boxplot_with_notch.png")

# Plot the chart.
boxplot(mpg ~ cyl, data = mtcars, 
   xlab = "Number of Cylinders",
   ylab = "Miles Per Gallon", 
   main = "Mileage Data",
   notch = TRUE, 
   varwidth = TRUE, 
   col = c("green","yellow","purple"),
   names = c("High","Medium","Low")
)
# Save the file.
dev.off()

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

Histogram mewakili frekuensi nilai variabel yang dikelompokkan ke dalam rentang. Histogram mirip dengan obrolan bar tetapi perbedaannya adalah ia mengelompokkan nilai-nilai ke dalam rentang berkelanjutan. Setiap batang dalam histogram mewakili ketinggian jumlah nilai yang ada dalam rentang itu.

R membuat histogram menggunakan hist()fungsi. Fungsi ini mengambil vektor sebagai masukan dan menggunakan beberapa parameter lagi untuk memplot histogram.

Sintaksis

Sintaks dasar untuk membuat histogram menggunakan R adalah -

hist(v,main,xlab,xlim,ylim,breaks,col,border)

Berikut adalah uraian parameter yang digunakan -

  • v adalah vektor yang berisi nilai numerik yang digunakan dalam histogram.

  • main menunjukkan judul grafik.

  • col digunakan untuk mengatur warna batang.

  • border digunakan untuk mengatur warna batas setiap batang.

  • xlab digunakan untuk memberikan deskripsi sumbu x.

  • xlim digunakan untuk menentukan rentang nilai pada sumbu x.

  • ylim digunakan untuk menentukan rentang nilai pada sumbu y.

  • breaks digunakan untuk menyebutkan lebar setiap batang.

Contoh

Histogram sederhana dibuat dengan menggunakan vektor input, label, kolom, dan parameter batas.

Skrip yang diberikan di bawah ini akan membuat dan menyimpan histogram di direktori kerja R.

# Create data for the graph.
v <-  c(9,13,21,8,36,22,12,41,31,33,19)

# Give the chart file a name.
png(file = "histogram.png")

# Create the histogram.
hist(v,xlab = "Weight",col = "yellow",border = "blue")

# Save the file.
dev.off()

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

Rentang nilai X dan Y.

Untuk menentukan rentang nilai yang diperbolehkan pada sumbu X dan sumbu Y, kita dapat menggunakan parameter xlim dan ylim.

Lebar masing-masing batang dapat ditentukan dengan menggunakan jeda.

# Create data for the graph.
v <- c(9,13,21,8,36,22,12,41,31,33,19)

# Give the chart file a name.
png(file = "histogram_lim_breaks.png")

# Create the histogram.
hist(v,xlab = "Weight",col = "green",border = "red", xlim = c(0,40), ylim = c(0,5),
   breaks = 5)

# Save the file.
dev.off()

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

Bagan garis adalah grafik yang menghubungkan serangkaian titik dengan menggambar segmen garis di antaranya. Titik-titik ini diurutkan dalam salah satu nilai koordinatnya (biasanya koordinat x). Grafik garis biasanya digunakan untuk mengidentifikasi tren dalam data.

Itu plot() fungsi di R digunakan untuk membuat grafik garis.

Sintaksis

Sintaks dasar untuk membuat diagram garis di R adalah -

plot(v,type,col,xlab,ylab)

Berikut adalah uraian parameter yang digunakan -

  • v adalah vektor yang berisi nilai numerik.

  • type mengambil nilai "p" untuk menggambar titik saja, "l" untuk menggambar garis saja dan "o" untuk menggambar titik dan garis.

  • xlab adalah label untuk sumbu x.

  • ylab adalah label untuk sumbu y.

  • main adalah Judul bagan.

  • col digunakan untuk memberi warna pada titik dan garis.

Contoh

Bagan garis sederhana dibuat menggunakan vektor masukan dan parameter tipe sebagai "O". Skrip di bawah ini akan membuat dan menyimpan diagram garis di direktori kerja R.

# Create the data for the chart.
v <- c(7,12,28,3,41)

# Give the chart file a name.
png(file = "line_chart.jpg")

# Plot the bar chart. 
plot(v,type = "o")

# Save the file.
dev.off()

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

Judul, Warna dan Label Bagan Garis

Fitur diagram garis dapat diperluas dengan menggunakan parameter tambahan. Kami menambahkan warna ke titik dan garis, memberi judul pada bagan dan menambahkan label ke sumbu.

Contoh

# Create the data for the chart.
v <- c(7,12,28,3,41)

# Give the chart file a name.
png(file = "line_chart_label_colored.jpg")

# Plot the bar chart.
plot(v,type = "o", col = "red", xlab = "Month", ylab = "Rain fall",
   main = "Rain fall chart")

# Save the file.
dev.off()

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

Beberapa Garis dalam Diagram Garis

Lebih dari satu garis dapat digambar pada grafik yang sama dengan menggunakan lines()fungsi.

Setelah garis pertama diplot, fungsi lines () dapat menggunakan vektor tambahan sebagai input untuk menggambar garis kedua pada grafik,

# Create the data for the chart.
v <- c(7,12,28,3,41)
t <- c(14,7,6,19,3)

# Give the chart file a name.
png(file = "line_chart_2_lines.jpg")

# Plot the bar chart.
plot(v,type = "o",col = "red", xlab = "Month", ylab = "Rain fall", 
   main = "Rain fall chart")

lines(t, type = "o", col = "blue")

# Save the file.
dev.off()

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

Scatterplots menunjukkan banyak titik yang diplot di bidang Cartesian. Setiap titik mewakili nilai dua variabel. Satu variabel dipilih di sumbu horizontal dan variabel lainnya di sumbu vertikal.

Scatterplot sederhana dibuat menggunakan plot() fungsi.

Sintaksis

Sintaks dasar untuk membuat sebar di R adalah -

plot(x, y, main, xlab, ylab, xlim, ylim, axes)

Berikut adalah uraian parameter yang digunakan -

  • x adalah kumpulan data yang nilainya adalah koordinat horizontal.

  • y adalah kumpulan data yang nilainya berupa koordinat vertikal.

  • main adalah ubin grafik.

  • xlab adalah label pada sumbu horizontal.

  • ylab adalah label di sumbu vertikal.

  • xlim adalah batas dari nilai x yang digunakan untuk plot.

  • ylim adalah batas nilai y yang digunakan untuk memplot.

  • axes menunjukkan apakah kedua sumbu harus digambar di plot.

Contoh

Kami menggunakan kumpulan data "mtcars"tersedia di lingkungan R untuk membuat sebar dasar. Mari kita gunakan kolom "wt" dan "mpg" di mtcars.

input <- mtcars[,c('wt','mpg')]
print(head(input))

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

wt      mpg
Mazda RX4           2.620   21.0
Mazda RX4 Wag       2.875   21.0
Datsun 710          2.320   22.8
Hornet 4 Drive      3.215   21.4
Hornet Sportabout   3.440   18.7
Valiant             3.460   18.1

Membuat Scatterplot

Skrip di bawah ini akan membuat grafik scatterplot untuk hubungan antara wt (berat) dan mpg (mil per galon).

# Get the input values.
input <- mtcars[,c('wt','mpg')]

# Give the chart file a name.
png(file = "scatterplot.png")

# Plot the chart for cars with weight between 2.5 to 5 and mileage between 15 and 30.
plot(x = input$wt,y = input$mpg,
   xlab = "Weight",
   ylab = "Milage",
   xlim = c(2.5,5),
   ylim = c(15,30),		 
   main = "Weight vs Milage"
)
	 
# Save the file.
dev.off()

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

Matriks Scatterplot

Ketika kita memiliki lebih dari dua variabel dan kita ingin menemukan korelasi antara satu variabel versus variabel lainnya, kita menggunakan matriks sebar. Kita gunakanpairs() berfungsi untuk membuat matriks scatterplots.

Sintaksis

Sintaks dasar untuk membuat matriks sebar di R adalah -

pairs(formula, data)

Berikut adalah uraian parameter yang digunakan -

  • formula mewakili rangkaian variabel yang digunakan berpasangan.

  • data mewakili kumpulan data dari mana variabel akan diambil.

Contoh

Setiap variabel dipasangkan dengan masing-masing variabel yang tersisa. Plot sebar diplot untuk setiap pasangan.

# Give the chart file a name.
png(file = "scatterplot_matrices.png")

# Plot the matrices between 4 variables giving 12 plots.

# One variable with 3 others and total 4 variables.

pairs(~wt+mpg+disp+cyl,data = mtcars,
   main = "Scatterplot Matrix")

# Save the file.
dev.off()

Ketika kode di atas dijalankan kita mendapatkan output berikut.

Analisis statistik di R dilakukan dengan menggunakan banyak fungsi built-in. Sebagian besar fungsi ini adalah bagian dari paket dasar R. Fungsi-fungsi ini mengambil vektor R sebagai masukan bersama dengan argumen dan memberikan hasil.

Fungsi yang kita bahas dalam bab ini adalah mean, median dan mode.

Berarti

Ini dihitung dengan mengambil jumlah nilai dan membaginya dengan jumlah nilai dalam seri data.

Fungsinya mean() digunakan untuk menghitung ini di R.

Sintaksis

Sintaks dasar untuk menghitung mean di R adalah -

mean(x, trim = 0, na.rm = FALSE, ...)

Berikut adalah uraian parameter yang digunakan -

  • x adalah vektor masukan.

  • trim digunakan untuk melepaskan beberapa pengamatan dari kedua ujung vektor yang diurutkan.

  • na.rm digunakan untuk menghapus nilai yang hilang dari vektor input.

Contoh

# Create a vector. 
x <- c(12,7,3,4.2,18,2,54,-21,8,-5)

# Find Mean.
result.mean <- mean(x)
print(result.mean)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] 8.22

Menerapkan Opsi Trim

Ketika parameter trim diberikan, nilai dalam vektor akan diurutkan dan kemudian jumlah observasi yang diperlukan dihapus dari penghitungan mean.

Ketika trim = 0,3, 3 nilai dari setiap ujung akan dihapus dari perhitungan untuk menemukan mean.

Dalam hal ini vektor yang diurutkan adalah (−21, −5, 2, 3, 4.2, 7, 8, 12, 18, 54) dan nilai yang dihapus dari vektor untuk menghitung mean adalah (−21, −5,2) dari kiri dan (12,18,54) dari kanan.

# Create a vector.
x <- c(12,7,3,4.2,18,2,54,-21,8,-5)

# Find Mean.
result.mean <-  mean(x,trim = 0.3)
print(result.mean)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] 5.55

Menerapkan Opsi NA

Jika ada nilai yang hilang, maka fungsi mean mengembalikan NA.

Untuk menghilangkan nilai yang hilang dari perhitungan, gunakan na.rm = TRUE. yang berarti menghapus nilai NA.

# Create a vector. 
x <- c(12,7,3,4.2,18,2,54,-21,8,-5,NA)

# Find mean.
result.mean <-  mean(x)
print(result.mean)

# Find mean dropping NA values.
result.mean <-  mean(x,na.rm = TRUE)
print(result.mean)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] NA
[1] 8.22

Median

Nilai paling tengah dalam rangkaian data disebut median. Itumedian() fungsi digunakan dalam R untuk menghitung nilai ini.

Sintaksis

Sintaks dasar untuk menghitung median di R adalah -

median(x, na.rm = FALSE)

Berikut adalah uraian parameter yang digunakan -

  • x adalah vektor masukan.

  • na.rm digunakan untuk menghapus nilai yang hilang dari vektor input.

Contoh

# Create the vector.
x <- c(12,7,3,4.2,18,2,54,-21,8,-5)

# Find the median.
median.result <- median(x)
print(median.result)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] 5.6

Mode

Mode adalah nilai yang memiliki jumlah kemunculan tertinggi dalam satu set data. Tidak seperti mean dan median, mode dapat memiliki data numerik dan karakter.

R tidak memiliki fungsi bawaan standar untuk menghitung mode. Jadi kita membuat fungsi pengguna untuk menghitung mode kumpulan data di R. Fungsi ini mengambil vektor sebagai input dan memberikan nilai mode sebagai output.

Contoh

# Create the function.
getmode <- function(v) {
   uniqv <- unique(v)
   uniqv[which.max(tabulate(match(v, uniqv)))]
}

# Create the vector with numbers.
v <- c(2,1,2,3,1,2,3,4,1,5,5,3,2,3)

# Calculate the mode using the user function.
result <- getmode(v)
print(result)

# Create the vector with characters.
charv <- c("o","it","the","it","it")

# Calculate the mode using the user function.
result <- getmode(charv)
print(result)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] 2
[1] "it"

Analisis regresi adalah alat statistik yang sangat banyak digunakan untuk membangun model hubungan antara dua variabel. Salah satu variabel tersebut disebut variabel prediktor yang nilainya dikumpulkan melalui eksperimen. Variabel lain disebut variabel respon yang nilainya diturunkan dari variabel prediktor.

Dalam Regresi Linier kedua variabel ini dihubungkan melalui suatu persamaan, di mana eksponen (pangkat) dari kedua variabel tersebut adalah 1. Secara matematis, hubungan linier merepresentasikan garis lurus jika diplot sebagai grafik. Hubungan non-linier dengan eksponen variabel apa pun tidak sama dengan 1 menciptakan kurva.

Persamaan matematika umum untuk regresi linier adalah -

y = ax + b

Berikut adalah uraian parameter yang digunakan -

  • y adalah variabel respon.

  • x adalah variabel prediktor.

  • a dan b adalah konstanta yang disebut koefisien.

Langkah-langkah untuk Menetapkan Regresi

Contoh sederhana dari regresi adalah memprediksi berat badan seseorang saat tinggi badannya diketahui. Untuk melakukan ini, kita perlu memiliki hubungan antara tinggi dan berat badan seseorang.

Langkah-langkah untuk menciptakan hubungan adalah -

  • Lakukan eksperimen untuk mengumpulkan sampel nilai tinggi yang diamati dan berat yang sesuai.

  • Buat model hubungan menggunakan lm() fungsi di R.

  • Temukan koefisien dari model yang dibuat dan buat persamaan matematika menggunakan ini

  • Dapatkan ringkasan model hubungan untuk mengetahui kesalahan rata-rata dalam prediksi. Disebut jugaresiduals.

  • Untuk memprediksi berat orang baru, gunakan predict() berfungsi di R.

Memasukan data

Di bawah ini adalah contoh data yang mewakili pengamatan -

# Values of height
151, 174, 138, 186, 128, 136, 179, 163, 152, 131

# Values of weight.
63, 81, 56, 91, 47, 57, 76, 72, 62, 48

lm () Fungsi

Fungsi ini membuat model hubungan antara prediktor dan variabel respon.

Sintaksis

Sintaks dasar untuk lm() fungsi dalam regresi linier adalah -

lm(formula,data)

Berikut adalah uraian parameter yang digunakan -

  • formula adalah simbol yang menunjukkan hubungan antara x dan y.

  • data adalah vektor tempat rumus akan diterapkan.

Buat Model Hubungan & dapatkan Koefisien

x <- c(151, 174, 138, 186, 128, 136, 179, 163, 152, 131)
y <- c(63, 81, 56, 91, 47, 57, 76, 72, 62, 48)

# Apply the lm() function.
relation <- lm(y~x)

print(relation)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

Call:
lm(formula = y ~ x)

Coefficients:
(Intercept)            x  
   -38.4551          0.6746

Dapatkan Ringkasan Hubungan tersebut

x <- c(151, 174, 138, 186, 128, 136, 179, 163, 152, 131)
y <- c(63, 81, 56, 91, 47, 57, 76, 72, 62, 48)

# Apply the lm() function.
relation <- lm(y~x)

print(summary(relation))

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

Call:
lm(formula = y ~ x)

Residuals:
    Min      1Q     Median      3Q     Max 
-6.3002    -1.6629  0.0412    1.8944  3.9775 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -38.45509    8.04901  -4.778  0.00139 ** 
x             0.67461    0.05191  12.997 1.16e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.253 on 8 degrees of freedom
Multiple R-squared:  0.9548,    Adjusted R-squared:  0.9491 
F-statistic: 168.9 on 1 and 8 DF,  p-value: 1.164e-06

fungsi predict ()

Sintaksis

Sintaks dasar untuk predict () dalam regresi linier adalah -

predict(object, newdata)

Berikut adalah uraian parameter yang digunakan -

  • object adalah rumus yang sudah dibuat menggunakan fungsi lm ().

  • newdata adalah vektor yang berisi nilai baru untuk variabel prediktor.

Prediksikan berat orang baru

# The predictor vector.
x <- c(151, 174, 138, 186, 128, 136, 179, 163, 152, 131)

# The resposne vector.
y <- c(63, 81, 56, 91, 47, 57, 76, 72, 62, 48)

# Apply the lm() function.
relation <- lm(y~x)

# Find weight of a person with height 170.
a <- data.frame(x = 170)
result <-  predict(relation,a)
print(result)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

1 
76.22869

Visualisasikan Regresi Secara Grafis

# Create the predictor and response variable.
x <- c(151, 174, 138, 186, 128, 136, 179, 163, 152, 131)
y <- c(63, 81, 56, 91, 47, 57, 76, 72, 62, 48)
relation <- lm(y~x)

# Give the chart file a name.
png(file = "linearregression.png")

# Plot the chart.
plot(y,x,col = "blue",main = "Height & Weight Regression",
abline(lm(x~y)),cex = 1.3,pch = 16,xlab = "Weight in Kg",ylab = "Height in cm")

# Save the file.
dev.off()

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

Regresi berganda merupakan perpanjangan dari regresi linier menjadi hubungan antara lebih dari dua variabel. Dalam hubungan linier sederhana kita memiliki satu variabel prediktor dan satu variabel respon, tetapi dalam regresi berganda kita memiliki lebih dari satu variabel prediktor dan satu variabel respon.

Persamaan matematika umum untuk regresi berganda adalah -

y = a + b1x1 + b2x2 +...bnxn

Berikut adalah uraian parameter yang digunakan -

  • y adalah variabel respon.

  • a, b1, b2...bn adalah koefisien.

  • x1, x2, ...xn adalah variabel prediktor.

Kami membuat model regresi menggunakan lm()fungsi di R. Model menentukan nilai koefisien menggunakan data masukan. Selanjutnya kita dapat memprediksi nilai variabel respon untuk satu set variabel prediktor menggunakan koefisien ini.

lm () Fungsi

Fungsi ini membuat model hubungan antara prediktor dan variabel respon.

Sintaksis

Sintaks dasar untuk lm() fungsi dalam regresi berganda adalah -

lm(y ~ x1+x2+x3...,data)

Berikut adalah uraian parameter yang digunakan -

  • formula adalah simbol yang mempresentasikan hubungan antara variabel respon dan variabel prediktor.

  • data adalah vektor tempat rumus akan diterapkan.

Contoh

Memasukan data

Pertimbangkan kumpulan data "mtcars" yang tersedia di lingkungan R. Ini memberikan perbandingan antara model mobil yang berbeda dalam hal jarak tempuh per galon (mpg), perpindahan silinder ("disp"), tenaga kuda ("hp"), berat mobil ("wt") dan beberapa parameter lainnya.

Tujuan dari model ini adalah untuk menetapkan hubungan antara "mpg" sebagai variabel respon dengan "disp", "hp" dan "wt" sebagai variabel prediktor. Kami membuat subset variabel ini dari kumpulan data mtcars untuk tujuan ini.

input <- mtcars[,c("mpg","disp","hp","wt")]
print(head(input))

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

mpg   disp   hp    wt
Mazda RX4          21.0  160    110   2.620
Mazda RX4 Wag      21.0  160    110   2.875
Datsun 710         22.8  108     93   2.320
Hornet 4 Drive     21.4  258    110   3.215
Hornet Sportabout  18.7  360    175   3.440
Valiant            18.1  225    105   3.460

Buat Model Hubungan & dapatkan Koefisien

input <- mtcars[,c("mpg","disp","hp","wt")]

# Create the relationship model.
model <- lm(mpg~disp+hp+wt, data = input)

# Show the model.
print(model)

# Get the Intercept and coefficients as vector elements.
cat("# # # # The Coefficient Values # # # ","\n")

a <- coef(model)[1]
print(a)

Xdisp <- coef(model)[2]
Xhp <- coef(model)[3]
Xwt <- coef(model)[4]

print(Xdisp)
print(Xhp)
print(Xwt)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

Call:
lm(formula = mpg ~ disp + hp + wt, data = input)

Coefficients:
(Intercept)         disp           hp           wt  
  37.105505      -0.000937        -0.031157    -3.800891  

# # # # The Coefficient Values # # # 
(Intercept) 
   37.10551 
         disp 
-0.0009370091 
         hp 
-0.03115655 
       wt 
-3.800891

Buat Persamaan untuk Model Regresi

Berdasarkan intersep dan nilai koefisien di atas, kami membuat persamaan matematika.

Y = a+Xdisp.x1+Xhp.x2+Xwt.x3
or
Y = 37.15+(-0.000937)*x1+(-0.0311)*x2+(-3.8008)*x3

Terapkan Persamaan untuk memprediksi Nilai Baru

Kita dapat menggunakan persamaan regresi yang dibuat di atas untuk memprediksi jarak tempuh ketika serangkaian nilai baru untuk perpindahan, tenaga kuda, dan berat disediakan.

Untuk mobil dengan disp = 221, hp = 102 dan wt = 2.91 jarak tempuh yang diprediksi adalah -

Y = 37.15+(-0.000937)*221+(-0.0311)*102+(-3.8008)*2.91 = 22.7104

Regresi Logistik merupakan model regresi dimana variabel respon (variabel terikat) memiliki nilai kategorik seperti True / False atau 0/1. Ini sebenarnya mengukur probabilitas respons biner sebagai nilai variabel respons berdasarkan persamaan matematika yang menghubungkannya dengan variabel prediktor.

Persamaan matematika umum untuk regresi logistik adalah -

y = 1/(1+e^-(a+b1x1+b2x2+b3x3+...))

Berikut adalah uraian parameter yang digunakan -

  • y adalah variabel respon.

  • x adalah variabel prediktor.

  • a dan b adalah koefisien yang merupakan konstanta numerik.

Fungsi yang digunakan untuk membuat model regresi adalah glm() fungsi.

Sintaksis

Sintaks dasar untuk glm() fungsi dalam regresi logistik adalah -

glm(formula,data,family)

Berikut adalah uraian parameter yang digunakan -

  • formula adalah simbol yang menunjukkan hubungan antar variabel.

  • data adalah kumpulan data yang memberikan nilai variabel ini.

  • familyadalah objek R untuk menentukan detail model. Nilainya adalah binomial untuk regresi logistik.

Contoh

Kumpulan data internal "mtcars" menjelaskan berbagai model mobil dengan spesifikasi mesin yang berbeda-beda. Dalam kumpulan data "mtcars", mode transmisi (otomatis atau manual) dijelaskan oleh kolom am yang merupakan nilai biner (0 atau 1). Kita dapat membuat model regresi logistik antara kolom "am" dan 3 kolom lainnya - hp, wt dan cyl.

# Select some columns form mtcars.
input <- mtcars[,c("am","cyl","hp","wt")]

print(head(input))

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

am   cyl  hp    wt
Mazda RX4          1   6    110   2.620
Mazda RX4 Wag      1   6    110   2.875
Datsun 710         1   4     93   2.320
Hornet 4 Drive     0   6    110   3.215
Hornet Sportabout  0   8    175   3.440
Valiant            0   6    105   3.460

Buat Model Regresi

Kami menggunakan glm() berfungsi untuk membuat model regresi dan mendapatkan ringkasannya untuk dianalisis.

input <- mtcars[,c("am","cyl","hp","wt")]

am.data = glm(formula = am ~ cyl + hp + wt, data = input, family = binomial)

print(summary(am.data))

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

Call:
glm(formula = am ~ cyl + hp + wt, family = binomial, data = input)

Deviance Residuals: 
     Min        1Q      Median        3Q       Max  
-2.17272     -0.14907  -0.01464     0.14116   1.27641  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)  
(Intercept) 19.70288    8.11637   2.428   0.0152 *
cyl          0.48760    1.07162   0.455   0.6491  
hp           0.03259    0.01886   1.728   0.0840 .
wt          -9.14947    4.15332  -2.203   0.0276 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 43.2297  on 31  degrees of freedom
Residual deviance:  9.8415  on 28  degrees of freedom
AIC: 17.841

Number of Fisher Scoring iterations: 8

Kesimpulan

Dalam ringkasan karena p-value di kolom terakhir lebih dari 0,05 untuk variabel "cyl" dan "hp", kami menganggapnya tidak signifikan dalam berkontribusi pada nilai variabel "am". Hanya bobot (wt) yang memengaruhi nilai "am" dalam model regresi ini.

Dalam pengumpulan data secara acak dari sumber-sumber independen, secara umum diketahui bahwa distribusi datanya normal. Artinya, dalam memplot grafik dengan nilai variabel pada sumbu horizontal dan jumlah nilai pada sumbu vertikal didapatkan kurva berbentuk lonceng. Pusat kurva mewakili mean dari kumpulan data. Dalam grafik, lima puluh persen nilai terletak di kiri rata-rata dan lima puluh persen lainnya berada di kanan grafik. Ini disebut sebagai distribusi normal dalam statistik.

R memiliki empat fungsi bawaan untuk menghasilkan distribusi normal. Mereka dijelaskan di bawah ini.

dnorm(x, mean, sd)
pnorm(x, mean, sd)
qnorm(p, mean, sd)
rnorm(n, mean, sd)

Berikut adalah deskripsi parameter yang digunakan dalam fungsi di atas -

  • x adalah vektor angka.

  • p adalah vektor probabilitas.

  • n adalah jumlah observasi (ukuran sampel).

  • meanadalah nilai rata-rata dari data sampel. Nilai defaultnya adalah nol.

  • sdadalah deviasi standar. Nilai defaultnya adalah 1.

dnorm ()

Fungsi ini memberikan ketinggian distribusi probabilitas pada setiap titik untuk mean dan deviasi standar tertentu.

# Create a sequence of numbers between -10 and 10 incrementing by 0.1.
x <- seq(-10, 10, by = .1)

# Choose the mean as 2.5 and standard deviation as 0.5.
y <- dnorm(x, mean = 2.5, sd = 0.5)

# Give the chart file a name.
png(file = "dnorm.png")

plot(x,y)

# Save the file.
dev.off()

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

pnorm ()

Fungsi ini memberikan probabilitas bilangan acak terdistribusi normal lebih kecil dari nilai bilangan tertentu. Ini juga disebut "Fungsi Distribusi Kumulatif".

# Create a sequence of numbers between -10 and 10 incrementing by 0.2.
x <- seq(-10,10,by = .2)
 
# Choose the mean as 2.5 and standard deviation as 2. 
y <- pnorm(x, mean = 2.5, sd = 2)

# Give the chart file a name.
png(file = "pnorm.png")

# Plot the graph.
plot(x,y)

# Save the file.
dev.off()

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

qnorm ()

Fungsi ini mengambil nilai probabilitas dan memberikan angka yang nilai kumulatifnya cocok dengan nilai probabilitas.

# Create a sequence of probability values incrementing by 0.02.
x <- seq(0, 1, by = 0.02)

# Choose the mean as 2 and standard deviation as 3.
y <- qnorm(x, mean = 2, sd = 1)

# Give the chart file a name.
png(file = "qnorm.png")

# Plot the graph.
plot(x,y)

# Save the file.
dev.off()

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

rnorm ()

Fungsi ini digunakan untuk menghasilkan bilangan acak yang distribusinya normal. Dibutuhkan ukuran sampel sebagai input dan menghasilkan banyak angka acak. Kami menggambar histogram untuk menunjukkan distribusi angka yang dihasilkan.

# Create a sample of 50 numbers which are normally distributed.
y <- rnorm(50)

# Give the chart file a name.
png(file = "rnorm.png")

# Plot the histogram for this sample.
hist(y, main = "Normal DIstribution")

# Save the file.
dev.off()

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

Model distribusi binomial berkaitan dengan menemukan probabilitas keberhasilan suatu peristiwa yang hanya memiliki dua kemungkinan hasil dalam serangkaian percobaan. Misalnya, melempar koin selalu menghasilkan kepala atau ekor. Probabilitas menemukan tepat 3 kepala dalam melempar koin berulang kali selama 10 kali diperkirakan selama distribusi binomial.

R memiliki empat fungsi built-in untuk menghasilkan distribusi binomial. Mereka dijelaskan di bawah ini.

dbinom(x, size, prob)
pbinom(x, size, prob)
qbinom(p, size, prob)
rbinom(n, size, prob)

Berikut adalah uraian parameter yang digunakan -

  • x adalah vektor angka.

  • p adalah vektor probabilitas.

  • n adalah jumlah pengamatan.

  • size adalah jumlah percobaan.

  • prob adalah probabilitas keberhasilan setiap percobaan.

dbinom ()

Fungsi ini memberikan distribusi kepadatan probabilitas di setiap titik.

# Create a sample of 50 numbers which are incremented by 1.
x <- seq(0,50,by = 1)

# Create the binomial distribution.
y <- dbinom(x,50,0.5)

# Give the chart file a name.
png(file = "dbinom.png")

# Plot the graph for this sample.
plot(x,y)

# Save the file.
dev.off()

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

pbinom ()

Fungsi ini memberikan probabilitas kumulatif dari suatu peristiwa. Ini adalah nilai tunggal yang mewakili probabilitas.

# Probability of getting 26 or less heads from a 51 tosses of a coin.
x <- pbinom(26,51,0.5)

print(x)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] 0.610116

qbinom ()

Fungsi ini mengambil nilai probabilitas dan memberikan angka yang nilai kumulatifnya cocok dengan nilai probabilitas.

# How many heads will have a probability of 0.25 will come out when a coin
# is tossed 51 times.
x <- qbinom(0.25,51,1/2)

print(x)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] 23

rbinom ()

Fungsi ini menghasilkan jumlah nilai acak yang diperlukan dari probabilitas tertentu dari sampel tertentu.

# Find 8 random values from a sample of 150 with probability of 0.4.
x <- rbinom(8,150,.4)

print(x)

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] 58 61 59 66 55 60 61 67

Regresi Poisson melibatkan model regresi dimana variabel responnya berupa bilangan dan bukan bilangan pecahan. Misalnya, jumlah kelahiran atau jumlah kemenangan dalam seri pertandingan sepak bola. Juga nilai variabel respon mengikuti distribusi Poisson.

Persamaan matematika umum untuk regresi Poisson adalah -

log(y) = a + b1x1 + b2x2 + bnxn.....

Berikut adalah uraian parameter yang digunakan -

  • y adalah variabel respon.

  • a dan b adalah koefisien numerik.

  • x adalah variabel prediktor.

Fungsi yang digunakan untuk membuat model regresi Poisson adalah glm() fungsi.

Sintaksis

Sintaks dasar untuk glm() fungsi dalam regresi Poisson adalah -

glm(formula,data,family)

Berikut adalah deskripsi parameter yang digunakan dalam fungsi di atas -

  • formula adalah simbol yang menunjukkan hubungan antar variabel.

  • data adalah kumpulan data yang memberikan nilai variabel ini.

  • familyadalah objek R untuk menentukan detail model. Nilainya adalah 'Poisson' untuk Regresi Logistik.

Contoh

Kami memiliki kumpulan data built-in "warpbreaks" yang menjelaskan pengaruh jenis wol (A atau B) dan tegangan (rendah, sedang atau tinggi) pada jumlah kerusakan warp per alat tenun. Mari kita pertimbangkan "jeda" sebagai variabel respons yang merupakan jumlah jeda. "Jenis" dan "tegangan" wol diambil sebagai variabel prediktor.

Input Data

input <- warpbreaks
print(head(input))

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

breaks   wool  tension
1     26       A     L
2     30       A     L
3     54       A     L
4     25       A     L
5     70       A     L
6     52       A     L

Buat Model Regresi

output <-glm(formula = breaks ~ wool+tension, data = warpbreaks,
   family = poisson)
print(summary(output))

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

Call:
glm(formula = breaks ~ wool + tension, family = poisson, data = warpbreaks)

Deviance Residuals: 
    Min       1Q     Median       3Q      Max  
  -3.6871  -1.6503  -0.4269     1.1902   4.2616  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  3.69196    0.04541  81.302  < 2e-16 ***
woolB       -0.20599    0.05157  -3.994 6.49e-05 ***
tensionM    -0.32132    0.06027  -5.332 9.73e-08 ***
tensionH    -0.51849    0.06396  -8.107 5.21e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for poisson family taken to be 1)

    Null deviance: 297.37  on 53  degrees of freedom
Residual deviance: 210.39  on 50  degrees of freedom
AIC: 493.06

Number of Fisher Scoring iterations: 4

Dalam ringkasan kami mencari nilai-p di kolom terakhir menjadi kurang dari 0,05 untuk mempertimbangkan dampak variabel prediktor pada variabel respons. Seperti yang terlihat pada wool tipe B yang memiliki tipe tegangan M dan H berpengaruh terhadap jumlah putus.

Kami menggunakan analisis Regresi untuk membuat model yang menggambarkan pengaruh variasi dalam variabel prediktor pada variabel respon. Terkadang, jika kita memiliki variabel kategori dengan nilai seperti Ya / Tidak atau Pria / Wanita dll. Analisis regresi sederhana memberikan hasil berganda untuk setiap nilai variabel kategori. Dalam skenario tersebut, kita dapat mempelajari pengaruh variabel kategori dengan menggunakannya bersama dengan variabel prediktor dan membandingkan garis regresi untuk setiap level variabel kategori. Analisis seperti itu disebut sebagaiAnalysis of Covariance juga disebut sebagai ANCOVA.

Contoh

Pertimbangkan R mtcars kumpulan data bawaan. Di dalamnya kami mengamati bahwa bidang "am" mewakili jenis transmisi (otomatis atau manual). Ini adalah variabel kategorikal dengan nilai 0 dan 1. Nilai mil per galon (mpg) mobil juga dapat bergantung padanya selain nilai tenaga kuda ("hp").

Kami mempelajari pengaruh nilai "am" pada regresi antara "mpg" dan "hp". Ini dilakukan dengan menggunakanaov() fungsi diikuti oleh anova() berfungsi untuk membandingkan beberapa regresi.

Memasukan data

Buat bingkai data yang berisi bidang "mpg", "hp" dan "am" dari kumpulan data mtcars. Di sini kita mengambil "mpg" sebagai variabel respon, "hp" sebagai variabel prediktor dan "am" sebagai variabel kategorikal.

input <- mtcars[,c("am","mpg","hp")]
print(head(input))

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

am   mpg   hp
Mazda RX4          1    21.0  110
Mazda RX4 Wag      1    21.0  110
Datsun 710         1    22.8   93
Hornet 4 Drive     0    21.4  110
Hornet Sportabout  0    18.7  175
Valiant            0    18.1  105

Analisis ANCOVA

Kami membuat model regresi dengan menggunakan "hp" sebagai variabel prediktor dan "mpg" sebagai variabel respons dengan mempertimbangkan interaksi antara "am" dan "hp".

Model dengan interaksi antara variabel kategori dan variabel prediktor

# Get the dataset.
input <- mtcars

# Create the regression model.
result <- aov(mpg~hp*am,data = input)
print(summary(result))

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

Df Sum Sq Mean Sq F value   Pr(>F)    
hp           1  678.4   678.4  77.391 1.50e-09 ***
am           1  202.2   202.2  23.072 4.75e-05 ***
hp:am        1    0.0     0.0   0.001    0.981    
Residuals   28  245.4     8.8                     
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Hasil ini menunjukkan bahwa baik tenaga kuda dan jenis transmisi berpengaruh signifikan terhadap mil per galon karena nilai p pada kedua kasus tersebut kurang dari 0,05. Namun interaksi antara kedua variabel ini tidak signifikan karena p-value lebih dari 0,05.

Model tanpa interaksi antara variabel kategorikal dan variabel prediktor

# Get the dataset.
input <- mtcars

# Create the regression model.
result <- aov(mpg~hp+am,data = input)
print(summary(result))

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

Df  Sum Sq  Mean Sq   F value   Pr(>F)    
hp           1  678.4   678.4   80.15 7.63e-10 ***
am           1  202.2   202.2   23.89 3.46e-05 ***
Residuals   29  245.4     8.5                     
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Hasil ini menunjukkan bahwa baik tenaga kuda dan jenis transmisi berpengaruh signifikan terhadap mil per galon karena nilai p pada kedua kasus tersebut kurang dari 0,05.

Membandingkan Dua Model

Sekarang kita dapat membandingkan kedua model untuk menyimpulkan jika interaksi variabel benar-benar tidak signifikan. Untuk ini kami menggunakananova() fungsi.

# Get the dataset.
input <- mtcars

# Create the regression models.
result1 <- aov(mpg~hp*am,data = input)
result2 <- aov(mpg~hp+am,data = input)

# Compare the two models.
print(anova(result1,result2))

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

Model 1: mpg ~ hp * am
Model 2: mpg ~ hp + am
  Res.Df    RSS Df  Sum of Sq     F Pr(>F)
1     28 245.43                           
2     29 245.44 -1 -0.0052515 6e-04 0.9806

Karena nilai p lebih besar dari 0,05 maka kami menyimpulkan bahwa interaksi antara tenaga kuda dan jenis transmisi tidak signifikan. Jadi jarak tempuh per galon akan bergantung dengan cara yang sama pada tenaga kuda mobil dalam mode transmisi otomatis dan manual.

Deret waktu adalah rangkaian titik data yang setiap titik datanya dikaitkan dengan stempel waktu. Contoh sederhananya adalah harga saham di pasar saham pada titik waktu yang berbeda pada hari tertentu. Contoh lainnya adalah jumlah curah hujan di suatu wilayah pada bulan-bulan yang berbeda dalam setahun. Bahasa R menggunakan banyak fungsi untuk membuat, memanipulasi, dan memplot data deret waktu. Data untuk deret waktu disimpan dalam objek R yang disebuttime-series object. Ini juga merupakan objek data R seperti vektor atau bingkai data.

Objek deret waktu dibuat dengan menggunakan ts() fungsi.

Sintaksis

Sintaks dasar untuk ts() fungsi dalam analisis deret waktu adalah -

timeseries.object.name <-  ts(data, start, end, frequency)

Berikut adalah uraian parameter yang digunakan -

  • data adalah vektor atau matriks yang berisi nilai-nilai yang digunakan dalam deret waktu.

  • start menentukan waktu mulai untuk pengamatan pertama dalam deret waktu.

  • end menentukan waktu akhir untuk pengamatan terakhir dalam deret waktu.

  • frequency menentukan jumlah observasi per satuan waktu.

Kecuali parameter "data", semua parameter lainnya bersifat opsional.

Contoh

Pertimbangkan detail curah hujan tahunan di suatu tempat mulai Januari 2012. Kami membuat objek deret waktu R untuk jangka waktu 12 bulan dan memplotnya.

# Get the data points in form of a R vector.
rainfall <- c(799,1174.8,865.1,1334.6,635.4,918.5,685.5,998.6,784.2,985,882.8,1071)

# Convert it to a time series object.
rainfall.timeseries <- ts(rainfall,start = c(2012,1),frequency = 12)

# Print the timeseries data.
print(rainfall.timeseries)

# Give the chart file a name.
png(file = "rainfall.png")

# Plot a graph of the time series.
plot(rainfall.timeseries)

# Save the file.
dev.off()

Ketika kami mengeksekusi kode di atas, ini menghasilkan hasil dan grafik berikut -

Jan    Feb    Mar    Apr    May     Jun    Jul    Aug    Sep
2012  799.0  1174.8  865.1  1334.6  635.4  918.5  685.5  998.6  784.2
        Oct    Nov    Dec
2012  985.0  882.8 1071.0

Diagram deret waktu -

Interval Waktu Berbeda

Nilai dari frequencyparameter dalam fungsi ts () memutuskan interval waktu di mana titik data diukur. Nilai 12 menunjukkan bahwa deret waktu selama 12 bulan. Nilai-nilai lain dan artinya adalah sebagai berikut -

  • frequency = 12 mematok poin data untuk setiap bulan dalam setahun.

  • frequency = 4 mematok poin data untuk setiap kuartal dalam satu tahun.

  • frequency = 6 mematok poin data untuk setiap 10 menit dalam satu jam.

  • frequency = 24*6 mematok poin data untuk setiap 10 menit sehari.

Seri Waktu Ganda

Kita dapat memplot beberapa deret waktu dalam satu bagan dengan menggabungkan kedua deret tersebut ke dalam matriks.

# Get the data points in form of a R vector.
rainfall1 <- c(799,1174.8,865.1,1334.6,635.4,918.5,685.5,998.6,784.2,985,882.8,1071)
rainfall2 <- 
           c(655,1306.9,1323.4,1172.2,562.2,824,822.4,1265.5,799.6,1105.6,1106.7,1337.8)

# Convert them to a matrix.
combined.rainfall <-  matrix(c(rainfall1,rainfall2),nrow = 12)

# Convert it to a time series object.
rainfall.timeseries <- ts(combined.rainfall,start = c(2012,1),frequency = 12)

# Print the timeseries data.
print(rainfall.timeseries)

# Give the chart file a name.
png(file = "rainfall_combined.png")

# Plot a graph of the time series.
plot(rainfall.timeseries, main = "Multiple Time Series")

# Save the file.
dev.off()

Ketika kami mengeksekusi kode di atas, ini menghasilkan hasil dan grafik berikut -

Series 1  Series 2
Jan 2012    799.0    655.0
Feb 2012   1174.8   1306.9
Mar 2012    865.1   1323.4
Apr 2012   1334.6   1172.2
May 2012    635.4    562.2
Jun 2012    918.5    824.0
Jul 2012    685.5    822.4
Aug 2012    998.6   1265.5
Sep 2012    784.2    799.6
Oct 2012    985.0   1105.6
Nov 2012    882.8   1106.7
Dec 2012   1071.0   1337.8

Bagan Rangkaian Waktu Banyak -

Saat memodelkan data dunia nyata untuk analisis regresi, kami mengamati bahwa jarang terjadi persamaan model adalah persamaan linier yang menghasilkan grafik linier. Seringkali, persamaan model data dunia nyata melibatkan fungsi matematika dengan derajat yang lebih tinggi seperti eksponen 3 atau fungsi sin. Dalam skenario seperti itu, plot model memberikan kurva, bukan garis. Sasaran dari regresi linier dan non-linier adalah untuk menyesuaikan nilai parameter model untuk menemukan garis atau kurva yang paling dekat dengan data Anda. Saat menemukan nilai-nilai ini, kami akan dapat memperkirakan variabel respons dengan akurasi yang baik.

Dalam regresi Kuadrat Terkecil, kami membuat model regresi di mana jumlah kuadrat jarak vertikal dari titik yang berbeda dari kurva regresi diminimalkan. Kami biasanya mulai dengan model yang ditentukan dan mengasumsikan beberapa nilai untuk koefisien. Kami kemudian menerapkannls() fungsi R untuk mendapatkan nilai yang lebih akurat bersama dengan interval kepercayaan.

Sintaksis

Sintaks dasar untuk membuat pengujian kuadrat terkecil nonlinier di R adalah -

nls(formula, data, start)

Berikut adalah uraian parameter yang digunakan -

  • formula adalah rumus model nonlinier termasuk variabel dan parameter.

  • data adalah kerangka data yang digunakan untuk mengevaluasi variabel dalam rumus.

  • start adalah daftar bernama atau vektor numerik bernama perkiraan awal.

Contoh

Kami akan mempertimbangkan model nonlinier dengan asumsi nilai awal koefisiennya. Selanjutnya kita akan melihat berapa interval kepercayaan dari nilai-nilai yang diasumsikan ini sehingga kita dapat menilai seberapa baik nilai-nilai ini masuk ke dalam model.

Jadi mari kita pertimbangkan persamaan di bawah ini untuk tujuan ini -

a = b1*x^2+b2

Mari kita asumsikan koefisien awal menjadi 1 dan 3 dan masukkan nilai-nilai ini ke dalam fungsi nls ().

xvalues <- c(1.6,2.1,2,2.23,3.71,3.25,3.4,3.86,1.19,2.21)
yvalues <- c(5.19,7.43,6.94,8.11,18.75,14.88,16.06,19.12,3.21,7.58)

# Give the chart file a name.
png(file = "nls.png")


# Plot these values.
plot(xvalues,yvalues)


# Take the assumed values and fit into the model.
model <- nls(yvalues ~ b1*xvalues^2+b2,start = list(b1 = 1,b2 = 3))

# Plot the chart with new data by fitting it to a prediction from 100 data points.
new.data <- data.frame(xvalues = seq(min(xvalues),max(xvalues),len = 100))
lines(new.data$xvalues,predict(model,newdata = new.data))

# Save the file.
dev.off()

# Get the sum of the squared residuals.
print(sum(resid(model)^2))

# Get the confidence intervals on the chosen values of the coefficients.
print(confint(model))

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

[1] 1.081935
Waiting for profiling to be done...
       2.5%    97.5%
b1 1.137708 1.253135
b2 1.497364 2.496484

Dapat disimpulkan bahwa nilai b1 lebih mendekati 1 sedangkan nilai b2 lebih mendekati 2 dan bukan 3.

Pohon keputusan adalah grafik yang merepresentasikan pilihan dan hasilnya dalam bentuk pohon. Node dalam grafik mewakili peristiwa atau pilihan dan tepi grafik mewakili aturan atau ketentuan keputusan. Ini banyak digunakan dalam aplikasi Machine Learning dan Data Mining menggunakan R.

Contoh penggunaan decision tress adalah - memprediksi email sebagai spam atau bukan spam, memprediksi tumor bersifat kanker atau memprediksi pinjaman sebagai risiko kredit baik atau buruk berdasarkan faktor-faktor di masing-masing. Umumnya, model dibuat dengan data observasi yang disebut juga data pelatihan. Kemudian satu set data validasi digunakan untuk memverifikasi dan meningkatkan model. R memiliki paket yang digunakan untuk membuat dan memvisualisasikan pohon keputusan. Untuk kumpulan variabel prediktor baru, kami menggunakan model ini untuk mengambil keputusan tentang kategori (ya / Tidak, spam / bukan spam) data.

Paket R. "party" digunakan untuk membuat pohon keputusan.

Instal Paket R.

Gunakan perintah di bawah ini di konsol R untuk menginstal paket. Anda juga harus menginstal paket dependen jika ada.

install.packages("party")

Paket "pesta" memiliki fungsi ctree() yang digunakan untuk membuat dan menganalisis pohon keputusan.

Sintaksis

Sintaks dasar untuk membuat pohon keputusan di R adalah -

ctree(formula, data)

Berikut adalah uraian parameter yang digunakan -

  • formula adalah rumus yang menjelaskan variabel prediktor dan respons.

  • data adalah nama kumpulan data yang digunakan.

Memasukan data

Kami akan menggunakan R set data built-in bernama readingSkillsuntuk membuat pohon keputusan. Ini menggambarkan skor keterampilan membaca seseorang jika kita mengetahui variabel "usia", "sepatu", "skor" dan apakah orang tersebut adalah penutur asli atau bukan.

Berikut ini contoh datanya.

# Load the party package. It will automatically load other
# dependent packages.
library(party)

# Print some records from data set readingSkills.
print(head(readingSkills))

Ketika kami mengeksekusi kode di atas, ini menghasilkan hasil dan grafik berikut -

nativeSpeaker   age   shoeSize      score
1           yes     5   24.83189   32.29385
2           yes     6   25.95238   36.63105
3            no    11   30.42170   49.60593
4           yes     7   28.66450   40.28456
5           yes    11   31.88207   55.46085
6           yes    10   30.07843   52.83124
Loading required package: methods
Loading required package: grid
...............................
...............................

Contoh

Kami akan menggunakan ctree() berfungsi untuk membuat pohon keputusan dan melihat grafiknya.

# Load the party package. It will automatically load other
# dependent packages.
library(party)

# Create the input data frame.
input.dat <- readingSkills[c(1:105),]

# Give the chart file a name.
png(file = "decision_tree.png")

# Create the tree.
  output.tree <- ctree(
  nativeSpeaker ~ age + shoeSize + score, 
  data = input.dat)

# Plot the tree.
plot(output.tree)

# Save the file.
dev.off()

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

null device 
          1 
Loading required package: methods
Loading required package: grid
Loading required package: mvtnorm
Loading required package: modeltools
Loading required package: stats4
Loading required package: strucchange
Loading required package: zoo

Attaching package: ‘zoo’

The following objects are masked from ‘package:base’:

   as.Date, as.Date.numeric

Loading required package: sandwich

Kesimpulan

Dari pohon keputusan yang ditunjukkan di atas, kita dapat menyimpulkan bahwa siapa pun yang skor readingSkills kurang dari 38,3 dan usianya lebih dari 6 bukanlah penutur asli.

Dalam pendekatan hutan acak, sejumlah besar pohon keputusan dibuat. Setiap pengamatan dimasukkan ke dalam setiap pohon keputusan. Hasil paling umum untuk setiap pengamatan digunakan sebagai keluaran akhir. Pengamatan baru dimasukkan ke semua pohon dan mengambil suara mayoritas untuk setiap model klasifikasi.

Perkiraan kesalahan dibuat untuk kasus-kasus yang tidak digunakan saat membangun pohon. Itu disebutOOB (Out-of-bag) perkiraan kesalahan yang disebutkan sebagai persentase.

Paket R. "randomForest" digunakan untuk membuat hutan acak.

Instal Paket R.

Gunakan perintah di bawah ini di konsol R untuk menginstal paket. Anda juga harus menginstal paket dependen jika ada.

install.packages("randomForest)

Paket "randomForest" memiliki fungsi randomForest() yang digunakan untuk membuat dan menganalisis hutan acak.

Sintaksis

Sintaks dasar untuk membuat hutan acak di R adalah -

randomForest(formula, data)

Berikut adalah uraian parameter yang digunakan -

  • formula adalah rumus yang menjelaskan variabel prediktor dan respons.

  • data adalah nama kumpulan data yang digunakan.

Memasukan data

Kami akan menggunakan set data built-in R bernama readingSkills untuk membuat pohon keputusan. Ini menggambarkan skor keterampilan membaca seseorang jika kita mengetahui variabel "usia", "sepatu", "skor" dan apakah orang tersebut adalah penutur asli.

Berikut ini contoh datanya.

# Load the party package. It will automatically load other
# required packages.
library(party)

# Print some records from data set readingSkills.
print(head(readingSkills))

Ketika kami mengeksekusi kode di atas, ini menghasilkan hasil dan grafik berikut -

nativeSpeaker   age   shoeSize      score
1           yes     5   24.83189   32.29385
2           yes     6   25.95238   36.63105
3            no    11   30.42170   49.60593
4           yes     7   28.66450   40.28456
5           yes    11   31.88207   55.46085
6           yes    10   30.07843   52.83124
Loading required package: methods
Loading required package: grid
...............................
...............................

Contoh

Kami akan menggunakan randomForest() berfungsi untuk membuat pohon keputusan dan melihat grafiknya.

# Load the party package. It will automatically load other
# required packages.
library(party)
library(randomForest)

# Create the forest.
output.forest <- randomForest(nativeSpeaker ~ age + shoeSize + score, 
           data = readingSkills)

# View the forest results.
print(output.forest) 

# Importance of each predictor.
print(importance(fit,type = 2))

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

Call:
 randomForest(formula = nativeSpeaker ~ age + shoeSize + score,     
                 data = readingSkills)
               Type of random forest: classification
                     Number of trees: 500
No. of variables tried at each split: 1

        OOB estimate of  error rate: 1%
Confusion matrix:
    no yes class.error
no  99   1        0.01
yes  1  99        0.01
         MeanDecreaseGini
age              13.95406
shoeSize         18.91006
score            56.73051

Kesimpulan

Dari random forest yang ditunjukkan di atas kita dapat menyimpulkan bahwa shoesize dan score adalah faktor penting yang menentukan apakah seseorang adalah native speaker atau bukan. Juga model hanya memiliki kesalahan 1% yang berarti kita dapat memprediksi dengan akurasi 99%.

Analisis kelangsungan hidup berkaitan dengan memprediksi waktu ketika suatu peristiwa tertentu akan terjadi. Ini juga dikenal sebagai analisis waktu kegagalan atau analisis waktu sampai mati. Misalnya memprediksi jumlah hari penderita kanker akan bertahan atau memprediksi waktu ketika sistem mekanis akan gagal.

Paket R bernama survivaldigunakan untuk melakukan analisis kelangsungan hidup. Paket ini berisi fungsiSurv()yang mengambil data masukan sebagai rumus R dan membuat objek kelangsungan hidup di antara variabel yang dipilih untuk dianalisis. Kemudian kami menggunakan fungsinyasurvfit() untuk membuat plot untuk analisis.

Instal Paket

install.packages("survival")

Sintaksis

Sintaks dasar untuk membuat analisis kelangsungan hidup di R adalah -

Surv(time,event)
survfit(formula)

Berikut adalah uraian parameter yang digunakan -

  • time adalah waktu tindak lanjut sampai acara tersebut terjadi.

  • event menunjukkan status terjadinya peristiwa yang diharapkan.

  • formula adalah hubungan antara variabel prediktor.

Contoh

Kami akan mempertimbangkan kumpulan data bernama "pbc" yang ada dalam paket survival yang diinstal di atas. Ini menjelaskan poin data kelangsungan hidup tentang orang yang terkena sirosis bilier primer (PBC) hati. Di antara banyak kolom yang ada dalam kumpulan data, kami terutama berfokus pada bidang "waktu" dan "status". Waktu menunjukkan jumlah hari antara pendaftaran pasien dan awal kejadian antara pasien menerima transplantasi hati atau kematian pasien.

# Load the library.
library("survival")

# Print first few rows.
print(head(pbc))

Ketika kami mengeksekusi kode di atas, ini menghasilkan hasil dan grafik berikut -

id time status trt      age sex ascites hepato spiders edema bili chol
1  1  400      2   1 58.76523   f       1      1       1   1.0 14.5  261
2  2 4500      0   1 56.44627   f       0      1       1   0.0  1.1  302
3  3 1012      2   1 70.07255   m       0      0       0   0.5  1.4  176
4  4 1925      2   1 54.74059   f       0      1       1   0.5  1.8  244
5  5 1504      1   2 38.10541   f       0      1       1   0.0  3.4  279
6  6 2503      2   2 66.25873   f       0      1       0   0.0  0.8  248
  albumin copper alk.phos    ast trig platelet protime stage
1    2.60    156   1718.0 137.95  172      190    12.2     4
2    4.14     54   7394.8 113.52   88      221    10.6     3
3    3.48    210    516.0  96.10   55      151    12.0     4
4    2.54     64   6121.8  60.63   92      183    10.3     4
5    3.53    143    671.0 113.15   72      136    10.9     3
6    3.98     50    944.0  93.00   63       NA    11.0     3

Dari data di atas kami mempertimbangkan waktu dan status untuk analisis kami.

Menerapkan Fungsi Surv () dan survfit ()

Sekarang kita lanjutkan untuk menerapkan Surv() berfungsi untuk kumpulan data di atas dan membuat plot yang akan menunjukkan tren.

# Load the library.
library("survival")

# Create the survival object. 
survfit(Surv(pbc$time,pbc$status == 2)~1) # Give the chart file a name. png(file = "survival.png") # Plot the graph. plot(survfit(Surv(pbc$time,pbc$status == 2)~1))

# Save the file.
dev.off()

Ketika kami mengeksekusi kode di atas, ini menghasilkan hasil dan grafik berikut -

Call: survfit(formula = Surv(pbc$time, pbc$status == 2) ~ 1)

      n  events  median 0.95LCL 0.95UCL 
    418     161    3395    3090    3853

Tren pada grafik di atas membantu kita memprediksi kemungkinan bertahan hidup pada akhir beberapa hari.

Chi-Square testadalah metode statistik untuk menentukan apakah dua variabel kategori memiliki korelasi yang signifikan di antara keduanya. Kedua variabel tersebut harus dari populasi yang sama dan harus dikategorikan seperti - Ya / Tidak, Pria / Wanita, Merah / Hijau dll.

Misalnya, kita dapat membuat kumpulan data dengan observasi pola pembelian es krim orang-orang dan mencoba menghubungkan jenis kelamin seseorang dengan rasa es krim yang mereka sukai. Jika korelasi ditemukan, kami dapat merencanakan stok rasa yang sesuai dengan mengetahui jumlah jenis kelamin orang yang mengunjungi.

Sintaksis

Fungsi yang digunakan untuk melakukan uji chi-square adalah chisq.test().

Sintaks dasar untuk membuat uji chi-square di R adalah -

chisq.test(data)

Berikut adalah uraian parameter yang digunakan -

  • data merupakan data dalam bentuk tabel yang berisi nilai hitungan variabel yang diamati.

Contoh

Kami akan mengambil data Cars93 di perpustakaan "MASS" yang mewakili penjualan berbagai model mobil di tahun 1993.

library("MASS")
print(str(Cars93))

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

'data.frame':   93 obs. of  27 variables: 
 $ Manufacturer      : Factor w/ 32 levels "Acura","Audi",..: 1 1 2 2 3 4 4 4 4 5 ... 
 $ Model : Factor w/ 93 levels "100","190E","240",..: 49 56 9 1 6 24 54 74 73 35 ... $ Type              : Factor w/ 6 levels "Compact","Large",..: 4 3 1 3 3 3 2 2 3 2 ... 
 $ Min.Price : num 12.9 29.2 25.9 30.8 23.7 14.2 19.9 22.6 26.3 33 ... $ Price             : num  15.9 33.9 29.1 37.7 30 15.7 20.8 23.7 26.3 34.7 ... 
 $ Max.Price : num 18.8 38.7 32.3 44.6 36.2 17.3 21.7 24.9 26.3 36.3 ... $ MPG.city          : int  25 18 20 19 22 22 19 16 19 16 ... 
 $ MPG.highway : int 31 25 26 26 30 31 28 25 27 25 ... $ AirBags           : Factor w/ 3 levels "Driver & Passenger",..: 3 1 2 1 2 2 2 2 2 2 ... 
 $ DriveTrain : Factor w/ 3 levels "4WD","Front",..: 2 2 2 2 3 2 2 3 2 2 ... $ Cylinders         : Factor w/ 6 levels "3","4","5","6",..: 2 4 4 4 2 2 4 4 4 5 ... 
 $ EngineSize : num 1.8 3.2 2.8 2.8 3.5 2.2 3.8 5.7 3.8 4.9 ... $ Horsepower        : int  140 200 172 172 208 110 170 180 170 200 ... 
 $ RPM : int 6300 5500 5500 5500 5700 5200 4800 4000 4800 4100 ... $ Rev.per.mile      : int  2890 2335 2280 2535 2545 2565 1570 1320 1690 1510 ... 
 $ Man.trans.avail : Factor w/ 2 levels "No","Yes": 2 2 2 2 2 1 1 1 1 1 ... $ Fuel.tank.capacity: num  13.2 18 16.9 21.1 21.1 16.4 18 23 18.8 18 ... 
 $ Passengers : int 5 5 5 6 4 6 6 6 5 6 ... $ Length            : int  177 195 180 193 186 189 200 216 198 206 ... 
 $ Wheelbase : int 102 115 102 106 109 105 111 116 108 114 ... $ Width             : int  68 71 67 70 69 69 74 78 73 73 ... 
 $ Turn.circle : int 37 38 37 37 39 41 42 45 41 43 ... $ Rear.seat.room    : num  26.5 30 28 31 27 28 30.5 30.5 26.5 35 ... 
 $ Luggage.room : int 11 15 14 17 13 16 17 21 14 18 ... $ Weight            : int  2705 3560 3375 3405 3640 2880 3470 4105 3495 3620 ... 
 $ Origin : Factor w/ 2 levels "USA","non-USA": 2 2 2 2 2 1 1 1 1 1 ... $ Make              : Factor w/ 93 levels "Acura Integra",..: 1 2 4 3 5 6 7 9 8 10 ...

Hasil di atas menunjukkan dataset memiliki banyak variabel Faktor yang dapat dianggap sebagai variabel kategori. Untuk model kami, kami akan mempertimbangkan variabel "AirBags" dan "Type". Di sini kami bertujuan untuk mengetahui korelasi signifikan antara jenis mobil yang dijual dan jenis kantong udara yang dimilikinya. Jika korelasinya diamati, kami dapat memperkirakan jenis mobil mana yang dapat terjual lebih baik dengan jenis kantong udara apa.

# Load the library.
library("MASS")

# Create a data frame from the main data set.
car.data <- data.frame(Cars93$AirBags, Cars93$Type)

# Create a table with the needed variables.
car.data = table(Cars93$AirBags, Cars93$Type) 
print(car.data)

# Perform the Chi-Square test.
print(chisq.test(car.data))

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

Compact Large Midsize Small Sporty Van
  Driver & Passenger       2     4       7     0      3   0
  Driver only              9     7      11     5      8   3
  None                     5     0       4    16      3   6

         Pearson's Chi-squared test

data:  car.data
X-squared = 33.001, df = 10, p-value = 0.0002723

Warning message:
In chisq.test(car.data) : Chi-squared approximation may be incorrect

Kesimpulan

Hasilnya menunjukkan nilai p kurang dari 0,05 yang menunjukkan korelasi string.