R - Tệp Excel

Microsoft Excel là chương trình bảng tính được sử dụng rộng rãi nhất để lưu trữ dữ liệu ở định dạng .xls hoặc .xlsx. R có thể đọc trực tiếp từ các tệp này bằng một số gói cụ thể của excel. Rất ít gói như vậy - XLConnect, xlsx, gdata, v.v. Chúng tôi sẽ sử dụng gói xlsx. R cũng có thể ghi vào tệp excel bằng gói này.

Cài đặt gói xlsx

Bạn có thể sử dụng lệnh sau trong bảng điều khiển R để cài đặt gói "xlsx". Nó có thể yêu cầu cài đặt một số gói bổ sung mà gói này phụ thuộc vào. Làm theo lệnh tương tự với tên gói bắt buộc để cài đặt các gói bổ sung.

install.packages("xlsx")

Xác minh và tải gói "xlsx"

Sử dụng lệnh sau để xác minh và tải gói "xlsx".

# Verify the package is installed.
any(grepl("xlsx",installed.packages()))

# Load the library into R workspace.
library("xlsx")

Khi tập lệnh được chạy, chúng tôi nhận được kết quả sau.

[1] TRUE
Loading required package: rJava
Loading required package: methods
Loading required package: xlsxjars

Nhập dưới dạng tệp xlsx

Mở Microsoft excel. Sao chép và dán dữ liệu sau vào trang tính có tên là sheet1.

id	name      salary    start_date	dept
1	Rick	    623.3	  1/1/2012	   IT
2	Dan       515.2     9/23/2013    Operations
3	Michelle  611	     11/15/2014	IT
4	Ryan	    729	     5/11/2014	   HR
5	Gary	    43.25     3/27/2015  	Finance
6	Nina	    578       5/21/2013	   IT
7	Simon	    632.8	  7/30/2013	   Operations
8	Guru	    722.5	  6/17/2014	   Finance

Đồng thời sao chép và dán dữ liệu sau vào một trang tính khác và đổi tên trang tính này thành "thành phố".

name	    city
Rick	    Seattle
Dan       Tampa
Michelle  Chicago
Ryan	    Seattle
Gary	    Houston
Nina	    Boston
Simon	    Mumbai
Guru	    Dallas

Lưu tệp Excel dưới dạng "input.xlsx". Bạn nên lưu nó trong thư mục làm việc hiện tại của không gian làm việc R.

Đọc tệp Excel

Input.xlsx được đọc bằng cách sử dụng read.xlsx()chức năng như hình dưới đây. Kết quả được lưu trữ dưới dạng khung dữ liệu trong môi trường R.

# Read the first worksheet in the file input.xlsx.
data <- read.xlsx("input.xlsx", sheetIndex = 1)
print(data)

Khi chúng tôi thực thi đoạn mã trên, nó tạo ra kết quả sau:

id,   name,     salary,   start_date,   dept
1      1    Rick      623.30    2012-01-01    IT
2      2    Dan       515.20    2013-09-23    Operations
3      3    Michelle  611.00    2014-11-15    IT
4      4    Ryan      729.00    2014-05-11    HR
5     NA    Gary      843.25    2015-03-27    Finance
6      6    Nina      578.00    2013-05-21    IT
7      7    Simon     632.80    2013-07-30    Operations
8      8    Guru      722.50    2014-06-17    Finance