Phân tích dữ liệu - Tổng quan

Phân tích dữ liệu là một quá trình kiểm tra, làm sạch, chuyển đổi và mô hình hóa dữ liệu với mục tiêu khám phá thông tin hữu ích, đề xuất kết luận và hỗ trợ việc ra quyết định

.

Các loại phân tích dữ liệu

Một số kỹ thuật phân tích dữ liệu tồn tại bao gồm các lĩnh vực khác nhau như kinh doanh, khoa học, khoa học xã hội, v.v. với nhiều tên gọi khác nhau. Các phương pháp phân tích dữ liệu chính là:

  • Khai thác dữ liệu
  • Kinh doanh thông minh
  • Phân tích thống kê
  • Phân tích dự đoán
  • Phân tích văn bản

Khai thác dữ liệu

Khai thác dữ liệu là phân tích số lượng lớn dữ liệu để trích xuất các mẫu dữ liệu thú vị, chưa từng biết trước đây, dữ liệu bất thường và các phần phụ thuộc. Lưu ý rằng mục tiêu là trích xuất các mẫu và kiến ​​thức từ một lượng lớn dữ liệu chứ không phải trích xuất chính dữ liệu.

Phân tích khai thác dữ liệu liên quan đến các phương pháp khoa học máy tính ở giao điểm của trí tuệ nhân tạo, máy học, thống kê và hệ thống cơ sở dữ liệu.

Các mẫu thu được từ khai thác dữ liệu có thể được coi là bản tóm tắt dữ liệu đầu vào có thể được sử dụng trong phân tích sâu hơn hoặc để thu được kết quả dự đoán chính xác hơn bởi hệ thống hỗ trợ quyết định.

Kinh doanh thông minh

Các công cụ và kỹ thuật Business Intelligence dùng để thu thập và chuyển đổi một lượng lớn dữ liệu kinh doanh phi cấu trúc nhằm giúp xác định, phát triển và tạo ra các cơ hội kinh doanh chiến lược mới.

Mục tiêu của trí tuệ kinh doanh là cho phép dễ dàng giải thích khối lượng lớn dữ liệu để xác định các cơ hội mới. Nó giúp thực hiện một chiến lược hiệu quả dựa trên những hiểu biết sâu sắc có thể cung cấp cho các doanh nghiệp một lợi thế thị trường cạnh tranh và sự ổn định lâu dài.

Phân tích thống kê

Thống kê là nghiên cứu thu thập, phân tích, giải thích, trình bày và tổ chức dữ liệu.

Trong phân tích dữ liệu, hai phương pháp thống kê chính được sử dụng:

  • Descriptive statistics - Trong thống kê mô tả, dữ liệu từ toàn bộ tổng thể hoặc một mẫu được tóm tắt bằng các bộ mô tả số như -

    • Trung bình, Độ lệch Chuẩn cho Dữ liệu Liên tục

    • Tần suất, Tỷ lệ phần trăm cho dữ liệu phân loại

  • Inferential statistics- Nó sử dụng các mẫu trong dữ liệu mẫu để rút ra các suy luận về dân số được đại diện hoặc tính ngẫu nhiên. Những suy luận này có thể là -

    • trả lời câu hỏi có / không về dữ liệu (kiểm tra giả thuyết)

    • ước tính các đặc tính số của dữ liệu (ước tính)

    • mô tả các liên kết trong dữ liệu (tương quan)

    • mô hình hóa các mối quan hệ trong dữ liệu (Ví dụ: phân tích hồi quy)

Phân tích dự đoán

Phân tích dự đoán sử dụng các mô hình thống kê để phân tích dữ liệu hiện tại và lịch sử để dự báo (dự đoán) về các sự kiện trong tương lai hoặc các sự kiện chưa biết. Trong kinh doanh, phân tích dự đoán được sử dụng để xác định các rủi ro và cơ hội hỗ trợ việc ra quyết định.

Phân tích văn bản

Phân tích văn bản, còn được gọi là Khai phá văn bản hoặc Khai thác dữ liệu văn bản là quá trình lấy thông tin chất lượng cao từ văn bản. Khai phá văn bản thường bao gồm quá trình cấu trúc văn bản đầu vào, lấy ra các mẫu trong dữ liệu có cấu trúc bằng cách sử dụng các phương tiện như học mẫu thống kê, và cuối cùng là đánh giá và giải thích đầu ra.

Quy trình phân tích dữ liệu

Phân tích dữ liệu được nhà thống kê John Tukey định nghĩa vào năm 1961 là "Quy trình phân tích dữ liệu, kỹ thuật giải thích kết quả của các quy trình đó, cách lập kế hoạch thu thập dữ liệu để làm cho việc phân tích dễ dàng hơn, chính xác hơn hoặc chính xác hơn, và tất cả các máy và kết quả thống kê (toán học) áp dụng cho việc phân tích dữ liệu. "

Do đó, phân tích dữ liệu là một quá trình thu thập dữ liệu lớn, không có cấu trúc từ nhiều nguồn khác nhau và chuyển đổi nó thành thông tin hữu ích cho -

  • Trả lời câu hỏi
  • Kiểm tra giả thuyết
  • Decision-making
  • Chứng minh lý thuyết

Phân tích dữ liệu với Excel

Microsoft Excel cung cấp một số phương tiện và cách thức để phân tích và diễn giải dữ liệu. Dữ liệu có thể từ nhiều nguồn khác nhau. Dữ liệu có thể được chuyển đổi và định dạng theo một số cách. Nó có thể được phân tích bằng các lệnh, hàm và công cụ Excel có liên quan - bao gồm Định dạng có điều kiện, Phạm vi, Bảng, Hàm văn bản, Hàm ngày, Hàm thời gian, Hàm tài chính, Tổng phụ, Phân tích nhanh, Kiểm tra công thức, Công cụ hỏi, Phân tích điều gì xảy ra, Bộ giải, Mô hình dữ liệu, PowerPivot, PowerView, PowerMap, v.v.

Bạn sẽ học các kỹ thuật phân tích dữ liệu này với Excel như một phần của hai phần -

  • Phân tích dữ liệu với Excel và
  • Phân tích dữ liệu nâng cao với Excel