Phân tích dữ liệu - Quy trình
Phân tích dữ liệu là một quá trình thu thập, chuyển đổi, làm sạch và mô hình hóa dữ liệu với mục tiêu khám phá thông tin cần thiết. Các kết quả thu được sẽ được truyền đạt, gợi ý kết luận và hỗ trợ việc ra quyết định. Hình ảnh hóa dữ liệu đôi khi được sử dụng để mô tả dữ liệu để dễ dàng khám phá các mẫu hữu ích trong dữ liệu. Các thuật ngữ Mô hình hóa dữ liệu và Phân tích dữ liệu có nghĩa giống nhau.
Quy trình phân tích dữ liệu bao gồm các giai đoạn sau có tính chất lặp lại:
- Đặc tả yêu cầu dữ liệu
- Thu thập dữ liệu
- Xử lí dữ liệu
- Làm sạch dữ liệu
- Phân tích dữ liệu
- Communication
Đặc tả yêu cầu dữ liệu
Dữ liệu cần thiết để phân tích dựa trên một câu hỏi hoặc một thử nghiệm. Dựa trên yêu cầu của những người chỉ đạo phân tích, dữ liệu cần thiết làm đầu vào cho phân tích được xác định (ví dụ: Dân số người). Các biến cụ thể liên quan đến dân số (ví dụ: Tuổi và Thu nhập) có thể được chỉ định và thu thập. Dữ liệu có thể là số hoặc phân loại.
Thu thập dữ liệu
Thu thập dữ liệu là quá trình thu thập thông tin về các biến mục tiêu được xác định là yêu cầu dữ liệu. Trọng tâm là đảm bảo thu thập dữ liệu chính xác và trung thực. Thu thập dữ liệu đảm bảo rằng dữ liệu được thu thập là chính xác để các quyết định liên quan là hợp lệ. Thu thập dữ liệu cung cấp cả đường cơ sở để đo lường và mục tiêu để cải thiện.
Dữ liệu được thu thập từ nhiều nguồn khác nhau, từ cơ sở dữ liệu tổ chức đến thông tin trong các trang web. Do đó, dữ liệu thu được có thể không có cấu trúc và có thể chứa thông tin không liên quan. Do đó, dữ liệu thu thập được bắt buộc phải qua Xử lý dữ liệu và Làm sạch dữ liệu.
Xử lí dữ liệu
Dữ liệu được thu thập phải được xử lý hoặc tổ chức để phân tích. Điều này bao gồm cấu trúc dữ liệu theo yêu cầu cho các Công cụ phân tích có liên quan. Ví dụ: dữ liệu có thể phải được đặt thành các hàng và cột trong bảng trong Bảng tính hoặc Ứng dụng thống kê. Có thể phải tạo Mô hình Dữ liệu.
Làm sạch dữ liệu
Dữ liệu được tổ chức và xử lý có thể không đầy đủ, có trùng lặp hoặc có lỗi. Làm sạch dữ liệu là quá trình ngăn ngừa và sửa chữa những lỗi này. Có một số loại Làm sạch dữ liệu phụ thuộc vào loại dữ liệu. Ví dụ: trong khi làm sạch dữ liệu tài chính, các tổng số nhất định có thể được so sánh với các con số được công bố đáng tin cậy hoặc các ngưỡng đã xác định. Tương tự như vậy, các phương pháp dữ liệu định lượng có thể được sử dụng để phát hiện ngoại lệ mà sau đó sẽ bị loại trừ trong phân tích.
Phân tích dữ liệu
Dữ liệu được xử lý, sắp xếp và làm sạch sẽ sẵn sàng cho phân tích. Có nhiều kỹ thuật phân tích dữ liệu khác nhau để hiểu, diễn giải và đưa ra kết luận dựa trên các yêu cầu. Hình ảnh hóa dữ liệu cũng có thể được sử dụng để kiểm tra dữ liệu ở định dạng đồ họa, để có được thông tin chi tiết bổ sung về các thông báo trong dữ liệu.
Có thể sử dụng các Mô hình Dữ liệu Thống kê như Tương quan, Phân tích Hồi quy để xác định mối quan hệ giữa các biến dữ liệu. Các mô hình mô tả dữ liệu này rất hữu ích trong việc đơn giản hóa việc phân tích và truyền đạt kết quả.
Quá trình này có thể yêu cầu làm sạch dữ liệu bổ sung hoặc thu thập dữ liệu bổ sung, và do đó các hoạt động này có tính chất lặp lại.
Giao tiếp
Kết quả của phân tích dữ liệu phải được báo cáo ở định dạng theo yêu cầu của người dùng để hỗ trợ các quyết định và hành động tiếp theo của họ. Phản hồi từ người dùng có thể dẫn đến phân tích bổ sung.
Các nhà phân tích dữ liệu có thể chọn các kỹ thuật trực quan hóa dữ liệu, chẳng hạn như bảng và biểu đồ, giúp truyền đạt thông điệp một cách rõ ràng và hiệu quả đến người dùng. Các công cụ phân tích cung cấp cơ sở để làm nổi bật thông tin cần thiết với mã màu và định dạng trong bảng và biểu đồ.