Phân tích dữ liệu lớn - Phương pháp
Về phương pháp luận, phân tích dữ liệu lớn khác biệt đáng kể so với cách tiếp cận thống kê truyền thống của thiết kế thử nghiệm. Phân tích bắt đầu với dữ liệu. Thông thường, chúng tôi lập mô hình dữ liệu theo cách để giải thích một phản hồi. Mục tiêu của cách tiếp cận này là dự đoán hành vi phản hồi hoặc hiểu cách các biến đầu vào liên quan đến phản hồi. Thông thường trong các thiết kế thử nghiệm thống kê, một thử nghiệm được phát triển và kết quả là dữ liệu được truy xuất. Điều này cho phép tạo dữ liệu theo cách có thể được sử dụng bởi một mô hình thống kê, trong đó các giả định nhất định được giữ nguyên như tính độc lập, tính chuẩn mực và tính ngẫu nhiên.
Trong phân tích dữ liệu lớn, chúng tôi được trình bày với dữ liệu. Chúng tôi không thể thiết kế một thử nghiệm đáp ứng mô hình thống kê yêu thích của chúng tôi. Trong các ứng dụng phân tích quy mô lớn, cần một lượng lớn công việc (thường là 80% công sức) chỉ để làm sạch dữ liệu, vì vậy nó có thể được sử dụng bởi mô hình học máy.
Chúng tôi không có một phương pháp duy nhất để tuân theo trong các ứng dụng quy mô lớn thực sự. Thông thường, một khi vấn đề kinh doanh được xác định, một giai đoạn nghiên cứu là cần thiết để thiết kế phương pháp luận được sử dụng. Tuy nhiên, các hướng dẫn chung có liên quan cần được đề cập và áp dụng cho hầu hết các vấn đề.
Một trong những nhiệm vụ quan trọng nhất trong phân tích dữ liệu lớn là statistical modeling, nghĩa là các vấn đề phân loại hoặc hồi quy có giám sát và không được giám sát. Sau khi dữ liệu được làm sạch và xử lý trước, sẵn sàng cho việc lập mô hình, cần thận trọng khi đánh giá các mô hình khác nhau với các số liệu tổn thất hợp lý và sau đó khi mô hình được triển khai, cần đánh giá thêm và báo cáo kết quả. Cạm bẫy phổ biến trong mô hình dự đoán là chỉ thực hiện mô hình và không bao giờ đo lường hiệu suất của nó.