Khai thác dữ liệu - Phân loại & Dự đoán
Có hai hình thức phân tích dữ liệu có thể được sử dụng để trích xuất các mô hình mô tả các lớp quan trọng hoặc để dự đoán xu hướng dữ liệu trong tương lai. Hai hình thức này như sau:
- Classification
- Prediction
Các mô hình phân loại dự đoán các nhãn phân loại; và các mô hình dự đoán dự đoán các hàm có giá trị liên tục. Ví dụ: chúng ta có thể xây dựng mô hình phân loại để phân loại các đơn xin vay ngân hàng là an toàn hay rủi ro, hoặc mô hình dự đoán để dự đoán các khoản chi bằng đô la của khách hàng tiềm năng trên thiết bị máy tính dựa trên thu nhập và nghề nghiệp của họ.
Phân loại là gì?
Sau đây là các ví dụ về các trường hợp mà nhiệm vụ phân tích dữ liệu là Phân loại -
Một nhân viên cho vay ngân hàng muốn phân tích dữ liệu để biết khách hàng (người xin vay) có rủi ro hay an toàn.
Giám đốc tiếp thị tại một công ty cần phân tích một khách hàng với một hồ sơ nhất định, những người sẽ mua một máy tính mới.
Trong cả hai ví dụ trên, một mô hình hoặc bộ phân loại được xây dựng để dự đoán các nhãn phân loại. Các nhãn này có rủi ro hoặc an toàn đối với dữ liệu đơn xin vay và có hoặc không đối với dữ liệu tiếp thị.
Dự đoán là gì?
Sau đây là các ví dụ về các trường hợp mà nhiệm vụ phân tích dữ liệu là Dự đoán -
Giả sử người quản lý tiếp thị cần dự đoán một khách hàng nhất định sẽ chi bao nhiêu trong một đợt bán hàng tại công ty của anh ta. Trong ví dụ này, chúng tôi rất bận tâm khi dự đoán một giá trị số. Do đó, nhiệm vụ phân tích dữ liệu là một ví dụ về dự đoán số. Trong trường hợp này, một mô hình hoặc một công cụ dự đoán sẽ được xây dựng để dự đoán một giá trị hàm được đánh giá liên tục hoặc có thứ tự.
Note - Phân tích hồi quy là một phương pháp thống kê thường được sử dụng nhất để dự đoán số.
Phân loại hoạt động như thế nào?
Với cách làm hồ sơ vay vốn ngân hàng mà chúng tôi đã trình bày ở trên, chúng ta hãy cùng hiểu rõ công việc của việc phân loại. Quy trình Phân loại Dữ liệu bao gồm hai bước:
- Xây dựng Bộ phân loại hoặc Mô hình
- Sử dụng phân loại để phân loại
Xây dựng Bộ phân loại hoặc Mô hình
Bước này là bước học hay giai đoạn học.
Trong bước này, các thuật toán phân loại xây dựng bộ phân loại.
Bộ phân loại được xây dựng từ tập huấn luyện bao gồm các bộ dữ liệu cơ sở dữ liệu và các nhãn lớp liên quan của chúng.
Mỗi bộ tạo thành tập huấn luyện được gọi là một loại hoặc lớp. Các bộ giá trị này cũng có thể được gọi là mẫu, đối tượng hoặc điểm dữ liệu.
Sử dụng phân loại để phân loại
Trong bước này, bộ phân loại được sử dụng để phân loại. Ở đây dữ liệu thử nghiệm được sử dụng để ước tính độ chính xác của các quy tắc phân loại. Các quy tắc phân loại có thể được áp dụng cho các bộ dữ liệu mới nếu độ chính xác được coi là chấp nhận được.
Các vấn đề về phân loại và dự đoán
Vấn đề chính là chuẩn bị dữ liệu cho Phân loại và Dự đoán. Chuẩn bị dữ liệu bao gồm các hoạt động sau:
Data Cleaning- Làm sạch dữ liệu liên quan đến việc loại bỏ nhiễu và xử lý các giá trị bị thiếu. Nhiễu được loại bỏ bằng cách áp dụng các kỹ thuật làm mịn và vấn đề thiếu giá trị được giải quyết bằng cách thay thế một giá trị bị thiếu bằng giá trị thường xảy ra nhất cho thuộc tính đó.
Relevance Analysis- Cơ sở dữ liệu cũng có thể có các thuộc tính không liên quan. Phân tích tương quan được sử dụng để biết liệu hai thuộc tính đã cho có liên quan với nhau hay không.
Data Transformation and reduction - Dữ liệu có thể được chuyển đổi bằng bất kỳ phương pháp nào sau đây.
Normalization- Dữ liệu được chuyển đổi bằng cách sử dụng chuẩn hóa. Chuẩn hóa liên quan đến việc chia tỷ lệ tất cả các giá trị cho thuộc tính đã cho để làm cho chúng nằm trong một phạm vi xác định nhỏ. Chuẩn hóa được sử dụng khi trong bước học tập, mạng nơ-ron hoặc các phương pháp liên quan đến phép đo được sử dụng.
Generalization- Dữ liệu cũng có thể được chuyển đổi bằng cách khái quát hóa nó lên khái niệm cao hơn. Với mục đích này, chúng ta có thể sử dụng các phân cấp khái niệm.
Note - Dữ liệu cũng có thể được giảm bớt bằng một số phương pháp khác như biến đổi wavelet, binning, phân tích biểu đồ và phân cụm.
So sánh các phương pháp phân loại và dự đoán
Đây là tiêu chí để so sánh các phương pháp Phân loại và Dự đoán -
Accuracy- Độ chính xác của trình phân loại đề cập đến khả năng của trình phân loại. Nó dự đoán nhãn lớp một cách chính xác và độ chính xác của dự đoán đề cập đến mức độ tốt nhất mà một dự đoán nhất định có thể đoán giá trị của thuộc tính được dự đoán cho một dữ liệu mới.
Speed - Điều này đề cập đến chi phí tính toán trong việc tạo và sử dụng bộ phân loại hoặc bộ dự đoán.
Robustness - Nó đề cập đến khả năng của bộ phân loại hoặc bộ dự đoán để đưa ra dự đoán chính xác từ dữ liệu nhiễu đã cho.
Scalability- Khả năng mở rộng đề cập đến khả năng xây dựng bộ phân loại hoặc bộ dự đoán một cách hiệu quả; đưa ra một lượng lớn dữ liệu.
Interpretability - Nó đề cập đến mức độ hiểu của bộ phân loại hoặc bộ dự đoán.