Khai thác dữ liệu - Chủ đề
Cơ sở lý thuyết của khai thác dữ liệu
Cơ sở lý thuyết của khai phá dữ liệu bao gồm các khái niệm sau:
Data Reduction- Ý tưởng cơ bản của lý thuyết này là giảm biểu diễn dữ liệu mà đánh đổi độ chính xác để lấy tốc độ để đáp ứng nhu cầu có được câu trả lời gần đúng nhanh chóng cho các truy vấn trên cơ sở dữ liệu rất lớn. Một số kỹ thuật giảm dữ liệu như sau:
Giá trị số ít Phân hủy
Wavelets
Regression
Mô hình tuyến tính log
Histograms
Clustering
Sampling
Xây dựng cây chỉ mục
Data Compression - Ý tưởng cơ bản của lý thuyết này là nén dữ liệu đã cho bằng cách mã hóa theo các điều kiện sau:
Bits
Quy tắc kết hợp
Cây quyết định
Clusters
Pattern Discovery- Ý tưởng cơ bản của lý thuyết này là khám phá các mẫu xảy ra trong cơ sở dữ liệu. Sau đây là các lĩnh vực đóng góp vào lý thuyết này -
Học máy
Mạng thần kinh
Khai thác Hiệp hội
Khớp mẫu tuần tự
Clustering
Probability Theory- Lý thuyết này dựa trên lý thuyết thống kê. Ý tưởng cơ bản đằng sau lý thuyết này là khám phá các phân phối xác suất chung của các biến ngẫu nhiên.
Probability Theory - Theo lý thuyết này, khai thác dữ liệu tìm ra các mẫu thú vị chỉ trong phạm vi mà chúng có thể được sử dụng trong quá trình ra quyết định của một số doanh nghiệp.
Microeconomic View- Theo lý thuyết này, một lược đồ cơ sở dữ liệu bao gồm dữ liệu và các mẫu được lưu trữ trong cơ sở dữ liệu. Do đó, khai thác dữ liệu là nhiệm vụ thực hiện cảm ứng trên cơ sở dữ liệu.
Inductive databases- Ngoài các kỹ thuật hướng cơ sở dữ liệu, còn có các kỹ thuật thống kê để phân tích dữ liệu. Những kỹ thuật này có thể được áp dụng cho dữ liệu khoa học và dữ liệu từ khoa học kinh tế và xã hội.
Khai thác dữ liệu thống kê
Một số Kỹ thuật Khai thác Dữ liệu Thống kê như sau:
Regression- Phương pháp hồi quy được sử dụng để dự đoán giá trị của biến phản hồi từ một hoặc nhiều biến dự báo trong đó các biến là số. Liệt kê dưới đây là các dạng hồi quy -
Linear
Multiple
Weighted
Polynomial
Nonparametric
Robust
Generalized Linear Models - Mô hình tuyến tính tổng quát bao gồm -
Hồi quy logistic
Hồi quy Poisson
Sự tổng quát hóa của mô hình cho phép một biến phản hồi phân loại có liên quan đến một tập hợp các biến dự báo theo cách tương tự như mô hình hóa biến phản hồi số sử dụng hồi quy tuyến tính.
Analysis of Variance - Kỹ thuật này phân tích -
Dữ liệu thử nghiệm cho hai hoặc nhiều quần thể được mô tả bằng biến phản hồi số.
Một hoặc nhiều biến phân loại (nhân tố).
Mixed-effect Models- Các mô hình này được sử dụng để phân tích dữ liệu được phân nhóm. Các mô hình này mô tả mối quan hệ giữa một biến phản hồi và một số biến số đồng biến trong dữ liệu được nhóm theo một hoặc nhiều yếu tố.
Factor Analysis- Phân tích nhân tố được sử dụng để dự đoán một biến phản ứng phân loại. Phương pháp này giả định rằng các biến độc lập tuân theo phân phối chuẩn đa biến.
Time Series Analysis - Sau đây là các phương pháp phân tích dữ liệu chuỗi thời gian -
Phương pháp tự động hồi quy.
Lập mô hình ARIMA (Đường trung bình động tích hợp tự động hồi quy) đơn biến.
Mô hình chuỗi thời gian bộ nhớ dài.
Khai thác dữ liệu trực quan
Khai thác dữ liệu trực quan sử dụng kỹ thuật trực quan hóa dữ liệu và / hoặc kiến thức để khám phá kiến thức tiềm ẩn từ các tập dữ liệu lớn. Khai thác dữ liệu trực quan có thể được xem là sự tích hợp của các nguyên tắc sau:
Trực quan hóa dữ liệu
Khai thác dữ liệu
Khai thác dữ liệu trực quan có liên quan chặt chẽ đến những điều sau:
Đô họa may tinh
Hệ thống đa phương tiện
Tương tác máy tính của con người
Nhận dạng mẫu
Máy tính hiệu suất cao
Nói chung, trực quan hóa dữ liệu và khai thác dữ liệu có thể được tích hợp theo những cách sau:
Data Visualization - Dữ liệu trong cơ sở dữ liệu hoặc kho dữ liệu có thể được xem dưới nhiều dạng trực quan được liệt kê bên dưới -
Boxplots
Hình khối 3-D
Biểu đồ phân phối dữ liệu
Curves
Surfaces
Đồ thị liên kết v.v.
Data Mining Result Visualization- Trực quan hóa kết quả khai thác dữ liệu là việc trình bày kết quả khai thác dữ liệu dưới dạng trực quan. Các hình thức trực quan này có thể là các ô phân tán, ô hộp, v.v.
Data Mining Process Visualization- Trực quan hóa quy trình khai thác dữ liệu trình bày một số quy trình khai thác dữ liệu. Nó cho phép người dùng xem cách dữ liệu được trích xuất. Nó cũng cho phép người dùng xem từ cơ sở dữ liệu hoặc kho dữ liệu nào mà dữ liệu được làm sạch, tích hợp, xử lý trước và khai thác.
Khai thác dữ liệu âm thanh
Khai thác dữ liệu âm thanh sử dụng tín hiệu âm thanh để chỉ ra các mẫu dữ liệu hoặc các tính năng của kết quả khai thác dữ liệu. Bằng cách chuyển đổi các mẫu thành âm thanh và trầm ngâm, chúng ta có thể lắng nghe cao độ và giai điệu, thay vì xem hình ảnh, để xác định bất kỳ điều gì thú vị.
Khai thác dữ liệu và lọc cộng tác
Người tiêu dùng ngày nay bắt gặp nhiều loại hàng hóa và dịch vụ trong khi mua sắm. Trong quá trình giao dịch trực tiếp với khách hàng, Hệ thống giới thiệu giúp người tiêu dùng bằng cách đưa ra các đề xuất về sản phẩm. Phương pháp tiếp cận lọc cộng tác thường được sử dụng để giới thiệu sản phẩm cho khách hàng. Những khuyến nghị này dựa trên ý kiến của các khách hàng khác.