Khai thác dữ liệu - Hướng dẫn nhanh
Có một lượng lớn dữ liệu có sẵn trong Ngành Thông tin. Dữ liệu này không có giá trị sử dụng cho đến khi nó được chuyển đổi thành thông tin hữu ích. Cần phải phân tích lượng dữ liệu khổng lồ này và trích xuất thông tin hữu ích từ nó.
Trích xuất thông tin không phải là quá trình duy nhất chúng ta cần thực hiện; khai thác dữ liệu cũng liên quan đến các quy trình khác như Làm sạch dữ liệu, Tích hợp dữ liệu, Chuyển đổi dữ liệu, Khai thác dữ liệu, Đánh giá mẫu và Trình bày dữ liệu. Khi tất cả các quy trình này kết thúc, chúng tôi có thể sử dụng thông tin này trong nhiều ứng dụng như Phát hiện gian lận, Phân tích thị trường, Kiểm soát sản xuất, Khám phá Khoa học, v.v.
Khai thác dữ liệu là gì?
Khai thác dữ liệu được định nghĩa là trích xuất thông tin từ các bộ dữ liệu khổng lồ. Nói cách khác, chúng ta có thể nói rằng khai phá dữ liệu là quy trình khai thác kiến thức từ dữ liệu. Thông tin hoặc kiến thức được trích xuất có thể được sử dụng cho bất kỳ ứng dụng nào sau đây:
- Phân tích thị trường
- Phát hiện gian lận
- Duy trì khách hàng
- Kiểm soát sản xuất
- Khám phá Khoa học
Ứng dụng khai thác dữ liệu
Khai thác dữ liệu rất hữu ích trong các lĩnh vực sau:
- Phân tích và quản lý thị trường
- Phân tích Doanh nghiệp & Quản lý Rủi ro
- Phát hiện gian lận
Ngoài ra, khai thác dữ liệu cũng có thể được sử dụng trong các lĩnh vực kiểm soát sản xuất, giữ chân khách hàng, khám phá khoa học, thể thao, chiêm tinh học và Hỗ trợ lướt web trên Internet
Phân tích và quản lý thị trường
Dưới đây liệt kê các lĩnh vực thị trường khác nhau nơi khai thác dữ liệu được sử dụng -
Customer Profiling - Khai thác dữ liệu giúp xác định loại người mua loại sản phẩm nào.
Identifying Customer Requirements- Khai thác dữ liệu giúp xác định các sản phẩm tốt nhất cho các khách hàng khác nhau. Nó sử dụng dự đoán để tìm các yếu tố có thể thu hút khách hàng mới.
Cross Market Analysis - Khai thác dữ liệu thực hiện Hiệp hội / mối tương quan giữa việc bán sản phẩm.
Target Marketing - Khai thác dữ liệu giúp tìm ra các nhóm khách hàng kiểu mẫu có cùng đặc điểm như sở thích, thói quen chi tiêu, thu nhập, v.v.
Determining Customer purchasing pattern - Khai thác dữ liệu giúp xác định hình thức mua hàng của khách hàng.
Providing Summary Information - Khai thác dữ liệu cung cấp cho chúng ta nhiều báo cáo tóm tắt đa chiều.
Phân tích doanh nghiệp và quản lý rủi ro
Khai thác dữ liệu được sử dụng trong các lĩnh vực sau của Khu vực doanh nghiệp -
Finance Planning and Asset Evaluation - Nó liên quan đến phân tích và dự đoán dòng tiền, phân tích yêu cầu bồi thường để đánh giá tài sản.
Resource Planning - Nó liên quan đến việc tóm tắt và so sánh các nguồn lực và chi tiêu.
Competition - Nó liên quan đến việc giám sát đối thủ cạnh tranh và hướng đi của thị trường.
Phát hiện gian lận
Khai thác dữ liệu cũng được sử dụng trong các lĩnh vực dịch vụ thẻ tín dụng và viễn thông để phát hiện các gian lận. Trong các cuộc gọi lừa đảo, nó giúp tìm ra điểm đến của cuộc gọi, thời lượng cuộc gọi, thời gian trong ngày hoặc trong tuần, v.v. Nó cũng phân tích các mô hình sai lệch so với các chỉ tiêu mong đợi.
Khai thác dữ liệu đề cập đến các loại mẫu có thể được khai thác. Trên cơ sở loại dữ liệu được khai thác, có hai loại chức năng liên quan đến Khai thác dữ liệu -
- Descriptive
- Phân loại và dự đoán
Chức năng mô tả
Hàm mô tả xử lý các thuộc tính chung của dữ liệu trong cơ sở dữ liệu. Đây là danh sách các hàm mô tả -
- Mô tả Lớp / Khái niệm
- Khai thác các mô hình thường xuyên
- Khai thác các hiệp hội
- Khai thác các mối tương quan
- Khai thác các cụm
Mô tả Lớp / Khái niệm
Lớp / Khái niệm đề cập đến dữ liệu được liên kết với các lớp hoặc khái niệm. Ví dụ, trong một công ty, các loại mặt hàng để bán bao gồm máy tính và máy in, và khái niệm khách hàng bao gồm những người chi tiêu lớn và những người chi tiêu ngân sách. Những mô tả như vậy về một lớp hoặc một khái niệm được gọi là mô tả lớp / khái niệm. Các mô tả này có thể được lấy theo hai cách sau:
Data Characterization- Điều này đề cập đến tổng hợp dữ liệu của lớp đang học. Lớp đang nghiên cứu này được gọi là Lớp Mục tiêu.
Data Discrimination - Nó đề cập đến việc ánh xạ hoặc phân loại một lớp với một số nhóm hoặc lớp được xác định trước.
Khai thác các mô hình thường xuyên
Các mẫu thường xuyên là những mẫu xảy ra thường xuyên trong dữ liệu giao dịch. Đây là danh sách các kiểu thường gặp -
Frequent Item Set - Nó đề cập đến một tập hợp các mặt hàng thường xuyên xuất hiện cùng nhau, ví dụ: sữa và bánh mì.
Frequent Subsequence - Tiếp theo là một chuỗi các mô hình thường xuyên xảy ra chẳng hạn như mua máy ảnh là thẻ nhớ.
Frequent Sub Structure - Cấu trúc con đề cập đến các dạng cấu trúc khác nhau, chẳng hạn như đồ thị, cây hoặc mạng, có thể được kết hợp với các tập hợp mục hoặc chuỗi con.
Khai thác của Hiệp hội
Các liên kết được sử dụng trong bán hàng bán lẻ để xác định các mẫu thường được mua cùng nhau. Quá trình này đề cập đến quá trình khám phá mối quan hệ giữa các dữ liệu và xác định các quy tắc kết hợp.
Ví dụ: một nhà bán lẻ tạo ra một quy tắc liên kết cho thấy rằng 70% thời gian sữa được bán với bánh mì và chỉ 30% thời gian bán bánh quy với bánh mì.
Khai thác các mối tương quan
Đây là một loại phân tích bổ sung được thực hiện để khám phá các mối tương quan thống kê thú vị giữa các cặp giá trị-thuộc tính được kết hợp hoặc giữa hai tập hợp mục để phân tích xem chúng có ảnh hưởng tích cực, tiêu cực hay không với nhau hay không.
Khai thác các cụm
Cụm đề cập đến một nhóm các đối tượng giống nhau. Phân tích cụm đề cập đến việc hình thành nhóm các đối tượng rất giống nhau nhưng khác biệt nhiều so với các đối tượng trong các cụm khác.
Phân loại và dự đoán
Phân loại là quá trình tìm kiếm một mô hình mô tả các lớp hoặc khái niệm dữ liệu. Mục đích là có thể sử dụng mô hình này để dự đoán lớp của các đối tượng có nhãn lớp chưa biết. Mô hình dẫn xuất này dựa trên việc phân tích các bộ dữ liệu huấn luyện. Mô hình dẫn xuất có thể được trình bày dưới các dạng sau:
- Quy tắc phân loại (IF-THEN)
- Cây quyết định
- Công thức toán học
- Mạng thần kinh
Danh sách các chức năng liên quan đến các quá trình này như sau:
Classification- Nó dự đoán lớp của các đối tượng mà nhãn lớp chưa biết. Mục tiêu của nó là tìm ra một mô hình dẫn xuất mô tả và phân biệt các lớp hoặc khái niệm dữ liệu. Mô hình Derived dựa trên tập phân tích dữ liệu huấn luyện tức là đối tượng dữ liệu có nhãn lớp được biết rõ.
Prediction- Nó được sử dụng để dự đoán các giá trị dữ liệu số bị thiếu hoặc không có sẵn hơn là các nhãn lớp. Phân tích hồi quy thường được sử dụng để dự đoán. Dự đoán cũng có thể được sử dụng để xác định xu hướng phân phối dựa trên dữ liệu có sẵn.
Outlier Analysis - Các ngoại lệ có thể được định nghĩa là các đối tượng dữ liệu không tuân thủ các hành vi hoặc mô hình chung của dữ liệu có sẵn.
Evolution Analysis - Phân tích tiến hóa đề cập đến việc mô tả và mô hình hóa các quy luật hoặc xu hướng cho các đối tượng có hành vi thay đổi theo thời gian.
Nguyên thủy của nhiệm vụ khai thác dữ liệu
- Chúng ta có thể chỉ định một nhiệm vụ khai thác dữ liệu dưới dạng một truy vấn khai thác dữ liệu.
- Truy vấn này được nhập vào hệ thống.
- Một truy vấn khai thác dữ liệu được định nghĩa theo nguyên thủy của nhiệm vụ khai thác dữ liệu.
Note- Những nguyên thủy này cho phép chúng tôi giao tiếp theo cách tương tác với hệ thống khai thác dữ liệu. Đây là danh sách Nguyên thủy của Nhiệm vụ Khai thác Dữ liệu -
- Tập hợp dữ liệu liên quan đến nhiệm vụ sẽ được khai thác.
- Loại kiến thức được khai thác.
- Kiến thức nền tảng được sử dụng trong quá trình khám phá.
- Các thước đo mức độ thú vị và các ngưỡng để đánh giá mẫu.
- Biểu diễn để hình dung các mẫu được phát hiện.
Tập hợp dữ liệu liên quan đến nhiệm vụ được khai thác
Đây là phần cơ sở dữ liệu mà người dùng quan tâm. Phần này bao gồm những điều sau:
- Thuộc tính cơ sở dữ liệu
- Các thứ nguyên quan tâm của Kho dữ liệu
Loại kiến thức được khai thác
Nó đề cập đến loại chức năng được thực hiện. Các chức năng này là -
- Characterization
- Discrimination
- Phân tích liên kết và tương quan
- Classification
- Prediction
- Clustering
- Phân tích ngoại lệ
- Phân tích tiến hóa
Kiến thức nền tảng
Kiến thức nền tảng cho phép dữ liệu được khai thác ở nhiều cấp độ trừu tượng. Ví dụ, phân cấp Khái niệm là một trong những kiến thức nền tảng cho phép khai thác dữ liệu ở nhiều cấp độ trừu tượng.
Các thước đo mức độ thú vị và các ngưỡng để đánh giá mẫu
Điều này được sử dụng để đánh giá các mẫu được phát hiện bởi quá trình khám phá kiến thức. Có các biện pháp thú vị khác nhau cho các loại kiến thức khác nhau.
Biểu diễn để hình dung các mẫu đã khám phá
Điều này đề cập đến hình thức trong đó các mẫu đã phát hiện sẽ được hiển thị. Những đại diện này có thể bao gồm những điều sau đây. -
- Rules
- Tables
- Charts
- Graphs
- Cây quyết định
- Cubes
Khai thác dữ liệu không phải là một nhiệm vụ dễ dàng, vì các thuật toán được sử dụng có thể rất phức tạp và dữ liệu không phải lúc nào cũng có sẵn tại một nơi. Nó cần được tích hợp từ nhiều nguồn dữ liệu không đồng nhất khác nhau. Những yếu tố này cũng tạo ra một số vấn đề. Ở đây trong hướng dẫn này, chúng ta sẽ thảo luận về các vấn đề chính liên quan đến -
- Phương pháp khai thác và tương tác người dùng
- Vấn đề hiệu năng
- Các vấn đề về loại dữ liệu đa dạng
Sơ đồ sau đây mô tả các vấn đề chính.
Các vấn đề về phương pháp khai thác và tương tác người dùng
Nó đề cập đến các loại vấn đề sau:
Mining different kinds of knowledge in databases- Những người dùng khác nhau có thể quan tâm đến các loại kiến thức khác nhau. Do đó, việc khai thác dữ liệu là cần thiết để bao gồm một loạt các nhiệm vụ khám phá tri thức.
Interactive mining of knowledge at multiple levels of abstraction - Quá trình khai thác dữ liệu cần có tính tương tác vì nó cho phép người dùng tập trung tìm kiếm các mẫu, cung cấp và tinh chỉnh các yêu cầu khai thác dữ liệu dựa trên kết quả trả về.
Incorporation of background knowledge- Để hướng dẫn quá trình khám phá và thể hiện các mẫu đã khám phá, có thể sử dụng kiến thức nền tảng. Kiến thức nền tảng có thể được sử dụng để thể hiện các mẫu đã khám phá không chỉ bằng những thuật ngữ ngắn gọn mà còn ở nhiều cấp độ trừu tượng.
Data mining query languages and ad hoc data mining - Ngôn ngữ truy vấn khai thác dữ liệu cho phép người dùng mô tả các tác vụ khai thác đặc biệt, nên được tích hợp với ngôn ngữ truy vấn kho dữ liệu và được tối ưu hóa để khai thác dữ liệu hiệu quả và linh hoạt.
Presentation and visualization of data mining results- Một khi các mẫu được phát hiện, nó cần được thể hiện bằng các ngôn ngữ cấp cao và biểu diễn trực quan. Các đại diện này phải dễ hiểu.
Handling noisy or incomplete data- Các phương pháp làm sạch dữ liệu được yêu cầu để xử lý nhiễu và các đối tượng không đầy đủ trong khi khai thác các quy tắc dữ liệu. Nếu không có các phương pháp làm sạch dữ liệu thì độ chính xác của các mẫu được phát hiện sẽ kém.
Pattern evaluation - Các mẫu được phát hiện nên thú vị vì chúng thể hiện kiến thức phổ thông hoặc thiếu tính mới.
Vấn đề hiệu năng
Có thể có các vấn đề liên quan đến hiệu suất như sau:
Efficiency and scalability of data mining algorithms - Để trích xuất hiệu quả thông tin từ một lượng lớn dữ liệu trong cơ sở dữ liệu, thuật toán khai thác dữ liệu phải hiệu quả và có khả năng mở rộng.
Parallel, distributed, and incremental mining algorithms- Các yếu tố như kích thước khổng lồ của cơ sở dữ liệu, sự phân bố rộng rãi của dữ liệu và độ phức tạp của các phương pháp khai thác dữ liệu thúc đẩy sự phát triển của các thuật toán khai thác dữ liệu song song và phân tán. Các thuật toán này chia dữ liệu thành các phân vùng được tiếp tục xử lý theo kiểu song song. Sau đó, kết quả từ các phân vùng được hợp nhất. Các thuật toán gia tăng, cập nhật cơ sở dữ liệu mà không cần khai thác dữ liệu lại từ đầu.
Các vấn đề về loại dữ liệu đa dạng
Handling of relational and complex types of data - Cơ sở dữ liệu có thể chứa các đối tượng dữ liệu phức tạp, đối tượng dữ liệu đa phương tiện, dữ liệu không gian, dữ liệu thời gian, v.v. Không thể cho một hệ thống khai thác tất cả các loại dữ liệu này.
Mining information from heterogeneous databases and global information systems- Dữ liệu có sẵn ở các nguồn dữ liệu khác nhau trên mạng LAN hoặc WAN. Nguồn dữ liệu này có thể có cấu trúc, bán cấu trúc hoặc không có cấu trúc. Do đó, việc khai thác kiến thức từ chúng tạo thêm thách thức cho việc khai thác dữ liệu.
Kho dữ liệu
Kho dữ liệu thể hiện các đặc điểm sau để hỗ trợ quá trình ra quyết định của ban quản lý:
Subject Oriented- Kho dữ liệu được định hướng theo chủ đề vì nó cung cấp cho chúng ta thông tin xung quanh một chủ thể hơn là các hoạt động liên tục của tổ chức. Các đối tượng này có thể là sản phẩm, khách hàng, nhà cung cấp, bán hàng, doanh thu, v.v. Kho dữ liệu không tập trung vào các hoạt động đang diễn ra mà nó tập trung vào mô hình hóa và phân tích dữ liệu để ra quyết định.
Integrated - Kho dữ liệu được xây dựng bằng cách tích hợp dữ liệu từ các nguồn không đồng nhất như cơ sở dữ liệu quan hệ, tệp phẳng, v.v ... Sự tích hợp này nâng cao hiệu quả phân tích dữ liệu.
Time Variant- Dữ liệu được thu thập trong kho dữ liệu được xác định với một khoảng thời gian cụ thể. Dữ liệu trong kho dữ liệu cung cấp thông tin theo quan điểm lịch sử.
Non-volatile- Không biến đổi có nghĩa là dữ liệu trước đó không bị xóa khi dữ liệu mới được thêm vào nó. Kho dữ liệu được tách biệt với cơ sở dữ liệu hoạt động do đó những thay đổi thường xuyên trong cơ sở dữ liệu hoạt động không được phản ánh trong kho dữ liệu.
Kho dữ liệu
Kho dữ liệu là quá trình xây dựng và sử dụng kho dữ liệu. Kho dữ liệu được xây dựng bằng cách tích hợp dữ liệu từ nhiều nguồn không đồng nhất. Nó hỗ trợ báo cáo phân tích, truy vấn có cấu trúc và / hoặc đột xuất và ra quyết định.
Kho dữ liệu liên quan đến việc làm sạch dữ liệu, tích hợp dữ liệu và hợp nhất dữ liệu. Để tích hợp cơ sở dữ liệu không đồng nhất, chúng tôi có hai cách tiếp cận sau:
- Phương pháp tiếp cận theo hướng truy vấn
- Cập nhật phương pháp tiếp cận theo hướng
Phương pháp tiếp cận theo hướng truy vấn
Đây là cách tiếp cận truyền thống để tích hợp cơ sở dữ liệu không đồng nhất. Cách tiếp cận này được sử dụng để xây dựng trình bao bọc và tích hợp trên nhiều cơ sở dữ liệu không đồng nhất. Các bộ tích hợp này còn được gọi là bộ hòa giải.
Quy trình tiếp cận theo hướng truy vấn
Khi một truy vấn được đưa ra cho phía máy khách, một từ điển siêu dữ liệu sẽ dịch truy vấn đó thành các truy vấn, phù hợp với từng trang web không đồng nhất có liên quan.
Bây giờ các truy vấn này được ánh xạ và gửi đến bộ xử lý truy vấn cục bộ.
Kết quả từ các trang web không đồng nhất được tích hợp vào một bộ câu trả lời toàn cầu.
Nhược điểm
Cách tiếp cận này có những nhược điểm sau:
Phương pháp tiếp cận theo hướng truy vấn cần các quy trình tích hợp và lọc phức tạp.
Nó rất kém hiệu quả và rất tốn kém cho các truy vấn thường xuyên.
Cách tiếp cận này tốn kém cho các truy vấn yêu cầu tổng hợp.
Phương pháp tiếp cận theo hướng cập nhật
Các hệ thống kho dữ liệu ngày nay tuân theo cách tiếp cận theo hướng cập nhật hơn là cách tiếp cận truyền thống đã được thảo luận trước đó. Trong cách tiếp cận theo hướng cập nhật, thông tin từ nhiều nguồn không đồng nhất được tích hợp trước và lưu trữ trong kho. Thông tin này có sẵn để truy vấn và phân tích trực tiếp.
Ưu điểm
Cách tiếp cận này có những ưu điểm sau:
Cách làm này mang lại hiệu suất cao.
Dữ liệu có thể được sao chép, xử lý, tích hợp, chú thích, tóm tắt và cấu trúc trước trong kho dữ liệu ngữ nghĩa.
Xử lý truy vấn không yêu cầu giao diện với xử lý tại các nguồn cục bộ.
Từ Kho dữ liệu (OLAP) đến Khai thác dữ liệu (OLAM)
Khai thác phân tích trực tuyến tích hợp với Xử lý phân tích trực tuyến với kiến thức khai thác và khai thác dữ liệu trong cơ sở dữ liệu đa chiều. Đây là sơ đồ cho thấy sự tích hợp của cả OLAP và OLAM -
Tầm quan trọng của OLAM
OLAM quan trọng vì những lý do sau:
High quality of data in data warehouses- Các công cụ khai thác dữ liệu được yêu cầu để hoạt động trên dữ liệu tích hợp, nhất quán và được làm sạch. Các bước này rất tốn kém trong việc xử lý trước dữ liệu. Các kho dữ liệu được xây dựng bằng tiền xử lý như vậy là nguồn dữ liệu chất lượng cao có giá trị cho OLAP và cả khai thác dữ liệu.
Available information processing infrastructure surrounding data warehouses - Cơ sở hạ tầng xử lý thông tin đề cập đến việc truy cập, tích hợp, hợp nhất và chuyển đổi nhiều cơ sở dữ liệu không đồng nhất, các cơ sở dịch vụ và truy cập web, các công cụ báo cáo và phân tích OLAP.
OLAP−based exploratory data analysis- Phân tích dữ liệu thăm dò là cần thiết để khai thác dữ liệu hiệu quả. OLAM cung cấp cơ sở để khai thác dữ liệu trên các tập con dữ liệu khác nhau và ở các mức độ trừu tượng khác nhau.
Online selection of data mining functions - Tích hợp OLAP với nhiều chức năng khai thác dữ liệu và khai thác phân tích trực tuyến cung cấp cho người dùng sự linh hoạt để lựa chọn các chức năng khai thác dữ liệu mong muốn và hoán đổi các tác vụ khai thác dữ liệu một cách linh hoạt.
Khai thác dữ liệu
Khai phá dữ liệu được định nghĩa là trích xuất thông tin từ một tập hợp dữ liệu khổng lồ. Nói cách khác, chúng ta có thể nói rằng khai thác dữ liệu là khai thác kiến thức từ dữ liệu. Thông tin này có thể được sử dụng cho bất kỳ ứng dụng nào sau đây:
- Phân tích thị trường
- Phát hiện gian lận
- Duy trì khách hàng
- Kiểm soát sản xuất
- Khám phá Khoa học
Công cụ khai thác dữ liệu
Công cụ khai thác dữ liệu rất cần thiết đối với hệ thống khai thác dữ liệu. Nó bao gồm một tập hợp các mô-đun chức năng thực hiện các chức năng sau:
- Characterization
- Phân tích liên kết và tương quan
- Classification
- Prediction
- Phân tích cluster
- Phân tích ngoại lệ
- Phân tích tiến hóa
Kiến thức cơ bản
Đây là kiến thức miền. Kiến thức này được sử dụng để hướng dẫn tìm kiếm hoặc đánh giá mức độ thú vị của các mẫu kết quả.
Khám phá tri thức
Một số người coi khai thác dữ liệu giống như khám phá tri thức, trong khi những người khác coi khai thác dữ liệu là một bước thiết yếu trong quá trình khám phá tri thức. Đây là danh sách các bước liên quan đến quá trình khám phá kiến thức -
- Làm sạch dữ liệu
- Tích hợp dữ liệu
- Lựa chọn dữ liệu
- Chuyển đổi dữ liệu
- Khai thác dữ liệu
- Đánh giá mẫu
- Trình bày kiến thức
Giao diện người dùng
Giao diện người dùng là mô-đun của hệ thống khai thác dữ liệu giúp giao tiếp giữa người dùng và hệ thống khai thác dữ liệu. Giao diện người dùng cho phép các chức năng sau:
- Tương tác với hệ thống bằng cách chỉ định nhiệm vụ truy vấn khai thác dữ liệu.
- Cung cấp thông tin để giúp tập trung tìm kiếm.
- Khai thác dựa trên kết quả khai thác dữ liệu trung gian.
- Duyệt qua cơ sở dữ liệu và các lược đồ kho dữ liệu hoặc cấu trúc dữ liệu.
- Đánh giá các mẫu đã khai thác.
- Hình dung các mẫu ở các dạng khác nhau.
Tích hợp dữ liệu
Tích hợp dữ liệu là một kỹ thuật tiền xử lý dữ liệu hợp nhất dữ liệu từ nhiều nguồn dữ liệu không đồng nhất thành một kho dữ liệu nhất quán. Tích hợp dữ liệu có thể liên quan đến dữ liệu không nhất quán và do đó cần làm sạch dữ liệu.
Làm sạch dữ liệu
Làm sạch dữ liệu là một kỹ thuật được áp dụng để loại bỏ dữ liệu bị nhiễu và sửa các điểm không nhất quán trong dữ liệu. Làm sạch dữ liệu bao gồm các phép biến đổi để sửa dữ liệu sai. Làm sạch dữ liệu được thực hiện như một bước tiền xử lý dữ liệu trong khi chuẩn bị dữ liệu cho một kho dữ liệu.
Lựa chọn dữ liệu
Lựa chọn dữ liệu là quá trình mà dữ liệu liên quan đến nhiệm vụ phân tích được truy xuất từ cơ sở dữ liệu. Đôi khi việc chuyển đổi và hợp nhất dữ liệu được thực hiện trước quá trình lựa chọn dữ liệu.
Cụm
Cụm đề cập đến một nhóm các đối tượng giống nhau. Phân tích cụm đề cập đến việc hình thành nhóm các đối tượng rất giống nhau nhưng khác biệt nhiều so với các đối tượng trong các cụm khác.
Chuyển đổi dữ liệu
Trong bước này, dữ liệu được chuyển đổi hoặc hợp nhất thành các dạng thích hợp để khai thác, bằng cách thực hiện các thao tác tóm tắt hoặc tổng hợp.
Khám phá tri thức là gì?
Một số người không phân biệt khai thác dữ liệu với khám phá tri thức trong khi những người khác xem khai thác dữ liệu là một bước thiết yếu trong quá trình khám phá tri thức. Đây là danh sách các bước liên quan đến quá trình khám phá kiến thức -
Data Cleaning - Trong bước này, dữ liệu nhiễu và không nhất quán được loại bỏ.
Data Integration - Trong bước này, nhiều nguồn dữ liệu được kết hợp.
Data Selection - Trong bước này, dữ liệu liên quan đến nhiệm vụ phân tích được truy xuất từ cơ sở dữ liệu.
Data Transformation - Trong bước này, dữ liệu được chuyển đổi hoặc hợp nhất thành các dạng thích hợp để khai thác bằng cách thực hiện các phép toán tổng hợp hoặc tổng hợp.
Data Mining - Trong bước này, các phương pháp thông minh được áp dụng để trích xuất các mẫu dữ liệu.
Pattern Evaluation - Trong bước này, các mẫu dữ liệu được đánh giá.
Knowledge Presentation - Ở bước này, kiến thức được biểu diễn.
Sơ đồ sau đây cho thấy quá trình khám phá kiến thức -
Có rất nhiều hệ thống khai thác dữ liệu có sẵn. Các hệ thống khai thác dữ liệu có thể tích hợp các kỹ thuật sau:
- Phân tích dữ liệu không gian
- Truy xuất thông tin
- Nhận dạng mẫu
- Phân tích hình ảnh
- Xử lý tín hiệu
- Đô họa may tinh
- Công nghệ web
- Business
- Bioinformatics
Phân loại hệ thống khai thác dữ liệu
Hệ thống khai thác dữ liệu có thể được phân loại theo các tiêu chí sau:
- Công nghệ cơ sở dữ liệu
- Statistics
- Học máy
- Khoa học thông tin
- Visualization
- Các kỷ luật khác
Ngoài ra, một hệ thống khai thác dữ liệu cũng có thể được phân loại dựa trên loại (a) cơ sở dữ liệu được khai thác, (b) kiến thức được khai thác, (c) kỹ thuật được sử dụng và (d) ứng dụng được điều chỉnh.
Phân loại dựa trên cơ sở dữ liệu được khai thác
Chúng ta có thể phân loại hệ thống khai thác dữ liệu theo loại cơ sở dữ liệu được khai thác. Hệ thống cơ sở dữ liệu có thể được phân loại theo các tiêu chí khác nhau như mô hình dữ liệu, kiểu dữ liệu, ... Và hệ thống khai thác dữ liệu cũng có thể được phân loại tương ứng.
Ví dụ: nếu chúng ta phân loại cơ sở dữ liệu theo mô hình dữ liệu, thì chúng ta có thể có một hệ thống khai thác quan hệ, giao dịch, quan hệ đối tượng hoặc kho dữ liệu.
Phân loại dựa trên loại kiến thức được khai thác
Chúng ta có thể phân loại hệ thống khai thác dữ liệu theo loại kiến thức được khai thác. Nó có nghĩa là hệ thống khai thác dữ liệu được phân loại dựa trên các chức năng như -
- Characterization
- Discrimination
- Phân tích liên kết và tương quan
- Classification
- Prediction
- Phân tích ngoại lệ
- Phân tích tiến hóa
Phân loại dựa trên các kỹ thuật được sử dụng
Chúng ta có thể phân loại một hệ thống khai thác dữ liệu theo loại kỹ thuật được sử dụng. Chúng tôi có thể mô tả các kỹ thuật này theo mức độ tương tác của người dùng liên quan hoặc các phương pháp phân tích được sử dụng.
Phân loại dựa trên các ứng dụng được điều chỉnh
Chúng tôi có thể phân loại một hệ thống khai thác dữ liệu theo các ứng dụng được điều chỉnh. Các ứng dụng này như sau:
- Finance
- Telecommunications
- DNA
- Thị trường chứng khoán
Tích hợp Hệ thống khai thác dữ liệu với Hệ thống DB / DW
Nếu một hệ thống khai thác dữ liệu không được tích hợp với cơ sở dữ liệu hoặc hệ thống kho dữ liệu, thì sẽ không có hệ thống nào để giao tiếp. Lược đồ này được gọi là lược đồ không ghép nối. Trong sơ đồ này, trọng tâm chính là thiết kế khai thác dữ liệu và phát triển các thuật toán hiệu quả và hiệu quả để khai thác các tập dữ liệu có sẵn.
Danh sách các Lược đồ tích hợp như sau:
No Coupling- Trong sơ đồ này, hệ thống khai thác dữ liệu không sử dụng bất kỳ chức năng nào của cơ sở dữ liệu hoặc kho dữ liệu. Nó tìm nạp dữ liệu từ một nguồn cụ thể và xử lý dữ liệu đó bằng cách sử dụng một số thuật toán khai thác dữ liệu. Kết quả khai thác dữ liệu được lưu trữ trong một tệp khác.
Loose Coupling- Trong sơ đồ này, hệ thống khai thác dữ liệu có thể sử dụng một số chức năng của cơ sở dữ liệu và hệ thống kho dữ liệu. Nó lấy dữ liệu từ hệ thống hô hấp dữ liệu do các hệ thống này quản lý và thực hiện khai thác dữ liệu trên dữ liệu đó. Sau đó, nó lưu trữ kết quả khai thác trong một tệp hoặc ở một nơi được chỉ định trong cơ sở dữ liệu hoặc trong kho dữ liệu.
Semi−tight Coupling - Trong sơ đồ này, hệ thống khai thác dữ liệu được liên kết với cơ sở dữ liệu hoặc hệ thống kho dữ liệu và thêm vào đó, việc triển khai hiệu quả một số nguyên thủy khai thác dữ liệu có thể được cung cấp trong cơ sở dữ liệu.
Tight coupling- Trong sơ đồ ghép nối này, hệ thống khai thác dữ liệu được tích hợp nhuần nhuyễn vào cơ sở dữ liệu hoặc hệ thống kho dữ liệu. Hệ thống con khai thác dữ liệu được coi như một thành phần chức năng của hệ thống thông tin.
Ngôn ngữ truy vấn khai thác dữ liệu (DMQL) được đề xuất bởi Han, Fu, Wang, et al. cho hệ thống khai thác dữ liệu DBMiner. Ngôn ngữ truy vấn khai thác dữ liệu thực sự dựa trên Ngôn ngữ truy vấn có cấu trúc (SQL). Ngôn ngữ truy vấn khai thác dữ liệu có thể được thiết kế để hỗ trợ khai thác dữ liệu đặc biệt và tương tác. DMQL này cung cấp các lệnh để chỉ định các nguyên thủy. DMQL cũng có thể hoạt động với cơ sở dữ liệu và kho dữ liệu. DMQL có thể được sử dụng để xác định các nhiệm vụ khai thác dữ liệu. Đặc biệt, chúng tôi kiểm tra cách xác định kho dữ liệu và kho dữ liệu trong DMQL.
Cú pháp cho đặc tả dữ liệu liên quan đến nhiệm vụ
Đây là cú pháp của DMQL để chỉ định dữ liệu liên quan đến nhiệm vụ -
use database database_name
or
use data warehouse data_warehouse_name
in relevance to att_or_dim_list
from relation(s)/cube(s) [where condition]
order by order_list
group by grouping_list
Cú pháp để xác định loại kiến thức
Ở đây chúng ta sẽ thảo luận về cú pháp cho Đặc tính, Phân biệt, Liên kết, Phân loại và Dự đoán.
Đặc tính
Cú pháp để mô tả đặc điểm là -
mine characteristics [as pattern_name]
analyze {measure(s) }
Mệnh đề phân tích, chỉ định các số đo tổng hợp, chẳng hạn như đếm, tổng hoặc đếm%.
Ví dụ -
Description describing customer purchasing habits.
mine characteristics as customerPurchasing
analyze count%
Phân biệt đối xử
Cú pháp cho Phân biệt đối xử là -
mine comparison [as {pattern_name]}
For {target_class } where {t arget_condition }
{versus {contrast_class_i }
where {contrast_condition_i}}
analyze {measure(s) }
Ví dụ: người dùng có thể xác định những người chi tiêu lớn là những khách hàng mua các mặt hàng có giá $100 or more on an average; and budget spenders as customers who purchase items at less than $Trung bình là 100. Việc khai thác các mô tả phân biệt đối với khách hàng từ mỗi danh mục này có thể được chỉ định trong DMQL như:
mine comparison as purchaseGroups
for bigSpenders where avg(I.price) ≥$100 versus budgetSpenders where avg(I.price)< $100
analyze count
Hiệp hội
Cú pháp cho Hiệp hội là−
mine associations [ as {pattern_name} ]
{matching {metapattern} }
Ví dụ -
mine associations as buyingHabits
matching P(X:customer,W) ^ Q(X,Y) ≥ buys(X,Z)
trong đó X là khóa quan hệ khách hàng; P và Q là các biến vị ngữ; và W, Y và Z là các biến đối tượng.
Phân loại
Cú pháp cho Phân loại là -
mine classification [as pattern_name]
analyze classifying_attribute_or_dimension
Ví dụ: để khai thác các mẫu, phân loại xếp hạng tín dụng của khách hàng trong đó các lớp được xác định bởi thuộc tính credit_rating và phân loại của tôi được xác định là phân loại theo đánh giá.
analyze credit_rating
Sự dự đoán
Cú pháp để dự đoán là -
mine prediction [as pattern_name]
analyze prediction_attribute_or_dimension
{set {attribute_or_dimension_i= value_i}}
Cú pháp cho đặc điểm kỹ thuật phân cấp khái niệm
Để chỉ định phân cấp khái niệm, hãy sử dụng cú pháp sau:
use hierarchy <hierarchy> for <attribute_or_dimension>
Chúng tôi sử dụng các cú pháp khác nhau để xác định các loại phân cấp khác nhau như−
-schema hierarchies
define hierarchy time_hierarchy on date as [date,month quarter,year]
-
set-grouping hierarchies
define hierarchy age_hierarchy for age on customer as
level1: {young, middle_aged, senior} < level0: all
level2: {20, ..., 39} < level1: young
level3: {40, ..., 59} < level1: middle_aged
level4: {60, ..., 89} < level1: senior
-operation-derived hierarchies
define hierarchy age_hierarchy for age on customer as
{age_category(1), ..., age_category(5)}
:= cluster(default, age, 5) < all(age)
-rule-based hierarchies
define hierarchy profit_margin_hierarchy on item as
level_1: low_profit_margin < level_0: all
if (price - cost)< $50 level_1: medium-profit_margin < level_0: all if ((price - cost) > $50) and ((price - cost) ≤ $250))
level_1: high_profit_margin < level_0: all
Cú pháp cho Đặc điểm kỹ thuật đo lường mức độ thú vị
Người dùng có thể chỉ định các ngưỡng và mức độ thú vị bằng câu lệnh:
with <interest_measure_name> threshold = threshold_value
Ví dụ -
with support threshold = 0.05
with confidence threshold = 0.7
Cú pháp để trình bày mẫu và đặc tả trực quan
Chúng tôi có một cú pháp, cho phép người dùng chỉ định hiển thị các mẫu được phát hiện trong một hoặc nhiều biểu mẫu.
display as <result_form>
Ví dụ -
display as table
Đặc điểm kỹ thuật đầy đủ của DMQL
Là giám đốc thị trường của một công ty, bạn muốn mô tả đặc điểm thói quen mua hàng của những khách hàng có thể mua các mặt hàng có giá không dưới 100 đô la; đối với độ tuổi của khách hàng, loại mặt hàng đã mua và nơi mua mặt hàng đó. Bạn muốn biết tỷ lệ khách hàng có đặc điểm đó. Đặc biệt, bạn chỉ quan tâm đến các giao dịch mua hàng được thực hiện tại Canada và được thanh toán bằng thẻ tín dụng American Express. Bạn muốn xem các mô tả kết quả dưới dạng một bảng.
use database AllElectronics_db
use hierarchy location_hierarchy for B.address
mine characteristics as customerPurchasing
analyze count%
in relevance to C.age,I.type,I.place_made
from customer C, item I, purchase P, items_sold S, branch B
where I.item_ID = S.item_ID and P.cust_ID = C.cust_ID and
P.method_paid = "AmEx" and B.address = "Canada" and I.price ≥ 100
with noise threshold = 5%
display as table
Tiêu chuẩn hóa ngôn ngữ khai thác dữ liệu
Việc chuẩn hóa các ngôn ngữ khai thác dữ liệu sẽ phục vụ các mục đích sau:
Giúp phát triển có hệ thống các giải pháp khai thác dữ liệu.
Cải thiện khả năng tương tác giữa nhiều hệ thống và chức năng khai thác dữ liệu.
Thúc đẩy giáo dục và học tập nhanh chóng.
Thúc đẩy việc sử dụng các hệ thống khai thác dữ liệu trong công nghiệp và xã hội.
Có hai hình thức phân tích dữ liệu có thể được sử dụng để trích xuất các mô hình mô tả các lớp quan trọng hoặc để dự đoán xu hướng dữ liệu trong tương lai. Hai hình thức này như sau:
- Classification
- Prediction
Các mô hình phân loại dự đoán các nhãn phân loại; và các mô hình dự đoán dự đoán các hàm có giá trị liên tục. Ví dụ: chúng ta có thể xây dựng mô hình phân loại để phân loại các đơn xin vay ngân hàng là an toàn hay rủi ro, hoặc mô hình dự đoán để dự đoán các khoản chi bằng đô la của khách hàng tiềm năng trên thiết bị máy tính dựa trên thu nhập và nghề nghiệp của họ.
Phân loại là gì?
Sau đây là các ví dụ về các trường hợp mà nhiệm vụ phân tích dữ liệu là Phân loại -
Một nhân viên cho vay của ngân hàng muốn phân tích dữ liệu để biết khách hàng (người xin vay) có rủi ro hay an toàn.
Một giám đốc tiếp thị tại một công ty cần phân tích một khách hàng với một hồ sơ nhất định, những người sẽ mua một máy tính mới.
Trong cả hai ví dụ trên, một mô hình hoặc bộ phân loại được xây dựng để dự đoán các nhãn phân loại. Các nhãn này có rủi ro hoặc an toàn đối với dữ liệu đơn xin vay và có hoặc không đối với dữ liệu tiếp thị.
Dự đoán là gì?
Sau đây là các ví dụ về các trường hợp mà nhiệm vụ phân tích dữ liệu là Dự đoán -
Giả sử người quản lý tiếp thị cần dự đoán số tiền mà một khách hàng nhất định sẽ chi trong một đợt bán hàng tại công ty của anh ta. Trong ví dụ này, chúng tôi rất bận tâm khi dự đoán một giá trị số. Do đó, nhiệm vụ phân tích dữ liệu là một ví dụ về dự đoán số. Trong trường hợp này, một mô hình hoặc một công cụ dự báo sẽ được xây dựng để dự đoán một giá trị hàm được đánh giá liên tục hoặc có thứ tự.
Note - Phân tích hồi quy là một phương pháp thống kê thường được sử dụng nhất để dự đoán số.
Phân loại hoạt động như thế nào?
Với cách làm hồ sơ vay vốn ngân hàng mà chúng tôi đã trình bày ở trên, chúng ta hãy cùng hiểu rõ công việc của việc phân loại. Quy trình Phân loại Dữ liệu bao gồm hai bước:
- Xây dựng Bộ phân loại hoặc Mô hình
- Sử dụng phân loại để phân loại
Xây dựng Bộ phân loại hoặc Mô hình
Bước này là bước học hay giai đoạn học.
Trong bước này, các thuật toán phân loại xây dựng bộ phân loại.
Bộ phân loại được xây dựng từ tập huấn luyện bao gồm các bộ dữ liệu cơ sở dữ liệu và các nhãn lớp liên quan của chúng.
Mỗi bộ tạo thành tập huấn luyện được gọi là một loại hoặc lớp. Các bộ giá trị này cũng có thể được gọi là mẫu, đối tượng hoặc điểm dữ liệu.
Sử dụng phân loại để phân loại
Trong bước này, bộ phân loại được sử dụng để phân loại. Ở đây dữ liệu thử nghiệm được sử dụng để ước tính độ chính xác của các quy tắc phân loại. Các quy tắc phân loại có thể được áp dụng cho các bộ dữ liệu mới nếu độ chính xác được coi là chấp nhận được.
Các vấn đề về phân loại và dự đoán
Vấn đề chính là chuẩn bị dữ liệu cho Phân loại và Dự đoán. Chuẩn bị dữ liệu bao gồm các hoạt động sau:
Data Cleaning- Làm sạch dữ liệu liên quan đến việc loại bỏ nhiễu và xử lý các giá trị bị thiếu. Nhiễu được loại bỏ bằng cách áp dụng các kỹ thuật làm mịn và vấn đề thiếu giá trị được giải quyết bằng cách thay thế một giá trị bị thiếu bằng giá trị thường xảy ra nhất cho thuộc tính đó.
Relevance Analysis- Cơ sở dữ liệu cũng có thể có các thuộc tính không liên quan. Phân tích tương quan được sử dụng để biết liệu hai thuộc tính đã cho có liên quan với nhau hay không.
Data Transformation and reduction - Dữ liệu có thể được chuyển đổi bằng bất kỳ phương pháp nào sau đây.
Normalization- Dữ liệu được chuyển đổi bằng cách sử dụng chuẩn hóa. Chuẩn hóa liên quan đến việc chia tỷ lệ tất cả các giá trị cho thuộc tính đã cho để làm cho chúng nằm trong một phạm vi xác định nhỏ. Chuẩn hóa được sử dụng khi trong bước học tập, mạng nơ-ron hoặc các phương pháp liên quan đến phép đo được sử dụng.
Generalization- Dữ liệu cũng có thể được chuyển đổi bằng cách khái quát hóa nó lên khái niệm cao hơn. Với mục đích này, chúng ta có thể sử dụng các cấu trúc phân cấp khái niệm.
Note - Dữ liệu cũng có thể được giảm bớt bằng một số phương pháp khác như biến đổi wavelet, binning, phân tích biểu đồ và phân cụm.
So sánh các phương pháp phân loại và dự đoán
Đây là tiêu chí để so sánh các phương pháp Phân loại và Dự đoán -
Accuracy- Độ chính xác của trình phân loại đề cập đến khả năng của trình phân loại. Nó dự đoán nhãn lớp một cách chính xác và độ chính xác của dự đoán đề cập đến mức độ tốt nhất mà một dự đoán nhất định có thể đoán giá trị của thuộc tính được dự đoán cho một dữ liệu mới.
Speed - Điều này đề cập đến chi phí tính toán trong việc tạo và sử dụng bộ phân loại hoặc bộ dự đoán.
Robustness - Nó đề cập đến khả năng của bộ phân loại hoặc bộ dự đoán để đưa ra các dự đoán chính xác từ dữ liệu nhiễu đã cho.
Scalability- Khả năng mở rộng đề cập đến khả năng xây dựng bộ phân loại hoặc bộ dự đoán một cách hiệu quả; đưa ra một lượng lớn dữ liệu.
Interpretability - Nó đề cập đến mức độ hiểu của bộ phân loại hoặc bộ dự đoán.
Cây quyết định là một cấu trúc bao gồm nút gốc, các nhánh và các nút lá. Mỗi nút bên trong biểu thị một phép thử trên một thuộc tính, mỗi nhánh biểu thị kết quả của một phép thử và mỗi nút lá chứa một nhãn lớp. Nút trên cùng trong cây là nút gốc.
Cây quyết định sau dành cho khái niệm buy_computer cho biết liệu khách hàng tại một công ty có khả năng mua máy tính hay không. Mỗi nút bên trong đại diện cho một thử nghiệm trên một thuộc tính. Mỗi nút lá đại diện cho một lớp.
Những lợi ích của việc có một cây quyết định như sau:
- Nó không yêu cầu bất kỳ kiến thức miền nào.
- Nó rất dễ hiểu.
- Các bước tìm hiểu và phân loại của cây quyết định rất đơn giản và nhanh chóng.
Thuật toán cảm ứng cây quyết định
Một nhà nghiên cứu máy tên J. Ross Quinlan năm 1980 đã phát triển một thuật toán cây quyết định được gọi là ID3 (Iterative Dichotomiser). Sau đó, ông trình bày C4.5, là phiên bản kế nhiệm của ID3. ID3 và C4.5 áp dụng cách tiếp cận tham lam. Trong thuật toán này, không có backtracking; cây được xây dựng theo cách phân chia và chinh phục đệ quy từ trên xuống.
Generating a decision tree form training tuples of data partition D
Algorithm : Generate_decision_tree
Input:
Data partition, D, which is a set of training tuples
and their associated class labels.
attribute_list, the set of candidate attributes.
Attribute selection method, a procedure to determine the
splitting criterion that best partitions that the data
tuples into individual classes. This criterion includes a
splitting_attribute and either a splitting point or splitting subset.
Output:
A Decision Tree
Method
create a node N;
if tuples in D are all of the same class, C then
return N as leaf node labeled with class C;
if attribute_list is empty then
return N as leaf node with labeled
with majority class in D;|| majority voting
apply attribute_selection_method(D, attribute_list)
to find the best splitting_criterion;
label node N with splitting_criterion;
if splitting_attribute is discrete-valued and
multiway splits allowed then // no restricted to binary trees
attribute_list = splitting attribute; // remove splitting attribute
for each outcome j of splitting criterion
// partition the tuples and grow subtrees for each partition
let Dj be the set of data tuples in D satisfying outcome j; // a partition
if Dj is empty then
attach a leaf labeled with the majority
class in D to node N;
else
attach the node returned by Generate
decision tree(Dj, attribute list) to node N;
end for
return N;
Tỉa cây
Việc cắt tỉa cây được thực hiện để loại bỏ các bất thường trong dữ liệu huấn luyện do nhiễu hoặc các yếu tố ngoại lai. Các cây được cắt tỉa nhỏ hơn và ít phức tạp hơn.
Phương pháp cắt tỉa cây
Có hai cách cắt tỉa cây -
Pre-pruning - Cắt tỉa cây bằng cách tạm dừng thi công sớm.
Post-pruning - Cách tiếp cận này loại bỏ một cây con khỏi một cây đã phát triển đầy đủ.
Chi phí phức tạp
Độ phức tạp của chi phí được đo bằng hai tham số sau:
- Số lượng lá trên cây và
- Tỷ lệ lỗi của cây.
Phân loại Bayes dựa trên Định lý Bayes. Bộ phân loại Bayes là bộ phân loại thống kê. Bộ phân loại Bayes có thể dự đoán xác suất thành viên của lớp chẳng hạn như xác suất mà một bộ giá trị nhất định thuộc về một lớp cụ thể.
Định lý Baye
Định lý Bayes được đặt theo tên của Thomas Bayes. Có hai loại xác suất -
- Xác suất sau [P (H / X)]
- Xác suất trước [P (H)]
trong đó X là bộ dữ liệu và H là một số giả thuyết.
Theo Định lý Bayes,
Mạng lưới tín ngưỡng Bayes
Mạng Niềm tin Bayes chỉ định các phân phối xác suất có điều kiện chung. Chúng còn được gọi là Mạng Niềm tin, Mạng Bayes, hoặc Mạng Xác suất.
Mạng Belief cho phép xác định tính độc lập có điều kiện của lớp giữa các tập con của các biến.
Nó cung cấp một mô hình đồ họa về mối quan hệ nhân quả mà việc học tập có thể được thực hiện.
Chúng ta có thể sử dụng Mạng Bayes đã được đào tạo để phân loại.
Có hai thành phần xác định một Mạng lưới Niềm tin Bayes -
- Đồ thị vòng có hướng
- Một tập hợp các bảng xác suất có điều kiện
Đồ thị Acyclic có hướng
- Mỗi nút trong đồ thị xoay chiều có hướng biểu diễn một biến ngẫu nhiên.
- Biến này có thể có giá trị rời rạc hoặc liên tục.
- Các biến này có thể tương ứng với thuộc tính thực tế được cung cấp trong dữ liệu.
Biểu diễn đồ thị theo chu kỳ có hướng
Sơ đồ sau đây cho thấy một đồ thị xoay chiều có hướng cho sáu biến Boolean.
Cung trong sơ đồ cho phép biểu diễn kiến thức nhân quả. Ví dụ, ung thư phổi bị ảnh hưởng bởi tiền sử gia đình của một người bị ung thư phổi, cũng như việc người đó có hút thuốc hay không. Cần lưu ý rằng biến PositiveXray không phụ thuộc vào việc bệnh nhân có tiền sử gia đình mắc bệnh ung thư phổi hay bệnh nhân là người hút thuốc, vì chúng tôi biết rằng bệnh nhân bị ung thư phổi.
Bảng xác suất có điều kiện
Bảng xác suất có điều kiện cho các giá trị của biến LungCancer (LC) hiển thị từng kết hợp có thể có của các giá trị của các nút cha của nó, FamilyHistory (FH) và Smoker (S) như sau:
Quy tắc IF-THEN
Bộ phân loại dựa trên quy tắc sử dụng tập hợp các quy tắc IF-THEN để phân loại. Chúng ta có thể thể hiện một quy tắc sau đây từ:
Chúng ta hãy xem xét một quy tắc R1,
R1: IF age = youth AND student = yes
THEN buy_computer = yes
Points to remember −
Phần IF của quy tắc được gọi là rule antecedent hoặc là precondition.
Phần THEN của quy tắc được gọi là rule consequent.
Phần tiền nghiệm điều kiện bao gồm một hoặc nhiều thử nghiệm thuộc tính và các thử nghiệm này được AND hợp lý hóa.
Phần kết quả bao gồm dự đoán lớp.
Note - Chúng ta cũng có thể viết quy tắc R1 như sau:
R1: (age = youth) ^ (student = yes))(buys computer = yes)
Nếu điều kiện đúng với một bộ giá trị đã cho, thì tiền đề được thỏa mãn.
Trích xuất quy tắc
Ở đây chúng ta sẽ học cách xây dựng bộ phân loại dựa trên quy tắc bằng cách trích xuất các quy tắc IF-THEN từ cây quyết định.
Points to remember −
Để trích xuất quy tắc từ cây quyết định -
Một quy tắc được tạo cho mỗi đường dẫn từ gốc đến nút lá.
Để tạo thành tiền đề quy tắc, mỗi tiêu chí tách được AND hợp lý.
Nút lá giữ dự đoán lớp, do đó hình thành quy tắc.
Quy tắc cảm ứng sử dụng thuật toán bao phủ tuần tự
Thuật toán bao gồm tuần tự có thể được sử dụng để trích xuất các quy tắc IF-THEN tạo thành dữ liệu huấn luyện. Chúng tôi không yêu cầu tạo cây quyết định trước. Trong thuật toán này, mỗi quy tắc cho một lớp nhất định bao gồm nhiều bộ giá trị của lớp đó.
Một số Thuật toán che phủ tuần tự là AQ, CN2 và RIPPER. Theo chiến lược chung, các quy tắc được học lần lượt. Đối với mỗi quy tắc thời gian được học, một bộ được bao phủ bởi quy tắc sẽ bị loại bỏ và quá trình tiếp tục cho phần còn lại của bộ giá trị. Điều này là do đường dẫn đến mỗi lá trong cây quyết định tương ứng với một quy tắc.
Note - Quy nạp cây quyết định có thể coi là học đồng thời một tập các quy tắc.
Sau đây là Thuật toán học tuần tự trong đó các quy tắc được học cho một lớp tại một thời điểm. Khi học một quy tắc từ một lớp Ci, chúng ta muốn quy tắc chỉ bao gồm tất cả các bộ giá trị từ lớp C và không có tuple nào tạo thành bất kỳ lớp nào khác.
Algorithm: Sequential Covering
Input:
D, a data set class-labeled tuples,
Att_vals, the set of all attributes and their possible values.
Output: A Set of IF-THEN rules.
Method:
Rule_set={ }; // initial set of rules learned is empty
for each class c do
repeat
Rule = Learn_One_Rule(D, Att_valls, c);
remove tuples covered by Rule form D;
until termination condition;
Rule_set=Rule_set+Rule; // add a new rule to rule-set
end for
return Rule_Set;
Quy tắc cắt tỉa
Quy tắc bị cắt bỏ là do lý do sau:
Việc đánh giá chất lượng được thực hiện trên bộ dữ liệu đào tạo gốc. Quy tắc có thể hoạt động tốt trên dữ liệu đào tạo nhưng kém hơn trên dữ liệu tiếp theo. Đó là lý do tại sao cần phải cắt tỉa quy tắc.
Quy tắc được lược bớt bằng cách loại bỏ liên từ. Quy tắc R được lược bớt, nếu phiên bản R được lược bớt có chất lượng cao hơn những gì được đánh giá trên một tập hợp các bộ giá trị độc lập.
FOIL là một trong những phương pháp đơn giản và hiệu quả để cắt tỉa theo quy tắc. Đối với một quy tắc R đã cho,
trong đó pos và neg lần lượt là số bộ giá trị dương được bao phủ bởi R.
Note- Giá trị này sẽ tăng theo độ chính xác của R trên bộ cắt tỉa. Do đó, nếu giá trị FOIL_Prune cao hơn đối với phiên bản R được lược bớt, thì chúng ta sẽ lược bớt R.
Ở đây chúng ta sẽ thảo luận về các phương pháp phân loại khác như Giải thuật di truyền, Phương pháp tiếp cận tập hợp thô và Phương pháp tiếp cận tập hợp mờ.
Thuật toán di truyền
Ý tưởng về thuật toán di truyền có nguồn gốc từ quá trình tiến hóa tự nhiên. Trong thuật toán di truyền, trước hết, quần thể ban đầu được tạo ra. Quần thể ban đầu này bao gồm các quy tắc được tạo ngẫu nhiên. Chúng ta có thể biểu diễn mỗi quy tắc bằng một chuỗi bit.
Ví dụ, trong một tập huấn luyện nhất định, các mẫu được mô tả bởi hai thuộc tính Boolean như A1 và A2. Và tập hợp huấn luyện đã cho này chứa hai lớp như C1 và C2.
Chúng tôi có thể mã hóa quy tắc IF A1 AND NOT A2 THEN C2 thành một chuỗi bit 100. Trong biểu diễn bit này, hai bit ngoài cùng bên trái đại diện cho thuộc tính A1 và A2 tương ứng.
Tương tự như vậy, quy tắc IF NOT A1 AND NOT A2 THEN C1 có thể được mã hóa thành 001.
Note- Nếu thuộc tính có K giá trị mà K> 2 thì ta có thể sử dụng K bit để mã hóa các giá trị thuộc tính. Các lớp cũng được mã hóa theo cách tương tự.
Những điểm cần nhớ -
Dựa trên quan niệm về sự sống sót của những người khỏe mạnh nhất, một quần thể mới được hình thành bao gồm các quy tắc phù hợp nhất trong quần thể hiện tại và cả giá trị con cái của những quy tắc này.
Tính phù hợp của một quy tắc được đánh giá bằng độ chính xác phân loại của nó trên một tập hợp các mẫu đào tạo.
Các toán tử di truyền như trao đổi chéo và đột biến được áp dụng để tạo ra con cái.
Trong trao đổi chéo, chuỗi con từ cặp quy tắc được đổi chỗ để tạo thành một cặp quy tắc mới.
Trong đột biến, các bit được chọn ngẫu nhiên trong chuỗi quy tắc được đảo ngược.
Phương pháp tiếp cận tập hợp thô
Chúng ta có thể sử dụng cách tiếp cận tập hợp thô để khám phá mối quan hệ cấu trúc trong dữ liệu không chính xác và nhiễu.
Note- Cách tiếp cận này chỉ có thể được áp dụng trên các thuộc tính có giá trị rời rạc. Do đó, các thuộc tính có giá trị liên tục phải được loại bỏ trước khi sử dụng.
Lý thuyết tập hợp thô dựa trên việc thiết lập các lớp tương đương trong dữ liệu đào tạo đã cho. Các bộ giá trị tạo thành lớp tương đương là không thể nhận thấy. Nó có nghĩa là các mẫu giống hệt nhau về các thuộc tính mô tả dữ liệu.
Có một số lớp trong dữ liệu thế giới thực đã cho, không thể phân biệt được về các thuộc tính có sẵn. Chúng ta có thể sử dụng các bộ thô đểroughly định nghĩa các lớp như vậy.
Đối với một lớp C nhất định, định nghĩa tập hợp thô được xấp xỉ bởi hai tập hợp như sau:
Lower Approximation of C - Giá trị xấp xỉ dưới của C bao gồm tất cả các bộ dữ liệu mà dựa trên kiến thức về thuộc tính, chắc chắn thuộc về lớp C.
Upper Approximation of C - Giá trị xấp xỉ trên của C bao gồm tất cả các bộ giá trị mà dựa trên kiến thức về các thuộc tính, không thể được mô tả là không thuộc C.
Biểu đồ sau đây cho thấy xấp xỉ trên và xấp xỉ dưới của lớp C -
Phương pháp tiếp cận tập hợp mờ
Lý thuyết tập hợp mờ còn được gọi là Lý thuyết khả năng. Lý thuyết này được Lotfi Zadeh đề xuất vào năm 1965 như một giải pháp thay thếtwo-value logic và probability theory. Lý thuyết này cho phép chúng ta làm việc ở mức độ trừu tượng cao. Nó cũng cung cấp cho chúng tôi các phương tiện để xử lý việc đo lường dữ liệu không chính xác.
Lý thuyết tập mờ cũng cho phép chúng ta giải quyết các sự kiện mơ hồ hoặc không chính xác. Ví dụ: chính xác là trở thành thành viên của một nhóm thu nhập cao (ví dụ: nếu$50,000 is high then what about $49,000 và $ 48,000). Không giống như tập CRISP truyền thống trong đó phần tử thuộc S hoặc phần bù của nó nhưng trong lý thuyết tập mờ, phần tử có thể thuộc nhiều hơn một tập mờ.
Ví dụ: giá trị thu nhập $ 49,000 thuộc về cả tập mờ trung bình và cao nhưng ở các mức độ khác nhau. Ký hiệu tập hợp mờ cho giá trị thu nhập này như sau:
mmedium_income($49k)=0.15 and mhigh_income($49k)=0.96
trong đó 'm' là hàm thành viên hoạt động trên các tập mờ tương ứng của medium_income và high_income. Ký hiệu này có thể được hiển thị theo sơ đồ như sau:
Cluster là một nhóm các đối tượng thuộc cùng một lớp. Nói cách khác, các đối tượng tương tự được nhóm trong một cụm và các đối tượng khác nhau được nhóm trong một cụm khác.
Phân cụm là gì?
Phân cụm là quá trình làm cho một nhóm các đối tượng trừu tượng thành các lớp của các đối tượng tương tự nhau.
Points to Remember
Một nhóm các đối tượng dữ liệu có thể được coi là một nhóm.
Trong khi thực hiện phân tích cụm, trước tiên chúng tôi phân vùng tập dữ liệu thành các nhóm dựa trên sự tương đồng về dữ liệu và sau đó gán nhãn cho các nhóm.
Ưu điểm chính của phân nhóm so với phân loại là nó có thể thích ứng với những thay đổi và giúp đơn ra các đặc điểm hữu ích để phân biệt các nhóm khác nhau.
Các ứng dụng của phân tích cụm
Phân tích phân cụm được sử dụng rộng rãi trong nhiều ứng dụng như nghiên cứu thị trường, nhận dạng mẫu, phân tích dữ liệu và xử lý hình ảnh.
Phân nhóm cũng có thể giúp các nhà tiếp thị khám phá các nhóm khác biệt trong cơ sở khách hàng của họ. Và họ có thể mô tả các nhóm khách hàng của mình dựa trên các mô hình mua hàng.
Trong lĩnh vực sinh học, nó có thể được sử dụng để xác định phân loại thực vật và động vật, phân loại các gen có chức năng tương tự và hiểu sâu hơn về cấu trúc vốn có của quần thể.
Phân cụm cũng giúp xác định các khu vực sử dụng đất tương tự trong cơ sở dữ liệu quan sát trái đất. Nó cũng giúp xác định các nhóm nhà trong thành phố theo loại nhà, giá trị và vị trí địa lý.
Phân cụm cũng giúp phân loại tài liệu trên web để khám phá thông tin.
Clustering cũng được sử dụng trong các ứng dụng phát hiện ngoại lệ như phát hiện gian lận thẻ tín dụng.
Là một chức năng khai thác dữ liệu, phân tích cụm đóng vai trò như một công cụ để hiểu sâu hơn về việc phân phối dữ liệu để quan sát các đặc điểm của từng cụm.
Yêu cầu của phân cụm trong khai thác dữ liệu
Những điểm sau đây sẽ làm sáng tỏ lý do tại sao cần phân cụm trong khai thác dữ liệu:
Scalability - Chúng tôi cần các thuật toán phân cụm có khả năng mở rộng cao để đối phó với cơ sở dữ liệu lớn.
Ability to deal with different kinds of attributes - Các thuật toán phải có khả năng được áp dụng trên bất kỳ loại dữ liệu nào như dữ liệu dựa trên khoảng (số), dữ liệu phân loại và nhị phân.
Discovery of clusters with attribute shape- Thuật toán phân cụm nên có khả năng phát hiện các cụm có hình dạng tùy ý. Chúng không nên bị giới hạn bởi các phép đo khoảng cách chỉ có xu hướng tìm các cụm hình cầu có kích thước nhỏ.
High dimensionality - Thuật toán phân cụm không chỉ có khả năng xử lý dữ liệu chiều thấp mà còn cả không gian chiều cao.
Ability to deal with noisy data- Cơ sở dữ liệu chứa dữ liệu nhiễu, thiếu hoặc sai sót. Một số thuật toán nhạy cảm với dữ liệu như vậy và có thể dẫn đến các cụm chất lượng kém.
Interpretability - Kết quả phân nhóm phải có thể diễn giải, dễ hiểu và có thể sử dụng được.
Phương pháp phân cụm
Các phương pháp phân cụm có thể được phân loại thành các loại sau:
- Phương pháp phân vùng
- Phương pháp phân cấp
- Phương pháp dựa trên mật độ
- Phương pháp dựa trên lưới
- Phương pháp dựa trên mô hình
- Phương pháp dựa trên ràng buộc
Phương pháp phân vùng
Giả sử chúng ta được cung cấp một cơ sở dữ liệu gồm các đối tượng 'n' và phương pháp phân vùng xây dựng phân vùng dữ liệu 'k'. Mỗi phân vùng sẽ đại diện cho một cụm và k ≤ n. Có nghĩa là nó sẽ phân loại dữ liệu thành k nhóm thỏa mãn các yêu cầu sau:
Mỗi nhóm chứa ít nhất một đối tượng.
Mỗi đối tượng phải thuộc đúng một nhóm.
Points to remember −
Đối với một số lượng phân vùng nhất định (giả sử k), phương pháp phân vùng sẽ tạo ra một phân vùng ban đầu.
Sau đó, nó sử dụng kỹ thuật tái định vị lặp đi lặp lại để cải thiện việc phân vùng bằng cách di chuyển các đối tượng từ nhóm này sang nhóm khác.
Phương pháp phân cấp
Phương pháp này tạo ra sự phân rã có thứ bậc của tập các đối tượng dữ liệu đã cho. Chúng ta có thể phân loại các phương pháp phân cấp trên cơ sở cách thức phân rã thứ bậc được hình thành. Có hai cách tiếp cận ở đây -
- Phương pháp tiếp cận tổng hợp
- Phương pháp phân chia
Phương pháp tiếp cận tổng hợp
Cách tiếp cận này còn được gọi là cách tiếp cận từ dưới lên. Trong phần này, chúng ta bắt đầu với mỗi đối tượng tạo thành một nhóm riêng biệt. Nó tiếp tục hợp nhất các đối tượng hoặc nhóm gần nhau. Nó tiếp tục làm như vậy cho đến khi tất cả các nhóm được hợp nhất thành một hoặc cho đến khi điều kiện chấm dứt được giữ nguyên.
Phương pháp phân chia
Cách tiếp cận này còn được gọi là cách tiếp cận từ trên xuống. Trong phần này, chúng ta bắt đầu với tất cả các đối tượng trong cùng một cụm. Trong quá trình lặp lại liên tục, một cụm được chia thành các cụm nhỏ hơn. Nó hoạt động cho đến khi mỗi đối tượng trong một cụm hoặc điều kiện kết thúc được giữ nguyên. Phương pháp này là cứng nhắc, tức là, một khi quá trình hợp nhất hoặc chia tách được thực hiện, nó không bao giờ có thể được hoàn tác.
Các phương pháp tiếp cận để cải thiện chất lượng của phân cụm theo thứ bậc
Dưới đây là hai cách tiếp cận được sử dụng để cải thiện chất lượng của phân cụm phân cấp -
Thực hiện phân tích cẩn thận các liên kết đối tượng tại mỗi phân vùng theo thứ bậc.
Tích hợp tập hợp phân cấp bằng cách trước tiên sử dụng thuật toán tích tụ phân cấp để nhóm các đối tượng thành các cụm vi mô, sau đó thực hiện phân nhóm vĩ mô trên các cụm vi mô.
Phương pháp dựa trên mật độ
Phương pháp này dựa trên khái niệm về mật độ. Ý tưởng cơ bản là tiếp tục phát triển cụm đã cho miễn là mật độ trong vùng lân cận vượt quá ngưỡng nào đó, tức là đối với mỗi điểm dữ liệu trong một cụm nhất định, bán kính của một cụm nhất định phải chứa ít nhất một số điểm tối thiểu.
Phương pháp dựa trên lưới
Trong đó, các đối tượng cùng nhau tạo thành một lưới. Không gian đối tượng được lượng tử hóa thành một số ô hữu hạn tạo thành cấu trúc lưới.
Advantages
Ưu điểm chính của phương pháp này là thời gian xử lý nhanh chóng.
Nó chỉ phụ thuộc vào số lượng ô trong mỗi chiều trong không gian lượng tử hóa.
Phương pháp dựa trên mô hình
Trong phương pháp này, một mô hình được đưa ra giả thuyết cho mỗi cụm để tìm ra dữ liệu phù hợp nhất cho một mô hình nhất định. Phương pháp này định vị các cụm bằng cách phân cụm hàm mật độ. Nó phản ánh sự phân bố không gian của các điểm dữ liệu.
Phương pháp này cũng cung cấp một cách để tự động xác định số lượng cụm dựa trên số liệu thống kê tiêu chuẩn, có tính đến ngoại lệ hoặc nhiễu. Do đó, nó mang lại các phương thức phân cụm mạnh mẽ.
Phương pháp dựa trên ràng buộc
Trong phương pháp này, việc phân cụm được thực hiện bằng cách kết hợp các ràng buộc hướng ứng dụng hoặc người dùng. Một ràng buộc đề cập đến kỳ vọng của người dùng hoặc các thuộc tính của kết quả phân cụm mong muốn. Các ràng buộc cung cấp cho chúng tôi một cách giao tiếp tương tác với quy trình phân nhóm. Các ràng buộc có thể được chỉ định bởi người dùng hoặc yêu cầu của ứng dụng.
Cơ sở dữ liệu văn bản bao gồm một bộ sưu tập tài liệu khổng lồ. Họ thu thập những thông tin này từ một số nguồn như tin bài, sách, thư viện số, thư điện tử, trang web, v.v. Do lượng thông tin ngày càng tăng, cơ sở dữ liệu văn bản đang phát triển nhanh chóng. Trong nhiều cơ sở dữ liệu văn bản, dữ liệu là bán cấu trúc.
Ví dụ: một tài liệu có thể chứa một vài trường có cấu trúc, chẳng hạn như tiêu đề, tác giả, ngày xuất bản, v.v. Nhưng cùng với dữ liệu cấu trúc, tài liệu cũng chứa các thành phần văn bản phi cấu trúc, chẳng hạn như phần tóm tắt và nội dung. Nếu không biết những gì có thể có trong tài liệu, rất khó để hình thành các truy vấn hiệu quả để phân tích và trích xuất thông tin hữu ích từ dữ liệu. Người dùng yêu cầu các công cụ để so sánh các tài liệu và xếp hạng mức độ quan trọng và mức độ liên quan của chúng. Do đó, khai thác văn bản đã trở nên phổ biến và là một chủ đề thiết yếu trong khai thác dữ liệu.
Truy xuất thông tin
Truy xuất thông tin liên quan đến việc truy xuất thông tin từ một số lượng lớn các tài liệu dựa trên văn bản. Một số hệ thống cơ sở dữ liệu thường không có trong các hệ thống truy xuất thông tin vì cả hai đều xử lý các loại dữ liệu khác nhau. Ví dụ về hệ thống truy xuất thông tin bao gồm:
- Hệ thống danh mục Thư viện Trực tuyến
- Hệ thống quản lý tài liệu trực tuyến
- Hệ thống tìm kiếm web, v.v.
Note- Vấn đề chính trong một hệ thống truy xuất thông tin là xác định vị trí các tài liệu liên quan trong bộ sưu tập tài liệu dựa trên truy vấn của người dùng. Loại truy vấn của người dùng này bao gồm một số từ khóa mô tả nhu cầu thông tin.
Trong các vấn đề tìm kiếm như vậy, người dùng chủ động lấy thông tin liên quan ra khỏi bộ sưu tập. Điều này phù hợp khi người dùng có nhu cầu thông tin đột xuất, tức là nhu cầu ngắn hạn. Nhưng nếu người dùng có nhu cầu thông tin lâu dài, thì hệ thống truy xuất cũng có thể chủ động đẩy bất kỳ mục thông tin nào mới đến cho người dùng.
Loại truy cập thông tin này được gọi là Lọc thông tin. Và các hệ thống tương ứng được gọi là Hệ thống lọc hoặc Hệ thống đề xuất.
Các biện pháp cơ bản để truy xuất văn bản
Chúng ta cần kiểm tra tính chính xác của hệ thống khi nó truy xuất một số tài liệu trên cơ sở đầu vào của người dùng. Hãy để tập hợp các tài liệu có liên quan đến một truy vấn được ký hiệu là {Có liên quan} và tập hợp các tài liệu được truy xuất là {Đã truy xuất}. Tập hợp các tài liệu có liên quan và được truy xuất có thể được ký hiệu là {Có liên quan} ∩ {Đã lấy về}. Điều này có thể được thể hiện dưới dạng biểu đồ Venn như sau:
Có ba thước đo cơ bản để đánh giá chất lượng của việc truy xuất văn bản -
- Precision
- Recall
- F-score
Độ chính xác
Độ chính xác là phần trăm tài liệu được truy xuất trên thực tế có liên quan đến truy vấn. Độ chính xác có thể được định nghĩa là -
Precision= |{Relevant} ∩ {Retrieved}| / |{Retrieved}|
Gợi lại
Truy xuất là phần trăm tài liệu có liên quan đến truy vấn và trên thực tế đã được truy xuất. Thu hồi được định nghĩa là -
Recall = |{Relevant} ∩ {Retrieved}| / |{Relevant}|
Điểm F
Điểm F là sự đánh đổi thường được sử dụng. Hệ thống truy xuất thông tin thường cần đánh đổi độ chính xác hoặc ngược lại. Điểm F được định nghĩa là giá trị trung bình hài của việc thu hồi hoặc độ chính xác như sau:
F-score = recall x precision / (recall + precision) / 2
World Wide Web chứa một lượng lớn thông tin cung cấp một nguồn phong phú cho việc khai thác dữ liệu.
Những thách thức trong khai thác web
Trang web đặt ra những thách thức lớn cho việc khám phá tài nguyên và kiến thức dựa trên những quan sát sau:
The web is too huge- Kích thước của web rất lớn và ngày càng tăng nhanh. Điều này có vẻ như web quá lớn để lưu trữ dữ liệu và khai thác dữ liệu.
Complexity of Web pages- Các trang web không có cấu trúc thống nhất. Chúng rất phức tạp so với tài liệu văn bản truyền thống. Có một lượng lớn tài liệu trong thư viện số của web. Các thư viện này không được sắp xếp theo bất kỳ thứ tự sắp xếp cụ thể nào.
Web is dynamic information source- Thông tin trên web được cập nhật nhanh chóng. Các dữ liệu như tin tức, thị trường chứng khoán, thời tiết, thể thao, mua sắm, ... được cập nhật thường xuyên.
Diversity of user communities- Cộng đồng người dùng trên web được mở rộng nhanh chóng. Những người dùng này có hoàn cảnh xuất thân, sở thích và mục đích sử dụng khác nhau. Hiện có hơn 100 triệu máy trạm được kết nối Internet và vẫn đang tiếp tục tăng nhanh.
Relevancy of Information - Người ta coi rằng một người cụ thể nói chung chỉ quan tâm đến một phần nhỏ của trang web, trong khi phần còn lại của trang web chứa thông tin không liên quan đến người dùng và có thể chiếm kết quả mong muốn.
Khai thác cấu trúc bố cục trang web
Cấu trúc cơ bản của trang web dựa trên Mô hình Đối tượng Tài liệu (DOM). Cấu trúc DOM đề cập đến một cấu trúc dạng cây trong đó thẻ HTML trong trang tương ứng với một nút trong cây DOM. Chúng ta có thể phân đoạn trang web bằng cách sử dụng các thẻ được xác định trước trong HTML. Do đó, cú pháp HTML rất linh hoạt, các trang web không tuân theo các thông số kỹ thuật của W3C. Không tuân theo các thông số kỹ thuật của W3C có thể gây ra lỗi trong cấu trúc cây DOM.
Cấu trúc DOM ban đầu được giới thiệu để trình bày trong trình duyệt chứ không phải để mô tả cấu trúc ngữ nghĩa của trang web. Cấu trúc DOM không thể xác định chính xác mối quan hệ ngữ nghĩa giữa các phần khác nhau của trang web.
Phân đoạn trang dựa trên tầm nhìn (VIPS)
Mục đích của VIPS là trích xuất cấu trúc ngữ nghĩa của một trang web dựa trên cách trình bày trực quan của nó.
Cấu trúc ngữ nghĩa như vậy tương ứng với cấu trúc cây. Trong cây này, mỗi nút tương ứng với một khối.
Một giá trị được gán cho mỗi nút. Giá trị này được gọi là Mức độ gắn kết. Giá trị này được gán để biểu thị nội dung mạch lạc trong khối dựa trên cảm nhận trực quan.
Thuật toán VIPS đầu tiên trích xuất tất cả các khối phù hợp từ cây DOM HTML. Sau đó, nó tìm thấy các dải phân cách giữa các khối này.
Các dấu phân cách đề cập đến các đường ngang hoặc dọc trong trang web cắt ngang một cách trực quan mà không có khối.
Ngữ nghĩa của trang web được xây dựng trên cơ sở các khối này.
Hình sau cho thấy quy trình của thuật toán VIPS:
Khai thác dữ liệu được sử dụng rộng rãi trong các lĩnh vực đa dạng. Ngày nay có một số hệ thống khai thác dữ liệu thương mại nhưng vẫn còn nhiều thách thức trong lĩnh vực này. Trong hướng dẫn này, chúng ta sẽ thảo luận về các ứng dụng và xu hướng khai thác dữ liệu.
Ứng dụng khai thác dữ liệu
Dưới đây là danh sách các khu vực mà khai thác dữ liệu được sử dụng rộng rãi -
- Phân tích dữ liệu tài chính
- Ngành bán lẻ
- Công nghiệp viễn thông
- Phân tích dữ liệu sinh học
- Các ứng dụng khoa học khác
- Phát hiện xâm nhập
Phân tích dữ liệu tài chính
Dữ liệu tài chính trong ngành tài chính ngân hàng nói chung là đáng tin cậy và có chất lượng cao, tạo điều kiện thuận lợi cho việc phân tích dữ liệu có hệ thống và khai thác dữ liệu. Một số trường hợp điển hình như sau:
Thiết kế và xây dựng kho dữ liệu để phân tích dữ liệu đa chiều và khai thác dữ liệu.
Dự đoán thanh toán khoản vay và phân tích chính sách tín dụng khách hàng.
Phân loại và phân cụm khách hàng để tiếp thị mục tiêu.
Phát hiện rửa tiền và các tội phạm tài chính khác.
Ngành bán lẻ
Khai thác dữ liệu có ứng dụng tuyệt vời trong Ngành Bán lẻ vì nó thu thập một lượng lớn dữ liệu về bán hàng, lịch sử mua hàng của khách hàng, vận chuyển hàng hóa, tiêu dùng và dịch vụ. Điều tự nhiên là số lượng dữ liệu được thu thập sẽ tiếp tục mở rộng nhanh chóng vì tính dễ dàng, sẵn có và phổ biến của web ngày càng tăng.
Khai thác dữ liệu trong ngành bán lẻ giúp xác định các xu hướng và xu hướng mua hàng của khách hàng nhằm cải thiện chất lượng dịch vụ khách hàng, duy trì tốt và hài lòng khách hàng. Dưới đây là danh sách các ví dụ về khai thác dữ liệu trong ngành bán lẻ -
Thiết kế và Xây dựng kho dữ liệu dựa trên lợi ích của việc khai thác dữ liệu.
Phân tích đa chiều về doanh số, khách hàng, sản phẩm, thời gian và khu vực.
Phân tích hiệu quả của các chiến dịch bán hàng.
Duy trì khách hàng.
Đề xuất sản phẩm và tham khảo chéo các mặt hàng.
Công nghiệp viễn thông
Ngày nay, ngành viễn thông là một trong những ngành mới nổi nhất cung cấp nhiều dịch vụ khác nhau như fax, máy nhắn tin, điện thoại di động, internet messenger, hình ảnh, e-mail, truyền dữ liệu web, v.v. Do sự phát triển của công nghệ máy tính và truyền thông mới, ngành viễn thông đang nhanh chóng mở rộng. Đây là lý do tại sao khai thác dữ liệu trở nên rất quan trọng để giúp đỡ và hiểu doanh nghiệp.
Khai thác dữ liệu trong ngành viễn thông giúp xác định các mô hình viễn thông, phát hiện các hoạt động gian lận, sử dụng tài nguyên tốt hơn và cải thiện chất lượng dịch vụ. Dưới đây là danh sách các ví dụ mà việc khai thác dữ liệu cải thiện các dịch vụ viễn thông -
Phân tích đa chiều dữ liệu viễn thông.
Phân tích mô hình gian lận.
Xác định các mẫu bất thường.
Liên kết đa chiều và phân tích các mẫu tuần tự.
Dịch vụ Viễn thông Di động.
Sử dụng các công cụ trực quan trong phân tích dữ liệu viễn thông.
Phân tích dữ liệu sinh học
Trong thời gian gần đây, chúng ta đã chứng kiến sự phát triển vượt bậc trong lĩnh vực sinh học như genomics, proteomics, chức năng Genomics và nghiên cứu y sinh. Khai thác dữ liệu sinh học là một phần rất quan trọng của Tin sinh học. Sau đây là các khía cạnh mà khai thác dữ liệu đóng góp cho phân tích dữ liệu sinh học -
Tích hợp ngữ nghĩa của cơ sở dữ liệu gen và protein không đồng nhất, phân tán.
Căn chỉnh, lập chỉ mục, tìm kiếm độ tương đồng và phân tích so sánh nhiều trình tự nucleotide.
Khám phá các mô hình cấu trúc và phân tích mạng lưới di truyền và con đường protein.
Phân tích liên kết và đường dẫn.
Các công cụ trực quan trong phân tích dữ liệu di truyền.
Các ứng dụng khoa học khác
Các ứng dụng được thảo luận ở trên có xu hướng xử lý các tập dữ liệu tương đối nhỏ và đồng nhất mà các kỹ thuật thống kê là thích hợp. Một lượng lớn dữ liệu đã được thu thập từ các lĩnh vực khoa học như khoa học địa lý, thiên văn học, v.v. Một lượng lớn dữ liệu đang được tạo ra do các mô phỏng số nhanh trong các lĩnh vực khác nhau như mô hình khí hậu và hệ sinh thái, kỹ thuật hóa học, động lực học chất lỏng, v.v. . Sau đây là các ứng dụng của khai thác dữ liệu trong lĩnh vực Ứng dụng Khoa học -
- Kho dữ liệu và xử lý trước dữ liệu.
- Khai thác dựa trên đồ thị.
- Trực quan và miền kiến thức cụ thể.
Phát hiện xâm nhập
Xâm nhập đề cập đến bất kỳ loại hành động nào đe dọa tính toàn vẹn, tính bảo mật hoặc tính khả dụng của tài nguyên mạng. Trong thế giới kết nối này, bảo mật đã trở thành một vấn đề chính. Với việc sử dụng Internet ngày càng tăng và sự sẵn có của các công cụ và thủ thuật để xâm nhập và tấn công mạng đã thúc đẩy việc phát hiện xâm nhập trở thành một thành phần quan trọng của quản trị mạng. Dưới đây là danh sách các lĩnh vực mà công nghệ khai thác dữ liệu có thể được áp dụng để phát hiện xâm nhập -
Phát triển thuật toán khai phá dữ liệu để phát hiện xâm nhập.
Phân tích liên kết và tương quan, tổng hợp để giúp lựa chọn và xây dựng các thuộc tính phân biệt.
Phân tích dữ liệu Luồng.
Khai thác dữ liệu phân tán.
Công cụ trực quan hóa và truy vấn.
Sản phẩm hệ thống khai thác dữ liệu
Có nhiều sản phẩm hệ thống khai thác dữ liệu và các ứng dụng khai thác dữ liệu miền cụ thể. Các hệ thống và ứng dụng khai thác dữ liệu mới đang được thêm vào các hệ thống trước đó. Ngoài ra, các nỗ lực đang được thực hiện để chuẩn hóa các ngôn ngữ khai thác dữ liệu.
Chọn hệ thống khai thác dữ liệu
Việc lựa chọn một hệ thống khai thác dữ liệu phụ thuộc vào các tính năng sau:
Data Types- Hệ thống khai thác dữ liệu có thể xử lý văn bản được định dạng, dữ liệu dựa trên bản ghi và dữ liệu quan hệ. Dữ liệu cũng có thể ở dạng văn bản ASCII, dữ liệu cơ sở dữ liệu quan hệ hoặc dữ liệu kho dữ liệu. Do đó, chúng ta nên kiểm tra định dạng chính xác mà hệ thống khai thác dữ liệu có thể xử lý.
System Issues- Chúng ta phải xem xét tính tương thích của một hệ thống khai thác dữ liệu với các hệ điều hành khác nhau. Một hệ thống khai thác dữ liệu chỉ có thể chạy trên một hoặc nhiều hệ điều hành. Ngoài ra còn có các hệ thống khai thác dữ liệu cung cấp giao diện người dùng dựa trên web và cho phép dữ liệu XML làm đầu vào.
Data Sources- Nguồn dữ liệu đề cập đến các định dạng dữ liệu mà hệ thống khai thác dữ liệu sẽ hoạt động. Một số hệ thống khai thác dữ liệu có thể chỉ hoạt động trên các tệp văn bản ASCII trong khi các hệ thống khác trên nhiều nguồn quan hệ. Hệ thống khai thác dữ liệu cũng phải hỗ trợ các kết nối ODBC hoặc OLE DB cho các kết nối ODBC.
Data Mining functions and methodologies - Có một số hệ thống khai thác dữ liệu chỉ cung cấp một chức năng khai thác dữ liệu như phân loại trong khi một số hệ thống cung cấp nhiều chức năng khai thác dữ liệu như mô tả khái niệm, phân tích OLAP theo hướng khám phá, khai thác liên kết, phân tích liên kết, phân tích thống kê, phân loại, dự đoán, phân cụm, phân tích ngoại lệ, tìm kiếm điểm tương đồng, v.v.
Coupling data mining with databases or data warehouse systems- Hệ thống khai thác dữ liệu cần được kết hợp với cơ sở dữ liệu hoặc hệ thống kho dữ liệu. Các thành phần ghép nối được tích hợp vào một môi trường xử lý thông tin thống nhất. Dưới đây là các loại khớp nối được liệt kê bên dưới -
- Không có khớp nối
- Khớp nối lỏng lẻo
- Khớp nối bán chặt chẽ
- Khớp nối chặt chẽ
Scalability - Có hai vấn đề về khả năng mở rộng trong khai thác dữ liệu -
Row (Database size) Scalability- Hệ thống khai thác dữ liệu được coi là có thể mở rộng hàng khi số lượng hoặc hàng được phóng to lên 10 lần. Không cần quá 10 lần để thực hiện một truy vấn.
Column (Dimension) Salability - Một hệ thống khai thác dữ liệu được coi là cột có thể mở rộng nếu thời gian thực hiện truy vấn khai thác tăng tuyến tính với số lượng cột.
Visualization Tools - Trực quan hóa trong khai thác dữ liệu có thể được phân loại như sau:
- Trực quan hóa dữ liệu
- Hình ảnh hóa kết quả khai thác
- Hình ảnh hóa quy trình khai thác
- Khai thác dữ liệu trực quan
Data Mining query language and graphical user interface- Giao diện người dùng đồ họa dễ sử dụng rất quan trọng để thúc đẩy khai thác dữ liệu tương tác, hướng dẫn người dùng. Không giống như hệ thống cơ sở dữ liệu quan hệ, hệ thống khai thác dữ liệu không chia sẻ ngôn ngữ truy vấn khai thác dữ liệu cơ bản.
Xu hướng khai thác dữ liệu
Các khái niệm khai thác dữ liệu vẫn đang phát triển và đây là những xu hướng mới nhất mà chúng ta có thể thấy trong lĩnh vực này -
Khám phá ứng dụng.
Các phương pháp khai thác dữ liệu có thể mở rộng và tương tác.
Tích hợp khai thác dữ liệu với hệ thống cơ sở dữ liệu, hệ thống kho dữ liệu và hệ thống cơ sở dữ liệu web.
Chuẩn hóa SStandardization của ngôn ngữ truy vấn khai thác dữ liệu.
Khai thác dữ liệu trực quan.
Các phương pháp mới để khai thác các loại dữ liệu phức tạp.
Khai thác dữ liệu sinh học.
Khai thác dữ liệu và kỹ thuật phần mềm.
Khai thác web.
Khai thác dữ liệu phân tán.
Khai thác dữ liệu thời gian thực.
Khai thác dữ liệu đa cơ sở dữ liệu.
Bảo vệ quyền riêng tư và bảo mật thông tin trong khai thác dữ liệu.
Cơ sở lý thuyết của khai thác dữ liệu
Cơ sở lý thuyết của khai phá dữ liệu bao gồm các khái niệm sau:
Data Reduction- Ý tưởng cơ bản của lý thuyết này là giảm biểu diễn dữ liệu mà đánh đổi độ chính xác cho tốc độ để đáp ứng nhu cầu có được câu trả lời gần đúng nhanh chóng cho các truy vấn trên cơ sở dữ liệu rất lớn. Một số kỹ thuật giảm dữ liệu như sau:
Giá trị số ít Phân hủy
Wavelets
Regression
Mô hình tuyến tính log
Histograms
Clustering
Sampling
Xây dựng cây chỉ mục
Data Compression - Ý tưởng cơ bản của lý thuyết này là nén dữ liệu đã cho bằng cách mã hóa theo như sau:
Bits
Quy tắc kết hợp
Cây quyết định
Clusters
Pattern Discovery- Ý tưởng cơ bản của lý thuyết này là khám phá các mẫu xảy ra trong cơ sở dữ liệu. Sau đây là các lĩnh vực đóng góp vào lý thuyết này -
Học máy
Mạng thần kinh
Khai thác Hiệp hội
Khớp mẫu tuần tự
Clustering
Probability Theory- Lý thuyết này dựa trên lý thuyết thống kê. Ý tưởng cơ bản đằng sau lý thuyết này là khám phá các phân phối xác suất chung của các biến ngẫu nhiên.
Probability Theory - Theo lý thuyết này, khai phá dữ liệu tìm ra các mẫu thú vị chỉ trong phạm vi mà chúng có thể được sử dụng trong quá trình ra quyết định của một số doanh nghiệp.
Microeconomic View- Theo lý thuyết này, một lược đồ cơ sở dữ liệu bao gồm dữ liệu và các mẫu được lưu trữ trong cơ sở dữ liệu. Do đó, khai thác dữ liệu là nhiệm vụ thực hiện cảm ứng trên cơ sở dữ liệu.
Inductive databases- Ngoài các kỹ thuật hướng cơ sở dữ liệu, còn có các kỹ thuật thống kê để phân tích dữ liệu. Những kỹ thuật này có thể được áp dụng cho dữ liệu khoa học và dữ liệu từ khoa học kinh tế và xã hội.
Khai thác dữ liệu thống kê
Một số Kỹ thuật Khai thác Dữ liệu Thống kê như sau:
Regression- Phương pháp hồi quy được sử dụng để dự đoán giá trị của biến phản hồi từ một hoặc nhiều biến dự báo trong đó các biến là số. Dưới đây là các hình thức hồi quy -
Linear
Multiple
Weighted
Polynomial
Nonparametric
Robust
Generalized Linear Models - Mô hình tuyến tính tổng quát bao gồm -
Hồi quy logistic
Hồi quy Poisson
Sự tổng quát hóa của mô hình cho phép một biến phản hồi phân loại có liên quan đến một tập hợp các biến dự báo theo cách tương tự như mô hình hóa biến phản hồi số sử dụng hồi quy tuyến tính.
Analysis of Variance - Kỹ thuật này phân tích -
Dữ liệu thử nghiệm cho hai hoặc nhiều quần thể được mô tả bằng biến phản hồi số.
Một hoặc nhiều biến phân loại (nhân tố).
Mixed-effect Models- Các mô hình này được sử dụng để phân tích dữ liệu được phân nhóm. Các mô hình này mô tả mối quan hệ giữa một biến phản hồi và một số biến số đồng biến trong dữ liệu được nhóm theo một hoặc nhiều yếu tố.
Factor Analysis- Phân tích nhân tố được sử dụng để dự đoán một biến phản ứng phân loại. Phương pháp này giả định rằng các biến độc lập tuân theo phân phối chuẩn đa biến.
Time Series Analysis - Sau đây là các phương pháp phân tích dữ liệu chuỗi thời gian -
Phương pháp hồi quy tự động.
Lập mô hình ARIMA (Đường trung bình động tích hợp tự động hồi quy) đơn biến.
Mô hình chuỗi thời gian bộ nhớ dài.
Khai thác dữ liệu trực quan
Khai thác dữ liệu trực quan sử dụng kỹ thuật trực quan hóa dữ liệu và / hoặc tri thức để khám phá kiến thức tiềm ẩn từ các tập dữ liệu lớn. Khai thác dữ liệu trực quan có thể được xem là sự tích hợp của các nguyên tắc sau:
Trực quan hóa dữ liệu
Khai thác dữ liệu
Khai thác dữ liệu trực quan có liên quan chặt chẽ đến những điều sau:
Đô họa may tinh
Hệ thống đa phương tiện
Tương tác máy tính của con người
Nhận dạng mẫu
Máy tính hiệu suất cao
Nói chung, trực quan hóa dữ liệu và khai thác dữ liệu có thể được tích hợp theo những cách sau:
Data Visualization - Dữ liệu trong cơ sở dữ liệu hoặc kho dữ liệu có thể được xem ở một số dạng trực quan được liệt kê bên dưới -
Boxplots
Hình khối 3-D
Biểu đồ phân phối dữ liệu
Curves
Surfaces
Đồ thị liên kết v.v.
Data Mining Result Visualization- Trực quan hóa kết quả khai thác dữ liệu là việc trình bày kết quả khai thác dữ liệu dưới dạng trực quan. Các hình thức trực quan này có thể là các ô phân tán, ô hộp, v.v.
Data Mining Process Visualization- Trực quan hóa quy trình khai thác dữ liệu trình bày một số quy trình khai thác dữ liệu. Nó cho phép người dùng xem cách dữ liệu được trích xuất. Nó cũng cho phép người dùng xem từ cơ sở dữ liệu hoặc kho dữ liệu nào mà dữ liệu được làm sạch, tích hợp, xử lý trước và khai thác.
Khai thác dữ liệu âm thanh
Khai thác dữ liệu âm thanh sử dụng tín hiệu âm thanh để chỉ ra các mẫu dữ liệu hoặc các tính năng của kết quả khai thác dữ liệu. Bằng cách biến đổi các mẫu thành âm thanh và trầm ngâm, chúng ta có thể lắng nghe cao độ và giai điệu, thay vì xem hình ảnh, để xác định bất kỳ điều gì thú vị.
Khai thác dữ liệu và lọc cộng tác
Người tiêu dùng ngày nay bắt gặp nhiều loại hàng hóa và dịch vụ khác nhau trong khi mua sắm. Trong các giao dịch trực tiếp của khách hàng, Hệ thống giới thiệu sẽ giúp người tiêu dùng bằng cách đưa ra các đề xuất về sản phẩm. Phương pháp tiếp cận lọc cộng tác thường được sử dụng để giới thiệu sản phẩm cho khách hàng. Những khuyến nghị này dựa trên ý kiến của các khách hàng khác.