Khai thác dữ liệu - Phân tích cụm
Cluster là một nhóm các đối tượng thuộc cùng một lớp. Nói cách khác, các đối tượng tương tự được nhóm trong một cụm và các đối tượng khác nhau được nhóm trong một cụm khác.
Phân cụm là gì?
Phân cụm là quá trình làm cho một nhóm các đối tượng trừu tượng thành các lớp của các đối tượng tương tự nhau.
Points to Remember
Một nhóm các đối tượng dữ liệu có thể được coi là một nhóm.
Trong khi thực hiện phân tích cụm, trước tiên chúng tôi phân vùng tập dữ liệu thành các nhóm dựa trên sự giống nhau về dữ liệu và sau đó gán nhãn cho các nhóm.
Ưu điểm chính của phân nhóm so với phân loại là nó có thể thích ứng với các thay đổi và giúp đơn ra các đặc điểm hữu ích giúp phân biệt các nhóm khác nhau.
Các ứng dụng của phân tích cụm
Phân tích phân cụm được sử dụng rộng rãi trong nhiều ứng dụng như nghiên cứu thị trường, nhận dạng mẫu, phân tích dữ liệu và xử lý hình ảnh.
Phân nhóm cũng có thể giúp các nhà tiếp thị khám phá các nhóm khác biệt trong cơ sở khách hàng của họ. Và họ có thể mô tả các nhóm khách hàng của mình dựa trên các mô hình mua hàng.
Trong lĩnh vực sinh học, nó có thể được sử dụng để xác định các đơn vị phân loại thực vật và động vật, phân loại các gen có chức năng tương tự và hiểu sâu hơn về cấu trúc vốn có của quần thể.
Phân cụm cũng giúp xác định các khu vực sử dụng đất tương tự trong cơ sở dữ liệu quan sát trái đất. Nó cũng giúp xác định các nhóm nhà trong thành phố theo loại nhà, giá trị và vị trí địa lý.
Phân cụm cũng giúp phân loại tài liệu trên web để khám phá thông tin.
Clustering cũng được sử dụng trong các ứng dụng phát hiện ngoại lệ như phát hiện gian lận thẻ tín dụng.
Là một chức năng khai thác dữ liệu, phân tích cụm đóng vai trò như một công cụ để hiểu sâu hơn về việc phân phối dữ liệu để quan sát các đặc điểm của từng cụm.
Yêu cầu của phân cụm trong khai thác dữ liệu
Những điểm sau đây sẽ làm sáng tỏ lý do tại sao cần phân cụm trong khai thác dữ liệu:
Scalability - Chúng tôi cần các thuật toán phân cụm có khả năng mở rộng cao để đối phó với cơ sở dữ liệu lớn.
Ability to deal with different kinds of attributes - Các thuật toán phải có khả năng được áp dụng trên bất kỳ loại dữ liệu nào như dữ liệu dựa trên khoảng (số), dữ liệu phân loại và nhị phân.
Discovery of clusters with attribute shape- Thuật toán phân cụm có khả năng phát hiện các cụm có hình dạng tùy ý. Chúng không nên bị giới hạn bởi các phép đo khoảng cách chỉ có xu hướng tìm các cụm hình cầu có kích thước nhỏ.
High dimensionality - Thuật toán phân cụm không chỉ có thể xử lý dữ liệu chiều thấp mà còn cả không gian chiều cao.
Ability to deal with noisy data- Cơ sở dữ liệu chứa dữ liệu nhiễu, thiếu hoặc sai sót. Một số thuật toán nhạy cảm với dữ liệu như vậy và có thể dẫn đến các cụm chất lượng kém.
Interpretability - Kết quả phân cụm phải có thể diễn giải, dễ hiểu và có thể sử dụng được.
Phương pháp phân cụm
Các phương pháp phân cụm có thể được phân loại thành các loại sau:
- Phương pháp phân vùng
- Phương pháp phân cấp
- Phương pháp dựa trên mật độ
- Phương pháp dựa trên lưới
- Phương pháp dựa trên mô hình
- Phương pháp dựa trên ràng buộc
Phương pháp phân vùng
Giả sử chúng ta được cung cấp một cơ sở dữ liệu gồm các đối tượng 'n' và phương pháp phân vùng xây dựng phân vùng dữ liệu 'k'. Mỗi phân vùng sẽ đại diện cho một cụm và k ≤ n. Có nghĩa là nó sẽ phân loại dữ liệu thành k nhóm thỏa mãn các yêu cầu sau:
Mỗi nhóm chứa ít nhất một đối tượng.
Mỗi đối tượng phải thuộc đúng một nhóm.
Points to remember −
Đối với một số phân vùng nhất định (giả sử k), phương pháp phân vùng sẽ tạo ra một phân vùng ban đầu.
Sau đó, nó sử dụng kỹ thuật tái định vị lặp đi lặp lại để cải thiện việc phân vùng bằng cách di chuyển các đối tượng từ nhóm này sang nhóm khác.
Phương pháp phân cấp
Phương pháp này tạo ra sự phân rã có thứ bậc của tập các đối tượng dữ liệu đã cho. Chúng ta có thể phân loại các phương pháp phân cấp trên cơ sở cách thức phân rã phân cấp được hình thành. Có hai cách tiếp cận ở đây -
- Phương pháp tiếp cận tổng hợp
- Phương pháp phân chia
Phương pháp tiếp cận tổng hợp
Cách tiếp cận này còn được gọi là cách tiếp cận từ dưới lên. Trong phần này, chúng ta bắt đầu với mỗi đối tượng tạo thành một nhóm riêng biệt. Nó tiếp tục hợp nhất các đối tượng hoặc nhóm gần nhau. Nó tiếp tục làm như vậy cho đến khi tất cả các nhóm được hợp nhất thành một hoặc cho đến khi điều kiện chấm dứt được giữ nguyên.
Phương pháp phân chia
Cách tiếp cận này còn được gọi là cách tiếp cận từ trên xuống. Trong phần này, chúng ta bắt đầu với tất cả các đối tượng trong cùng một cụm. Trong quá trình lặp lại liên tục, một cụm được chia thành các cụm nhỏ hơn. Nó hoạt động cho đến khi mỗi đối tượng trong một cụm hoặc điều kiện kết thúc được giữ nguyên. Phương pháp này là cứng nhắc, tức là, một khi quá trình hợp nhất hoặc chia tách được thực hiện, nó không bao giờ có thể được hoàn tác.
Các phương pháp tiếp cận để cải thiện chất lượng của phân cụm theo thứ bậc
Dưới đây là hai cách tiếp cận được sử dụng để cải thiện chất lượng của phân cụm phân cấp -
Thực hiện phân tích cẩn thận các liên kết đối tượng tại mỗi phân vùng theo thứ bậc.
Tích hợp tập hợp phân cấp bằng cách trước tiên sử dụng thuật toán tích tụ phân cấp để nhóm các đối tượng thành các cụm vi mô và sau đó thực hiện phân nhóm vĩ mô trên các cụm vi mô.
Phương pháp dựa trên mật độ
Phương pháp này dựa trên khái niệm về mật độ. Ý tưởng cơ bản là tiếp tục phát triển cụm đã cho miễn là mật độ trong vùng lân cận vượt quá ngưỡng nào đó, tức là đối với mỗi điểm dữ liệu trong một cụm nhất định, bán kính của một cụm nhất định phải chứa ít nhất một số điểm tối thiểu.
Phương pháp dựa trên lưới
Trong đó, các đối tượng cùng nhau tạo thành một lưới. Không gian đối tượng được lượng tử hóa thành một số ô hữu hạn tạo thành cấu trúc lưới.
Advantages
Ưu điểm chính của phương pháp này là thời gian xử lý nhanh chóng.
Nó chỉ phụ thuộc vào số lượng ô trong mỗi chiều trong không gian lượng tử hóa.
Phương pháp dựa trên mô hình
Trong phương pháp này, một mô hình được giả định cho mỗi cụm để tìm ra dữ liệu phù hợp nhất cho một mô hình nhất định. Phương pháp này định vị các cụm bằng cách phân cụm hàm mật độ. Nó phản ánh sự phân bố không gian của các điểm dữ liệu.
Phương pháp này cũng cung cấp một cách để tự động xác định số lượng cụm dựa trên thống kê tiêu chuẩn, có tính đến giá trị ngoại lệ hoặc nhiễu. Do đó, nó mang lại các phương pháp phân cụm mạnh mẽ.
Phương pháp dựa trên ràng buộc
Trong phương pháp này, việc phân cụm được thực hiện bằng cách kết hợp các ràng buộc hướng ứng dụng hoặc người dùng. Một ràng buộc đề cập đến kỳ vọng của người dùng hoặc các thuộc tính của kết quả phân cụm mong muốn. Ràng buộc cung cấp cho chúng tôi một cách giao tiếp tương tác với quy trình phân nhóm. Các ràng buộc có thể được chỉ định bởi người dùng hoặc yêu cầu của ứng dụng.