Học máy với Python - Phương pháp

Có nhiều thuật toán, kỹ thuật và phương pháp ML khác nhau có thể được sử dụng để xây dựng các mô hình giải quyết các vấn đề trong cuộc sống thực bằng cách sử dụng dữ liệu. Trong chương này, chúng ta sẽ thảo luận về các loại phương pháp khác nhau.

Các loại phương pháp khác nhau

Sau đây là các phương pháp ML khác nhau dựa trên một số danh mục rộng:

Dựa trên sự giám sát của con người

Trong quá trình học, một số phương pháp dựa trên sự giám sát của con người như sau:

Supervised Learning

Các thuật toán hoặc phương pháp học có giám sát là các thuật toán ML được sử dụng phổ biến nhất. Phương pháp hoặc thuật toán học tập này lấy mẫu dữ liệu tức là dữ liệu đào tạo và kết quả đầu ra liên quan của nó, tức là nhãn hoặc phản hồi với mỗi mẫu dữ liệu trong quá trình đào tạo.

Mục tiêu chính của thuật toán học có giám sát là tìm hiểu mối liên hệ giữa các mẫu dữ liệu đầu vào và đầu ra tương ứng sau khi thực hiện nhiều phiên bản dữ liệu đào tạo.

Ví dụ, chúng tôi có

x: Các biến đầu vào và

Y: Biến đầu ra

Bây giờ, hãy áp dụng một thuật toán để học hàm ánh xạ từ đầu vào đến đầu ra như sau:

Y = f (x)

Bây giờ, mục tiêu chính là xấp xỉ hàm ánh xạ tốt đến mức ngay cả khi chúng ta có dữ liệu đầu vào mới (x), chúng ta có thể dễ dàng dự đoán biến đầu ra (Y) cho dữ liệu đầu vào mới đó.

Nó được gọi là có giám sát bởi vì toàn bộ quá trình học tập có thể được coi như nó đang được giám sát bởi một giáo viên hoặc người giám sát. Ví dụ về thuật toán học máy được giám sát bao gồmDecision tree, Random Forest, KNN, Logistic Regression Vân vân.

Dựa trên các nhiệm vụ ML, các thuật toán học tập có giám sát có thể được chia thành hai lớp sau:

  • Classification
  • Regression

Classification

Mục tiêu chính của các nhiệm vụ dựa trên phân loại là dự đoán các nhãn đầu ra phân loại hoặc phản hồi cho dữ liệu đầu vào nhất định. Đầu ra sẽ dựa trên những gì mô hình đã học được trong giai đoạn đào tạo. Như chúng ta biết rằng các phản hồi đầu ra phân loại có nghĩa là các giá trị không có thứ tự và rời rạc, do đó mỗi phản hồi đầu ra sẽ thuộc về một lớp hoặc danh mục cụ thể. Chúng ta cũng sẽ thảo luận chi tiết về Phân loại và các thuật toán liên quan trong các chương sắp tới.

Regression

Mục tiêu chính của các tác vụ dựa trên hồi quy là dự đoán các nhãn hoặc phản hồi đầu ra là các giá trị số tiếp tục, cho dữ liệu đầu vào đã cho. Đầu ra sẽ dựa trên những gì mô hình đã học được trong giai đoạn đào tạo của nó. Về cơ bản, các mô hình hồi quy sử dụng các đặc trưng dữ liệu đầu vào (các biến độc lập) và các giá trị đầu ra số liên tục tương ứng của chúng (biến phụ thuộc hoặc kết quả) để tìm hiểu mối liên hệ cụ thể giữa đầu vào và đầu ra tương ứng. Chúng tôi cũng sẽ thảo luận chi tiết về hồi quy và các thuật toán liên quan trong các chương tiếp theo.

Học tập không giám sát

Như tên cho thấy, nó đối lập với các phương pháp hoặc thuật toán ML có giám sát, có nghĩa là trong các thuật toán học máy không được giám sát, chúng tôi không có bất kỳ người giám sát nào để cung cấp bất kỳ loại hướng dẫn nào. Các thuật toán học tập không giám sát rất hữu ích trong trường hợp chúng ta không có quyền tự do, giống như trong các thuật toán học tập có giám sát, có dữ liệu đào tạo được gắn nhãn trước và chúng ta muốn trích xuất mẫu hữu ích từ dữ liệu đầu vào.

Ví dụ, có thể hiểu như sau:

Giả sử chúng ta có -

x: Input variables, khi đó sẽ không có biến đầu ra tương ứng và các thuật toán cần khám phá ra mô hình thú vị trong dữ liệu để học.

Ví dụ về các thuật toán học máy không được giám sát bao gồm phân cụm K-mean, K-nearest neighbors Vân vân.

Dựa trên các nhiệm vụ ML, các thuật toán học tập không giám sát có thể được chia thành các lớp rộng sau:

  • Clustering
  • Association
  • Giảm kích thước

Clustering

Các phương pháp phân cụm là một trong những phương pháp ML không giám sát hữu ích nhất. Các thuật toán này được sử dụng để tìm sự giống nhau cũng như các mẫu mối quan hệ giữa các mẫu dữ liệu và sau đó phân cụm các mẫu đó thành các nhóm có sự tương đồng dựa trên các tính năng. Ví dụ thực tế về phân nhóm là nhóm các khách hàng theo hành vi mua hàng của họ.

Association

Một phương pháp ML không giám sát hữu ích khác là Associationđược sử dụng để phân tích tập dữ liệu lớn để tìm ra các mẫu biểu thị thêm các mối quan hệ thú vị giữa các mục khác nhau. Nó cũng được gọi làAssociation Rule Mining hoặc là Market basket analysis được sử dụng chủ yếu để phân tích các mô hình mua sắm của khách hàng.

Dimensionality Reduction

Phương pháp ML không giám sát này được sử dụng để giảm số lượng biến đặc trưng cho mỗi mẫu dữ liệu bằng cách chọn tập hợp các đặc trưng chính hoặc đại diện. Một câu hỏi được đặt ra ở đây là tại sao chúng ta cần giảm kích thước? Lý do đằng sau là vấn đề phức tạp về không gian đối tượng nảy sinh khi chúng tôi bắt đầu phân tích và trích xuất hàng triệu đối tượng từ các mẫu dữ liệu. Vấn đề này thường đề cập đến "lời nguyền về chiều". PCA (Phân tích thành phần chính), K-láng giềng gần nhất và phân tích phân biệt là một số thuật toán phổ biến cho mục đích này.

Anomaly Detection

Phương pháp ML không giám sát này được sử dụng để tìm ra sự xuất hiện của các sự kiện hiếm gặp hoặc quan sát thường không xảy ra. Bằng cách sử dụng kiến ​​thức đã học, các phương pháp phát hiện điểm bất thường sẽ có thể phân biệt điểm dữ liệu bất thường hay điểm bình thường. Một số thuật toán không được giám sát như phân cụm, KNN có thể phát hiện sự bất thường dựa trên dữ liệu và các tính năng của nó.

Học tập bán giám sát

Các loại thuật toán hoặc phương pháp như vậy không được giám sát đầy đủ hoặc không được giám sát hoàn toàn. Về cơ bản chúng nằm giữa hai phương pháp học có giám sát và không giám sát. Các loại thuật toán này thường sử dụng thành phần học tập có giám sát nhỏ, tức là một lượng nhỏ dữ liệu được chú thích được gắn nhãn trước và thành phần học tập không được giám sát lớn tức là rất nhiều dữ liệu không được gắn nhãn để huấn luyện. Chúng ta có thể làm theo bất kỳ phương pháp nào sau đây để triển khai phương pháp học bán giám sát -

  • Cách tiếp cận đầu tiên và đơn giản là xây dựng mô hình được giám sát dựa trên một lượng nhỏ dữ liệu được gắn nhãn và chú thích, sau đó xây dựng mô hình không được giám sát bằng cách áp dụng điều tương tự cho một lượng lớn dữ liệu không được gắn nhãn để có được nhiều mẫu được gắn nhãn hơn. Bây giờ, đào tạo mô hình trên chúng và lặp lại quy trình.

  • Cách tiếp cận thứ hai cần thêm một số nỗ lực. Trong cách tiếp cận này, trước tiên chúng ta có thể sử dụng các phương pháp không được giám sát để phân cụm các mẫu dữ liệu tương tự, chú thích các nhóm này và sau đó sử dụng kết hợp thông tin này để đào tạo mô hình.

Học tăng cường

Các phương pháp này khác với các phương pháp đã nghiên cứu trước đây và cũng rất hiếm khi được sử dụng. Trong loại thuật toán học tập này, sẽ có một tác nhân mà chúng tôi muốn đào tạo trong một khoảng thời gian để nó có thể tương tác với một môi trường cụ thể. Tác nhân sẽ tuân theo một tập hợp các chiến lược để tương tác với môi trường và sau đó sau khi quan sát môi trường, tác nhân sẽ thực hiện các hành động liên quan đến tình trạng hiện tại của môi trường. Sau đây là các bước chính của phương pháp học củng cố -

  • Step 1 - Đầu tiên, chúng ta cần chuẩn bị cho đại lý một số chiến lược đặt ra ban đầu.

  • Step 2 - Sau đó quan sát môi trường và hiện trạng của nó.

  • Step 3 - Tiếp theo, chọn chính sách tối ưu liên quan đến tình trạng hiện tại của môi trường và thực hiện hành động quan trọng.

  • Step 4 - Bây giờ, đại lý có thể nhận được phần thưởng hoặc hình phạt tương ứng theo hành động của nó ở bước trước.

  • Step 5 - Bây giờ, chúng tôi có thể cập nhật các chiến lược nếu nó được yêu cầu.

  • Step 6 - Cuối cùng, lặp lại các bước 2-5 cho đến khi đại lý tìm hiểu và áp dụng các chính sách tối ưu.

Các nhiệm vụ phù hợp với học máy

Sơ đồ sau đây cho thấy loại nhiệm vụ nào thích hợp cho các vấn đề ML khác nhau -

Dựa trên khả năng học tập

Trong quá trình học, sau đây là một số phương pháp dựa trên năng lực học tập -

Batch Learning

Trong nhiều trường hợp, chúng tôi có các hệ thống Học máy end-to-end trong đó chúng tôi cần đào tạo mô hình trong một lần bằng cách sử dụng toàn bộ dữ liệu đào tạo có sẵn. Loại phương pháp học hoặc thuật toán như vậy được gọi làBatch or Offline learning. Nó được gọi là học Batch hoặc Offline vì nó là một thủ tục một lần và mô hình sẽ được đào tạo với dữ liệu trong một đợt duy nhất. Sau đây là các bước chính của phương pháp học theo lô -

  • Step 1 - Đầu tiên, chúng ta cần thu thập tất cả dữ liệu huấn luyện để bắt đầu huấn luyện mô hình.

  • Step 2 - Bây giờ, hãy bắt đầu đào tạo mô hình bằng cách cung cấp toàn bộ dữ liệu đào tạo trong một lần.

  • Step 3 - Tiếp theo, dừng quá trình học tập / đào tạo khi bạn đã đạt được kết quả / hiệu suất làm việc đạt yêu cầu.

  • Step 4- Cuối cùng là triển khai mô hình đã được đào tạo này vào sản xuất. Tại đây, nó sẽ dự đoán đầu ra cho mẫu dữ liệu mới.

Học trực tuyến

Nó hoàn toàn ngược lại với phương pháp học theo lô hay học offline. Trong các phương pháp học tập này, dữ liệu huấn luyện được cung cấp theo nhiều lô tăng dần, được gọi là lô nhỏ, cho thuật toán. Sau đây là các bước chính của phương pháp học Online -

  • Step 1 - Đầu tiên, chúng ta cần thu thập tất cả các dữ liệu huấn luyện để bắt đầu huấn luyện mô hình.

  • Step 2 - Bây giờ, hãy bắt đầu đào tạo mô hình bằng cách cung cấp một lô nhỏ dữ liệu đào tạo cho thuật toán.

  • Step 3 - Tiếp theo, chúng ta cần cung cấp các lô nhỏ dữ liệu huấn luyện theo nhiều bước cho thuật toán.

  • Step 4 - Vì nó sẽ không dừng lại giống như học theo lô, do đó sau khi cung cấp toàn bộ dữ liệu đào tạo trong các lô nhỏ, hãy cung cấp các mẫu dữ liệu mới cho nó.

  • Step 5 - Cuối cùng, nó sẽ tiếp tục học hỏi trong một khoảng thời gian dựa trên các mẫu dữ liệu mới.

Dựa trên Cách tiếp cận Tổng quát

Trong quá trình học, sau đây là một số phương pháp dựa trên cách tiếp cận tổng quát hóa:

Học tập dựa trên phiên bản

Phương pháp học tập dựa trên phiên bản là một trong những phương pháp hữu ích để xây dựng các mô hình ML bằng cách tổng quát hóa dựa trên dữ liệu đầu vào. Nó đối lập với các phương pháp học tập đã nghiên cứu trước đây ở chỗ loại học tập này liên quan đến các hệ thống ML cũng như các phương pháp sử dụng chính các điểm dữ liệu thô để rút ra kết quả cho các mẫu dữ liệu mới hơn mà không cần xây dựng một mô hình rõ ràng về dữ liệu đào tạo.

Nói một cách dễ hiểu, học dựa trên phiên bản về cơ bản bắt đầu hoạt động bằng cách xem xét các điểm dữ liệu đầu vào và sau đó sử dụng một số liệu tương tự, nó sẽ khái quát hóa và dự đoán các điểm dữ liệu mới.

Học tập dựa trên mô hình

Trong phương pháp học dựa trên mô hình, một quá trình lặp lại diễn ra trên các mô hình ML được xây dựng dựa trên các tham số mô hình khác nhau, được gọi là siêu tham số và trong đó dữ liệu đầu vào được sử dụng để trích xuất các tính năng. Trong bài học này, các siêu tham số được tối ưu hóa dựa trên các kỹ thuật xác nhận mô hình khác nhau. Đó là lý do tại sao chúng ta có thể nói rằng phương pháp học tập dựa trên Mô hình sử dụng cách tiếp cận ML truyền thống hơn theo hướng tổng quát hóa.