Phân tích dữ liệu lớn - Định nghĩa vấn đề
Thông qua hướng dẫn này, chúng tôi sẽ phát triển một dự án. Mỗi chương tiếp theo trong hướng dẫn này đề cập đến một phần của dự án lớn hơn trong phần dự án nhỏ. Đây được cho là một phần hướng dẫn áp dụng sẽ cung cấp khả năng tiếp xúc với một vấn đề trong thế giới thực. Trong trường hợp này, chúng ta sẽ bắt đầu với định nghĩa vấn đề của dự án.
mô tả dự án
Mục tiêu của dự án này là phát triển một mô hình học máy để dự đoán mức lương theo giờ của những người sử dụng văn bản sơ yếu lý lịch (CV) của họ làm đầu vào.
Sử dụng khung được định nghĩa ở trên, việc xác định vấn đề rất đơn giản. Chúng ta có thể định nghĩa X = {x 1 , x 2 ,…, x n } là CV của người dùng, trong đó mỗi tính năng có thể, theo cách đơn giản nhất có thể, số lần từ này xuất hiện. Sau đó, phản hồi có giá trị thực, chúng tôi đang cố gắng dự đoán mức lương hàng giờ của các cá nhân bằng đô la.
Hai cân nhắc này đủ để kết luận rằng vấn đề được trình bày có thể được giải quyết bằng một thuật toán hồi quy có giám sát.
Định nghĩa vấn đề
Problem Definitioncó lẽ là một trong những giai đoạn phức tạp nhất và bị bỏ quên nhiều trong quy trình phân tích dữ liệu lớn. Để xác định vấn đề mà một sản phẩm dữ liệu sẽ giải quyết, kinh nghiệm là bắt buộc. Hầu hết những người tham gia vào nhà khoa học dữ liệu đều có ít hoặc không có kinh nghiệm trong giai đoạn này.
Hầu hết các vấn đề về dữ liệu lớn có thể được phân loại theo những cách sau:
- Phân loại có giám sát
- Hồi quy có giám sát
- Học tập không giám sát
- Học cách xếp hạng
Bây giờ chúng ta hãy tìm hiểu thêm về bốn khái niệm này.
Phân loại được giám sát
Cho một ma trận gồm các đặc điểm X = {x 1 , x 2 , ..., x n } chúng ta phát triển một mô hình M để dự đoán các lớp khác nhau được định nghĩa là y = {c 1 , c 2 , ..., c n } . Ví dụ: Với dữ liệu giao dịch của khách hàng trong một công ty bảo hiểm, có thể phát triển một mô hình dự đoán liệu khách hàng có bỏ cuộc hay không. Sau đó là bài toán phân loại nhị phân, trong đó có hai lớp hoặc biến đích: churn và not churn.
Các vấn đề khác liên quan đến việc dự đoán nhiều hơn một lớp, chúng tôi có thể quan tâm đến việc thực hiện nhận dạng chữ số, do đó vectơ phản hồi sẽ được xác định là: y = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} , một mô hình hiện đại nhất sẽ là mạng nơ-ron tích tụ và ma trận các đặc trưng sẽ được xác định là các pixel của hình ảnh.
Hồi quy được giám sát
Trong trường hợp này, định nghĩa vấn đề khá giống với ví dụ trước; sự khác biệt phụ thuộc vào phản ứng. Trong một bài toán hồi quy, phản hồi y ∈ ℜ, điều này có nghĩa là phản hồi có giá trị thực. Ví dụ: chúng tôi có thể phát triển một mô hình để dự đoán mức lương theo giờ của các cá nhân được cung cấp trong bản CV của họ.
Học tập không giám sát
Ban quản lý thường khát khao những hiểu biết mới. Mô hình phân khúc có thể cung cấp thông tin chi tiết này để bộ phận tiếp thị phát triển sản phẩm cho các phân khúc khác nhau. Một cách tiếp cận tốt để phát triển mô hình phân đoạn, thay vì nghĩ đến các thuật toán, là chọn các tính năng có liên quan đến phân đoạn mà bạn mong muốn.
Ví dụ, trong một công ty viễn thông, thật thú vị khi phân khúc khách hàng theo mức độ sử dụng điện thoại di động của họ. Điều này sẽ liên quan đến việc bỏ qua các tính năng không liên quan gì đến mục tiêu phân đoạn và chỉ bao gồm những tính năng có liên quan. Trong trường hợp này, điều này sẽ chọn các tính năng như số lượng SMS được sử dụng trong một tháng, số phút đi và đến, v.v.
Học cách xếp hạng
Bài toán này có thể được coi là một bài toán hồi quy, nhưng nó có những đặc điểm riêng và đáng được xử lý riêng. Vấn đề liên quan đến việc đưa ra một bộ sưu tập tài liệu mà chúng tôi tìm cách tìm thứ tự phù hợp nhất cho một truy vấn. Để phát triển một thuật toán học có giám sát, cần phải gắn nhãn mức độ liên quan của một thứ tự, cho một truy vấn.
Cần lưu ý rằng để phát triển một thuật toán học có giám sát, cần phải gắn nhãn dữ liệu đào tạo. Điều này có nghĩa là để đào tạo một mô hình, ví dụ, sẽ nhận ra các chữ số từ một hình ảnh, chúng ta cần phải dán nhãn một lượng đáng kể các ví dụ bằng tay. Có những dịch vụ web có thể tăng tốc quá trình này và thường được sử dụng cho tác vụ này, chẳng hạn như amazon Mechanical turk. Người ta đã chứng minh rằng các thuật toán học tập cải thiện hiệu suất của chúng khi được cung cấp nhiều dữ liệu hơn, vì vậy việc gắn nhãn cho một lượng ví dụ phù hợp là thực tế bắt buộc trong học tập có giám sát.