Phân tích dữ liệu lớn - Nhà khoa học dữ liệu
Vai trò của một nhà khoa học dữ liệu thường gắn liền với các nhiệm vụ như mô hình dự đoán, phát triển các thuật toán phân đoạn, hệ thống khuyến nghị, khung thử nghiệm A / B và thường làm việc với dữ liệu không có cấu trúc thô.
Bản chất công việc của họ đòi hỏi sự hiểu biết sâu sắc về toán học, thống kê ứng dụng và lập trình. Có một số kỹ năng phổ biến giữa một nhà phân tích dữ liệu và một nhà khoa học dữ liệu, ví dụ, khả năng truy vấn cơ sở dữ liệu. Cả hai đều phân tích dữ liệu, nhưng quyết định của một nhà khoa học dữ liệu có thể có tác động lớn hơn trong một tổ chức.
Đây là một tập hợp các kỹ năng mà một nhà khoa học dữ liệu thường cần phải có:
- Lập trình trong một gói thống kê như: R, Python, SAS, SPSS hoặc Julia
- Có thể làm sạch, trích xuất và khám phá dữ liệu từ các nguồn khác nhau
- Nghiên cứu, thiết kế và triển khai các mô hình thống kê
- Kiến thức sâu về thống kê, toán học và khoa học máy tính
Trong phân tích dữ liệu lớn, mọi người thường nhầm lẫn vai trò của một nhà khoa học dữ liệu với vai trò của một kiến trúc sư dữ liệu. Trong thực tế, sự khác biệt là khá đơn giản. Một kiến trúc sư dữ liệu xác định các công cụ và kiến trúc mà dữ liệu sẽ được lưu trữ, trong khi một nhà khoa học dữ liệu sử dụng kiến trúc này. Tất nhiên, một nhà khoa học dữ liệu sẽ có thể thiết lập các công cụ mới nếu cần cho các dự án đặc biệt, nhưng định nghĩa và thiết kế cơ sở hạ tầng không nên là một phần nhiệm vụ của anh ta.