Khoa học dữ liệu: Lịch sử sơ khai và hiện đại
Trước khi bắt đầu, hãy định nghĩa một cách lỏng lẻo về Khoa học dữ liệu để thuận tiện.
Khoa học dữ liệu là gì?
Khoa học dữ liệu là
● một khái niệm liên ngành,
● sử dụng bất kỳ phương pháp khoa học nào,
● kết hợp nó với máy tính,
● để tạo ra những hiểu biết sâu sắc,
● từ dữ liệu.
Nhưng tại sao lại là 'Khoa học dữ liệu' ? Ai đã sử dụng thuật ngữ đó đầu tiên? Tất cả bắt đầu từ đâu? Vâng, chúng ta hãy tìm hiểu.
“Sự cám dỗ để hình thành các lý thuyết sớm dựa trên dữ liệu không đầy đủ là tai hại cho nghề nghiệp của chúng tôi.”
— Sherlock Holmes (từ Thung lũng sợ hãi, của Sir Arthur Conan Doyle)
Lịch sử ban đầu
Để dự đoán kết quả từ dữ liệu trước đó luôn rất quan trọng trong chiến tranh, các cuộc thám hiểm thương mại hoặc chẩn đoán y tế; đầu tiên được thực hiện bằng bản năng, sau đó bằng kinh nghiệm và mãi mãi thông qua lĩnh vực Thống kê. Nhưng chỉ đến năm 1962, John Tukey mới mô tả cái mà ông gọi là “Phân tích dữ liệu”. Và trong 12 năm ngắn ngủi, vào năm 1974, Peter Naur đã đề xuất thuật ngữ “Khoa học dữ liệu” như một thuật ngữ thay thế cho khoa học máy tính, sau đó được CF Jeff Wu sử dụng trong một bài giảng như một thuật ngữ thay thế cho thống kê.
Và do đó, sự xuất hiện của một trong những ngành có ảnh hưởng nhất trong khoa học máy tính đã bắt đầu!
● Năm 1992, Đại học Montpellier II đã công nhận Khoa học Dữ liệu là một môn học mới tại một hội nghị chuyên đề về thống kê, hội nghị này kết hợp các khái niệm và nguyên tắc của thống kê và phân tích dữ liệu với điện toán.
● Và vào năm 1996, Liên đoàn các Hiệp hội Phân loại Quốc tế đã coi Khoa học Dữ liệu là một chủ đề độc lập.
“Mọi công ty đều có Dữ liệu lớn trong tương lai và mọi công ty cuối cùng sẽ kinh doanh dữ liệu.”
— Thomas Hayes Davenport
Bây giờ, hầu hết chúng ta sẽ nghĩ rằng đó là câu chuyện, Khoa học dữ liệu đã được xác định và mọi người đã đồng ý và hiểu nó là gì, phải không? Nhưng với một thứ phức tạp và liên ngành như Khoa học dữ liệu, cuộc thảo luận hiếm khi kết thúc!
Năm 1997, CF Jeff Wu một lần nữa đề xuất đổi tên Thống kê thành Khoa học Dữ liệu, lý luận rằng một tiêu đề mới sẽ xóa bỏ các khuôn mẫu. Nhưng vào năm 1998, Hayashi Chikio đã ủng hộ Khoa học dữ liệu như một khái niệm mới, liên ngành với ba khía cạnh: thiết kế, thu thập và phân tích dữ liệu. Có nhiều khía cạnh Hiện đại hơn đối với lịch sử hấp dẫn của Khoa học dữ liệu và chúng tôi sẽ đề cập đến những khía cạnh đó trong các bài viết sau.
Lịch sử hiện đại
Lịch sử hiện đại của môn học yêu thích của chúng tôi cũng sống động như lịch sử thời kỳ đầu, đôi khi còn hơn cả lịch sử sau này!
Câu chuyện của chúng tôi bắt đầu với một trong những tên tuổi lớn trong Khoa học dữ liệu, William Swain Cleveland II, giáo sư Khoa học máy tính và thống kê tại Đại học Purdue.
Giáo sư Cleveland được ghi nhận là người đã định nghĩa và đặt tên cho Khoa học dữ liệu trong một ấn phẩm năm 2001. Nó ủng hộ sự tiến bộ của Thống kê vượt ra ngoài các lĩnh vực lý thuyết và đi vào các khía cạnh kỹ thuật của thế giới thực!
Do đó, cái tên “ Khoa học dữ liệu” đã được sử dụng rộng rãi và nhiều điều đáng chú ý đã xảy ra trong những năm tới, chẳng hạn như
- 2002 — Tạp chí Khoa học Dữ liệu do Ủy ban Khoa học và Công nghệ Dữ liệu ra mắt
- 2003 — Tạp chí Khoa học Dữ liệu do Đại học Columbia thành lập
- 2014 - Phần Học tập Thống kê và Khai thác Dữ liệu của Hiệp hội Thống kê Hoa Kỳ được đổi tên thành Phần về Học tập Thống kê và Khoa học Dữ liệu
Mặc dù vào năm 2008, danh hiệu “Nhà khoa học dữ liệu” chuyên nghiệp đã được trao cho DJ Patil và Jeff Hammerbacher. Năm 2005, “Nhà khoa học dữ liệu” là danh hiệu được Ủy ban khoa học quốc gia sử dụng trong báo cáo “Bộ sưu tập dữ liệu kỹ thuật số tồn tại lâu dài: Kích hoạt nghiên cứu và giáo dục trong thế kỷ 21”. Trong báo cáo, “Nhà khoa học dữ liệu” là một thuật ngữ rộng hơn cho bất kỳ ai có vai trò thu thập dữ liệu kỹ thuật số.
Công việc quyến rũ nhất thế kỷ 21!
Đó là năm 2012, một câu khẩu hiệu đã được đưa ra cho môn học yêu thích của chúng tôi và trở thành một cơn sốt. Các nhà công nghệ DJ Patil và Thomas H. Davenport đã tuyên bố “ Nhà khoa học dữ liệu: Công việc hấp dẫn nhất của thế kỷ 21”.
Ngay cả các tờ báo như New York Times và Boston Globe cũng sử dụng thuật ngữ này. Và một thập kỷ sau, họ tái khẳng định rằng công việc này vẫn phổ biến hơn bao giờ hết với các nhà tuyển dụng!
Vai trò của Nhà khoa học dữ liệu là sử dụng dữ liệu để tìm giải pháp và giúp đưa ra quyết định tốt nhất.
Chà, đó là một hành trình đầy mê hoặc, định nghĩa về Khoa học dữ liệu vẫn là một chủ đề tranh luận giữa các học giả và hiện tại, nó chỉ là một từ thông dụng và hơn thế nữa.
Tôi hy vọng tôi có thể làm cho bạn thấy rằng phạm vi và lĩnh vực của Khoa học dữ liệu rất rộng và các tranh chấp vẫn xảy ra để xác định nó.
Khoa học dữ liệu trùng lặp với một số lĩnh vực Thống kê, Trí tuệ nhân tạo và nhiều ngành khoa học ứng dụng khác và đôi khi các đường này có thể bị mờ, khiến việc khám phá trở nên thú vị hơn!

Được viết bởi,
Ajinkya Deokate của SIAM VIT Bhopal