วิทยาศาสตร์ข้อมูล: ประวัติศาสตร์ยุคแรกและสมัยใหม่
ก่อนที่เราจะเริ่ม เรามานิยาม Data Science กันก่อนเพื่อความสะดวก
วิทยาศาสตร์ข้อมูลคืออะไร?
วิทยาศาสตร์ข้อมูลคือ
● แนวคิดแบบสหวิทยาการ
● ที่ใช้วิธีการทางวิทยาศาสตร์ใดๆ
● รวมเข้ากับคอมพิวเตอร์
● เพื่อสร้างข้อมูลเชิงลึก
● จากข้อมูล
แต่ทำไมต้อง'วิทยาศาสตร์ข้อมูล' ? ใครเป็นคนใช้คำนั้นก่อน? มันเริ่มต้นที่ไหน? มาดูกันดีกว่า
“การล่อลวงเพื่อสร้างทฤษฎีก่อนวัยอันควรจากข้อมูลที่ไม่เพียงพอคือความหายนะของอาชีพของเรา”
— เชอร์ล็อก โฮล์มส์ (จากหุบเขาแห่งความกลัว โดย เซอร์อาเธอร์ โคนัน ดอยล์)
ประวัติศาสตร์ตอนต้น
การทำนายผลลัพธ์จากข้อมูลก่อนหน้านี้มีความสำคัญเสมอในสงคราม การเดินทางการค้า หรือการวินิจฉัยทางการแพทย์ ทำครั้งแรกโดยสัญชาตญาณจากนั้นด้วยประสบการณ์และตลอดไปในด้านสถิติ แต่ในปี 1962 เท่านั้นที่ John Tukey ได้อธิบายสิ่งที่เขาเรียกว่า "Data Analysis" และในเวลาเพียง 12 ปีสั้นๆ ในปี 1974 Peter Naur ได้เสนอคำว่า “Data Science” เป็นทางเลือกแทนวิทยาการคอมพิวเตอร์ ซึ่งต่อมา CF Jeff Wu นำมาใช้ในการบรรยายเพื่อเป็นทางเลือกแทนสถิติ
และด้วยเหตุนี้การเกิดขึ้นของหนึ่งในสาขาวิชาที่มีอิทธิพลมากที่สุดในวิทยาการคอมพิวเตอร์จึงเริ่มต้นขึ้น!
● ในปี 1992 มหาวิทยาลัย Montpellier II ยอมรับวิทยาศาสตร์ข้อมูลเป็นสาขาวิชาใหม่ในการประชุมทางสถิติ ซึ่งรวมแนวคิดและหลักการของสถิติและการวิเคราะห์ข้อมูลเข้ากับการคำนวณ
● และในปี 1996 International Federation of Classification Societies ได้กำหนดให้วิทยาศาสตร์ข้อมูลเป็นหัวข้ออิสระ
“ทุกบริษัทมี Big Data ในอนาคต และทุกบริษัทก็จะอยู่ในธุรกิจข้อมูลในที่สุด”
— โธมัส เฮย์ส ดาเวนพอร์ต
ตอนนี้ พวกเราส่วนใหญ่คงคิดว่านั่นเป็นเรื่องของเรื่องราว วิทยาศาสตร์ข้อมูลถูกกำหนดไว้แล้ว และทุกคนก็เห็นด้วยและเข้าใจว่ามันคืออะไร จริงไหม? แต่ด้วยบางสิ่งที่ซับซ้อนและเป็นสหวิทยาการอย่าง Data Science การอภิปรายจึงไม่ค่อยจบลง!
ในปี 1997 เจฟฟ์ วู CF เสนออีกครั้งให้เปลี่ยนชื่อสถิติเป็นวิทยาศาสตร์ข้อมูล โดยให้เหตุผลว่าชื่อใหม่จะลบแบบแผน แต่ในปี 1998 Hayashi Chikio สนับสนุนให้ Data Science เป็นแนวคิดใหม่แบบสหวิทยาการที่มี 3 ด้าน ได้แก่ การออกแบบข้อมูล การรวบรวม และการวิเคราะห์ มีแง่มุมที่ทันสมัยอีกมากมายในประวัติศาสตร์ที่น่าสนใจของ Data Science และเราจะกล่าวถึงสิ่งเหล่านั้นในบทความถัดไป
ประวัติศาสตร์สมัยใหม่
ประวัติศาสตร์สมัยใหม่ของระเบียบวินัยที่เราชื่นชอบนั้นมีความชัดเจนพอๆ กับประวัติศาสตร์ยุคแรก บางครั้งก็รุนแรงกว่าประวัติศาสตร์ยุคหลังเสียด้วยซ้ำ!
เรื่องราวของเราเริ่มต้นจากหนึ่งในคนดังในวงการวิทยาศาสตร์ข้อมูล William Swain Cleveland II ศาสตราจารย์ด้านสถิติและวิทยาการคอมพิวเตอร์ที่ Purdue University
ศาสตราจารย์คลีฟแลนด์ได้รับเครดิตจากการให้คำจำกัดความและตั้งชื่อวิทยาศาสตร์ข้อมูลในสิ่งพิมพ์ปี 2544 สนับสนุนความก้าวหน้าของสถิตินอกเหนือจากขอบเขตของทฤษฎีและในด้านเทคนิคของโลกแห่งความเป็นจริง!
ดังนั้นชื่อ “ Data Science”จึงถูกใช้อย่างแพร่หลาย และในปีต่อๆ ไปก็มีเรื่องน่าสังเกตหลายอย่างเกิดขึ้น เช่น
- พ.ศ. 2545 — วารสารวิทยาศาสตร์ข้อมูลเปิดตัวโดยคณะกรรมการวิทยาศาสตร์ข้อมูลและเทคโนโลยี
- 2003 — วารสารวิทยาศาสตร์ข้อมูลที่ก่อตั้งโดยมหาวิทยาลัยโคลัมเบีย
- 2014 — ส่วนการเรียนรู้ทางสถิติและการทำเหมืองข้อมูลของ American Statistical Association เปลี่ยนชื่อเป็น Section on Statistical Learning and Data Science
แม้ว่าในปี 2008 ชื่อของ “Data Scientist” ในฐานะมืออาชีพจะเป็นของ DJ Patil และ Jeff Hammerbacher ในปี 2548 “นักวิทยาศาสตร์ข้อมูล” เป็นชื่อที่คณะกรรมการวิทยาศาสตร์แห่งชาติใช้ในรายงานเรื่อง“Long-Lived Digital Data Collections: Enabling Research and Education in the 21st Century” ในรายงาน"นักวิทยาศาสตร์ข้อมูล"เป็นคำที่กว้างขึ้นสำหรับทุกคนที่มีบทบาทในการรวบรวมข้อมูลดิจิทัล
งานที่เซ็กซี่ที่สุดในศตวรรษที่ 21!
มันเป็นปี 2012 และคำพูดติดปากให้กับวินัยที่เราชื่นชอบและกลายเป็นความรู้สึก นักเทคโนโลยี DJ Patil และ Thomas H. Davenport ประกาศว่า " นักวิทยาศาสตร์ข้อมูล: งานที่เซ็กซี่ที่สุดในศตวรรษที่ 21"
แม้แต่หนังสือพิมพ์เช่น New York Times และ Boston Globe ก็ใช้คำนี้ และหนึ่งทศวรรษต่อมา พวกเขายืนยันว่างานนี้เป็นที่นิยมในหมู่นายจ้างเช่นเคย!
บทบาทของ Data Scientist คือการใช้ข้อมูลเพื่อค้นหาวิธีแก้ปัญหาและช่วยในการตัดสินใจที่ดีที่สุด
เป็นการเดินทางที่น่าตื่นตาตื่นใจ คำจำกัดความของ Data Science ยังคงเป็นหัวข้อถกเถียงในหมู่นักวิชาการ และสำหรับตอนนี้ เป็นเพียงคำศัพท์และอื่นๆ อีกเล็กน้อย
ฉันหวังว่าฉันจะทำให้คุณเห็นว่าขอบเขตและโดเมนของ Data Science นั้นกว้างขวาง และข้อโต้แย้งยังคงเกิดขึ้นเพื่อกำหนดมัน
วิทยาศาสตร์ข้อมูลซ้อนทับกับหลายสาขาของสถิติ ปัญญาประดิษฐ์ และวิทยาศาสตร์ประยุกต์อื่นๆ อีกมากมาย และเส้นแบ่งอาจพร่ามัวในบางครั้ง ทำให้การสำรวจน่าตื่นเต้นยิ่งขึ้น!
เขียนโดย,
อาจิณกยะ ดีโอเกตุแห่งสยามวิทโภปาล