การวิเคราะห์ข้อมูลขนาดใหญ่ - นักวิทยาศาสตร์ข้อมูล

โดยปกติบทบาทของนักวิทยาศาสตร์ข้อมูลจะเกี่ยวข้องกับงานต่างๆเช่นการสร้างแบบจำลองเชิงคาดการณ์การพัฒนาอัลกอริธึมการแบ่งกลุ่มระบบผู้แนะนำกรอบการทดสอบ A / B และมักจะทำงานกับข้อมูลดิบที่ไม่มีโครงสร้าง

ลักษณะงานของพวกเขาต้องการความเข้าใจอย่างลึกซึ้งเกี่ยวกับคณิตศาสตร์สถิติประยุกต์และการเขียนโปรแกรม มีทักษะบางอย่างที่พบบ่อยระหว่างนักวิเคราะห์ข้อมูลและนักวิทยาศาสตร์ข้อมูลตัวอย่างเช่นความสามารถในการสืบค้นฐานข้อมูล ทั้งสองวิเคราะห์ข้อมูล แต่การตัดสินใจของนักวิทยาศาสตร์ข้อมูลอาจส่งผลกระทบมากกว่าในองค์กร

นี่คือชุดทักษะที่นักวิทยาศาสตร์ข้อมูลจำเป็นต้องมี -

  • การเขียนโปรแกรมในแพ็คเกจทางสถิติเช่น R, Python, SAS, SPSS หรือ Julia
  • สามารถทำความสะอาดแยกและสำรวจข้อมูลจากแหล่งต่างๆ
  • การวิจัยออกแบบและการใช้แบบจำลองทางสถิติ
  • ความรู้เชิงลึกทางสถิติคณิตศาสตร์และวิทยาศาสตร์คอมพิวเตอร์

ในการวิเคราะห์ข้อมูลขนาดใหญ่โดยปกติผู้คนมักสับสนระหว่างบทบาทของนักวิทยาศาสตร์ข้อมูลกับสถาปนิกข้อมูล ในความเป็นจริงความแตกต่างนั้นค่อนข้างง่าย สถาปนิกข้อมูลเป็นผู้กำหนดเครื่องมือและสถาปัตยกรรมที่ข้อมูลจะถูกเก็บไว้ในขณะที่นักวิทยาศาสตร์ข้อมูลใช้สถาปัตยกรรมนี้ แน่นอนว่านักวิทยาศาสตร์ข้อมูลควรสามารถตั้งค่าเครื่องมือใหม่ ๆ ได้หากจำเป็นสำหรับโครงการเฉพาะกิจ แต่คำจำกัดความและการออกแบบโครงสร้างพื้นฐานไม่ควรเป็นส่วนหนึ่งของงานของเขา