การวิเคราะห์ข้อมูลขนาดใหญ่ - การกำหนดปัญหา

เราจะพัฒนาโครงการผ่านบทช่วยสอนนี้ แต่ละบทที่ตามมาในบทช่วยสอนนี้เกี่ยวข้องกับส่วนหนึ่งของโครงการขนาดใหญ่ในส่วนโครงการขนาดเล็ก นี่เป็นส่วนบทช่วยสอนที่ประยุกต์ใช้ซึ่งจะช่วยให้คุณได้พบกับปัญหาในโลกแห่งความเป็นจริง ในกรณีนี้เราจะเริ่มต้นด้วยการกำหนดปัญหาของโครงการ

คำอธิบายโครงการ

โครงการนี้มีวัตถุประสงค์เพื่อพัฒนารูปแบบการเรียนรู้ของเครื่องเพื่อทำนายเงินเดือนรายชั่วโมงของผู้คนโดยใช้ข้อความประวัติย่อ (CV) เป็นข้อมูลป้อนเข้า

การใช้กรอบที่กำหนดไว้ข้างต้นการกำหนดปัญหานั้นเป็นเรื่องง่าย เราสามารถกำหนดX = {x 1 , x 2 , …, x n }เป็น CV ของผู้ใช้โดยที่แต่ละฟีเจอร์สามารถเป็นจำนวนครั้งที่คำนี้ปรากฏได้อย่างง่ายที่สุด จากนั้นคำตอบนั้นมีมูลค่าจริงเราพยายามคาดการณ์เงินเดือนรายชั่วโมงของแต่ละบุคคลเป็นดอลลาร์

ข้อพิจารณาทั้งสองนี้เพียงพอที่จะสรุปได้ว่าปัญหาที่นำเสนอสามารถแก้ไขได้ด้วยอัลกอริธึมการถดถอยภายใต้การดูแล

การกำหนดปัญหา

Problem Definitionอาจเป็นหนึ่งในขั้นตอนที่ซับซ้อนและถูกละเลยอย่างมากในไปป์ไลน์การวิเคราะห์ข้อมูลขนาดใหญ่ ในการกำหนดปัญหาที่ผลิตภัณฑ์ข้อมูลจะแก้ไขได้จำเป็นต้องมีประสบการณ์ นักวิทยาศาสตร์ข้อมูลส่วนใหญ่มีประสบการณ์น้อยหรือไม่มีเลยในขั้นตอนนี้

ปัญหาข้อมูลขนาดใหญ่ส่วนใหญ่สามารถแบ่งประเภทได้ดังต่อไปนี้ -

  • การจัดหมวดหมู่ภายใต้การดูแล
  • การถดถอยภายใต้การดูแล
  • การเรียนรู้ที่ไม่มีผู้ดูแล
  • เรียนรู้การจัดอันดับ

ตอนนี้ให้เราเรียนรู้เพิ่มเติมเกี่ยวกับแนวคิดทั้งสี่นี้

การจัดประเภทภายใต้การดูแล

กำหนดเมทริกซ์ของคุณลักษณะX = {x 1 , x 2 , ... , x n }เราพัฒนารุ่น M ที่จะคาดการณ์เรียนแตกต่างกันกำหนดเป็นY = {C 12 , ... , คn } ตัวอย่างเช่นจากข้อมูลการทำธุรกรรมของลูกค้าใน บริษัท ประกันภัยมีความเป็นไปได้ที่จะพัฒนารูปแบบที่จะทำนายว่าลูกค้าจะเลิกจ้างหรือไม่ ปัญหาหลังเป็นปัญหาการจัดประเภทไบนารีซึ่งมีสองคลาสหรือตัวแปรเป้าหมาย: ปั่นและไม่ปั่น

ปัญหาอื่น ๆ ที่เกี่ยวข้องกับการทำนายมากกว่าหนึ่งคลาสเราอาจสนใจที่จะทำการจดจำตัวเลขดังนั้นเวกเตอร์การตอบสนองจะถูกกำหนดเป็น: y = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}แบบจำลองที่ล้ำสมัยจะเป็นโครงข่ายประสาทเทียมแบบ Convolutional และเมทริกซ์ของคุณสมบัติจะถูกกำหนดให้เป็นพิกเซลของภาพ

การถดถอยภายใต้การดูแล

ในกรณีนี้นิยามปัญหาค่อนข้างคล้ายกับตัวอย่างก่อนหน้านี้ ความแตกต่างขึ้นอยู่กับการตอบสนอง ในปัญหาการถดถอยการตอบสนอง y ∈ℜซึ่งหมายความว่าการตอบสนองนั้นมีมูลค่าจริง ตัวอย่างเช่นเราสามารถพัฒนาแบบจำลองเพื่อคาดคะเนเงินเดือนรายชั่วโมงของบุคคลที่ได้รับจากคลังข้อมูลประวัติย่อของพวกเขา

การเรียนรู้ที่ไม่มีผู้ดูแล

ผู้บริหารมักกระหายข้อมูลเชิงลึกใหม่ ๆ โมเดลการแบ่งกลุ่มสามารถให้ข้อมูลเชิงลึกนี้เพื่อให้ฝ่ายการตลาดพัฒนาผลิตภัณฑ์สำหรับกลุ่มต่างๆ แนวทางที่ดีในการพัฒนารูปแบบการแบ่งกลุ่มแทนที่จะนึกถึงอัลกอริทึมคือการเลือกคุณลักษณะที่เกี่ยวข้องกับการแบ่งส่วนที่ต้องการ

ตัวอย่างเช่นใน บริษัท โทรคมนาคมการแบ่งกลุ่มลูกค้าตามการใช้งานโทรศัพท์มือถือเป็นเรื่องน่าสนใจ สิ่งนี้จะเกี่ยวข้องกับการเพิกเฉยต่อคุณลักษณะที่ไม่มีส่วนเกี่ยวข้องกับวัตถุประสงค์การแบ่งส่วนและรวมเฉพาะคุณลักษณะที่ทำ ในกรณีนี้จะเป็นการเลือกคุณลักษณะต่างๆเช่นจำนวน SMS ที่ใช้ในหนึ่งเดือนจำนวนนาทีขาเข้าและขาออกเป็นต้น

เรียนรู้การจัดอันดับ

ปัญหานี้ถือได้ว่าเป็นปัญหาการถดถอย แต่มีลักษณะเฉพาะและสมควรได้รับการรักษาแยกต่างหาก ปัญหาเกี่ยวข้องกับการรวบรวมเอกสารที่เราพยายามค้นหาคำสั่งซื้อที่เกี่ยวข้องมากที่สุดจากการสอบถาม ในการพัฒนาอัลกอริทึมการเรียนรู้ภายใต้การดูแลจำเป็นต้องติดป้ายกำกับว่าการสั่งซื้อมีความเกี่ยวข้องเพียงใดโดยระบุข้อความค้นหา

โปรดทราบว่าในการพัฒนาอัลกอริทึมการเรียนรู้ภายใต้การดูแลจำเป็นต้องติดป้ายกำกับข้อมูลการฝึกอบรม ซึ่งหมายความว่าในการฝึกโมเดลที่จะจดจำตัวเลขจากรูปภาพเราจำเป็นต้องติดป้ายกำกับตัวอย่างจำนวนมากด้วยมือ มีบริการเว็บที่สามารถเร่งกระบวนการนี้และมักใช้สำหรับงานนี้เช่น amazon mechanical turk ได้รับการพิสูจน์แล้วว่าอัลกอริทึมการเรียนรู้ช่วยเพิ่มประสิทธิภาพเมื่อได้รับข้อมูลมากขึ้นดังนั้นการติดฉลากตัวอย่างจำนวนมากจึงเป็นข้อบังคับในทางปฏิบัติในการเรียนรู้ภายใต้การดูแล