วิธีแยกชุดข้อมูลที่ไม่สมดุลอย่างถูกต้องซึ่งรวมการทดสอบรถไฟและชุดการตรวจสอบความถูกต้องข้าม

Aug 15 2020

ภาพด้านบนคือสิ่งที่ฉันพยายามทำซ้ำ ฉันไม่รู้ว่าฉันจะไปถูกทางหรือเปล่า ฉันกำลังทำงานกับชุดข้อมูล FakeNewsChallenge และชุดข้อมูลนั้นไม่สมดุลมากและฉันกำลังพยายามทำซ้ำและปรับปรุงวิธีการที่ใช้ในเอกสาร


เห็นด้วย - 7.36%

ไม่เห็นด้วย - 1.68%

สนทนา - 17.82%

ไม่เกี่ยวข้อง - 73.13%

ฉันกำลังแยกข้อมูลด้วยวิธีนี้:

(แยกชุดข้อมูลเป็น 67/33 แยก)

  • ฝึก 67% ทดสอบ 33%

(แยกการฝึกอบรมเพิ่มเติม 80/20 สำหรับการตรวจสอบความถูกต้อง)

  • การฝึกอบรม 80% การตรวจสอบความถูกต้อง 20%

(จากนั้นแยกการฝึกอบรมและการตรวจสอบความถูกต้องโดยใช้ชุดการตรวจสอบไขว้ 3 เท่า)

นอกจากนี้การที่ 1.68% ไม่เห็นด้วยและเห็นด้วยเป็นเรื่องยากมาก


นี่คือจุดที่ฉันมีปัญหาเนื่องจากมันไม่สมเหตุสมผลสำหรับฉัน ชุดการตรวจสอบความถูกต้องที่สร้างขึ้นในการแบ่ง 80/20 ถูกแบ่งชั้นเช่นกันใน 5 เท่าหรือไม่

ที่นี่ฉันอยู่ที่นี่:


แยกข้อมูลออกเป็นชุดฝึก 67% และชุดทดสอบ 33%

x_train1, x_test, y_train1, y_test = train_test_split(x, y, test_size=0.33)

x_train2, x_val, y_train2, y_val = train_test_split(x_train1, y_train1, test_size=0.20)

skf = StratifiedKFold(n_splits=3, shuffle = True)
skf.getn_splits(x_train2, y_train2)

for train_index, test_index in skf.split(x_train2, y_train2):
  x_train_cros, x_test_cros = x_train2[train_index], x_train2[test_index]
  y_train_cros, y_test_cros = y_train2[train_index], y_train[test_index]

ฉันจะเรียกใช้ skf อีกครั้งสำหรับชุดการตรวจสอบความถูกต้องด้วยหรือไม่ ชุดทดสอบการทดสอบจาก skf ที่สร้างขึ้นถูกนำไปใช้ในแบบจำลองลำดับอย่างไร


การอ้างอิงสำหรับวิธีที่ฉันใช้:

ธ ตะ, อัศวินี; ติลักษณ์, ปริยานกา; อาห์ลูวาเลีย, ซิมรัต; and Lohia, Nibrat (2018) "Fake News Detection: A Deep Learning Approach," SMU Data Science Review: Vol. 1: ฉบับที่ 3 ข้อ 10. มีจำหน่ายที่:https://scholar.smu.edu/datasciencereview/vol1/iss3/10

คำตอบ

2 SuryaLohia. Aug 16 2020 at 06:14

คุณต้องเพิ่มพารามิเตอร์อีกหนึ่งตัวในฟังก์ชัน 'train_test_split ()':

x_train1, x_test, y_train1, y_test = train_test_split(x, y, test_size=0.33, stratify = y)

สิ่งนี้จะทำให้คุณมีการกระจายหมวดหมู่เป้าหมายทั้งหมดอย่างเท่าเทียมกัน