PyTorch - ชุดข้อมูล

ในบทนี้เราจะเน้นมากขึ้น torchvision.datasetsและประเภทต่างๆ PyTorch ประกอบด้วยตัวโหลดชุดข้อมูลต่อไปนี้ -

  • MNIST
  • COCO (คำบรรยายภาพและการตรวจจับ)

ชุดข้อมูลประกอบด้วยฟังก์ชันส่วนใหญ่สองประเภทที่ระบุด้านล่าง -

  • Transform- ฟังก์ชั่นที่ใช้ในรูปภาพและส่งคืนเวอร์ชันมาตรฐานที่แก้ไขแล้ว สิ่งเหล่านี้สามารถประกอบขึ้นพร้อมกับการแปลงร่าง

  • Target_transform- ฟังก์ชั่นที่ใช้เป้าหมายและแปลงมัน ตัวอย่างเช่นรับสตริงคำอธิบายภาพและส่งกลับค่าดัชนีโลก

MNIST

ต่อไปนี้เป็นโค้ดตัวอย่างสำหรับชุดข้อมูล MNIST -

dset.MNIST(root, train = TRUE, transform = NONE, 
target_transform = None, download = FALSE)

พารามิเตอร์มีดังนี้ -

  • root - ไดเร็กทอรีรากของชุดข้อมูลที่มีข้อมูลที่ประมวลผลแล้ว

  • train - จริง = ชุดการฝึก, เท็จ = ชุดทดสอบ

  • download - True = ดาวน์โหลดชุดข้อมูลจากอินเทอร์เน็ตและวางไว้ในรูท

โกโก้

ต้องติดตั้ง COCO API ตัวอย่างต่อไปนี้ใช้เพื่อสาธิตการใช้งานชุดข้อมูล COCO โดยใช้ PyTorch -

import torchvision.dataset as dset
import torchvision.transforms as transforms
cap = dset.CocoCaptions(root = ‘ dir where images are’, 
annFile = ’json annotation file’,
transform = transforms.ToTensor())
print(‘Number of samples: ‘, len(cap))
print(target)

ผลลัพธ์ที่ได้มีดังนี้ -

Number of samples: 82783
Image Size: (3L, 427L, 640L)