PyTorch - ładowanie danych

PyTorch zawiera pakiet zwany torchvision, który służy do ładowania i przygotowywania zestawu danych. Zawiera dwie podstawowe funkcje, a mianowicie Dataset i DataLoader, które pomagają w transformacji i ładowaniu zestawu danych.

Zestaw danych

Zestaw danych służy do odczytywania i przekształcania punktu danych z danego zestawu danych. Podstawowa składnia do zaimplementowania jest wymieniona poniżej -

trainset = torchvision.datasets.CIFAR10(root = './data', train = True,
   download = True, transform = transform)

DataLoader służy do odtwarzania losowego i wsadowego danych. Może być używany do ładowania danych równolegle z pracownikami wieloprocesorowymi.

trainloader = torch.utils.data.DataLoader(trainset, batch_size = 4,
   shuffle = True, num_workers = 2)

Przykład: ładowanie pliku CSV

Używamy pakietu Python Panda do załadowania pliku csv. Oryginalny plik ma następujący format: (nazwa obrazu, 68 punktów orientacyjnych - każdy punkt orientacyjny ma współrzędne ax, y).

landmarks_frame = pd.read_csv('faces/face_landmarks.csv')

n = 65
img_name = landmarks_frame.iloc[n, 0]
landmarks = landmarks_frame.iloc[n, 1:].as_matrix()
landmarks = landmarks.astype('float').reshape(-1, 2)