PyBrain - Veri Kümesi Türleri
Veri kümeleri, ağları test etmek, doğrulamak ve eğitmek için verilecek verilerdir. Kullanılacak veri kümesinin türü, makine öğrenimi ile yapacağımız görevlere bağlıdır. Bu bölümde çeşitli veri kümesi türlerini tartışacağız.
Aşağıdaki paketi ekleyerek veri kümesiyle çalışabiliriz -
pybrain.dataset
Denetlenen Veri Kümesi
Denetlenen Veri Kümesi aşağıdaki alanlardan oluşur: input ve target. Bir veri kümesinin en basit şeklidir ve esas olarak denetimli öğrenme görevleri için kullanılır.
Bunu kodda nasıl kullanabileceğiniz aşağıdadır -
from pybrain.datasets import SupervisedDataSet
SupervisedDataSet'te bulunan yöntemler aşağıdaki gibidir -
addSample (inp, hedef)
Bu yöntem, yeni bir girdi ve hedef örneği ekleyecektir.
splitWithProportion (oran = 0.10)
Bu, veri setlerini iki bölüme ayıracaktır. İlk kısım, girdi olarak verilen veri setinin% 'sine sahip olacaktır, yani giriş .10 ise, o zaman veri setinin% 10'u ve verilerin% 90'ıdır. Orana seçiminize göre karar verebilirsiniz. Bölünmüş veri kümeleri, ağınızı test etmek ve eğitmek için kullanılabilir.
copy() - Veri kümesinin derin bir kopyasını döndürür.
clear() - Veri kümesini temizleyin.
saveToFile (dosya adı, format = Yok, ** kwargs)
Nesneyi dosya adına göre verilen dosyaya kaydedin.
Misal
İşte SupervisedDataset kullanan çalışan bir örnek -
testnetwork.py
from pybrain.tools.shortcuts import buildNetwork
from pybrain.structure import TanhLayer
from pybrain.datasets import SupervisedDataSet
from pybrain.supervised.trainers import BackpropTrainer
# Create a network with two inputs, three hidden, and one output
nn = buildNetwork(2, 3, 1, bias=True, hiddenclass=TanhLayer)
# Create a dataset that matches network input and output sizes:
norgate = SupervisedDataSet(2, 1)
# Create a dataset to be used for testing.
nortrain = SupervisedDataSet(2, 1)
# Add input and target values to dataset
# Values for NOR truth table
norgate.addSample((0, 0), (1,))
norgate.addSample((0, 1), (0,))
norgate.addSample((1, 0), (0,))
norgate.addSample((1, 1), (0,))
# Add input and target values to dataset
# Values for NOR truth table
nortrain.addSample((0, 0), (1,))
nortrain.addSample((0, 1), (0,))
nortrain.addSample((1, 0), (0,))
nortrain.addSample((1, 1), (0,))
#Training the network with dataset norgate.
trainer = BackpropTrainer(nn, norgate)
# will run the loop 1000 times to train it.
for epoch in range(1000):
trainer.train()
trainer.testOnData(dataset=nortrain, verbose = True)
Çıktı
Yukarıdaki programın çıktısı aşağıdaki gibidir -
python testnetwork.py
C:\pybrain\pybrain\src>python testnetwork.py
Testing on data:
('out: ', '[0.887 ]')
('correct:', '[1 ]')
error: 0.00637334
('out: ', '[0.149 ]')
('correct:', '[0 ]')
error: 0.01110338
('out: ', '[0.102 ]')
('correct:', '[0 ]')
error: 0.00522736
('out: ', '[-0.163]')
('correct:', '[0 ]')
error: 0.01328650
('All errors:', [0.006373344564625953, 0.01110338071737218, 0.005227359234093431
, 0.01328649974219942])
('Average error:', 0.008997646064572746)
('Max error:', 0.01328649974219942, 'Median error:', 0.01110338071737218)
Sınıflandırma Veri Kümesi
Bu veri kümesi esas olarak sınıflandırma problemleriyle ilgilenmek için kullanılır. Girdi, hedef alan ve ayrıca verilen hedeflerin otomatik yedeklemesi olan "sınıf" adı verilen ekstra bir alan alır. Örneğin, çıktı 1 veya 0 olacaktır veya çıktı verilen girdiye dayalı değerlerle birlikte gruplanacaktır, yani belirli bir sınıfa girecektir.
İşte kodda nasıl kullanabileceğiniz -
from pybrain.datasets import ClassificationDataSet
Syntax
// ClassificationDataSet(inp, target=1, nb_classes=0, class_labels=None)
ClassificationDataSet üzerinde bulunan yöntemler aşağıdaki gibidir -
addSample(inp, target) - Bu yöntem, yeni bir girdi ve hedef örneği ekleyecektir.
splitByClass() - Bu yöntem iki yeni veri kümesi verecektir, ilk veri kümesinde sınıf seçilecektir (0..nClasses-1), ikincisinde kalan örnekler olacaktır.
_convertToOneOfMany() - Bu yöntem, eski hedefleri bir alan sınıfı olarak koruyarak hedef sınıfları 1-of-k temsiline dönüştürür.
İşte çalışan bir örnek ClassificationDataSet.
Misal
from sklearn import datasets
import matplotlib.pyplot as plt
from pybrain.datasets import ClassificationDataSet
from pybrain.utilities import percentError
from pybrain.tools.shortcuts import buildNetwork
from pybrain.supervised.trainers import BackpropTrainer
from pybrain.structure.modules import SoftmaxLayer
from numpy import ravel
digits = datasets.load_digits()
X, y = digits.data, digits.target
ds = ClassificationDataSet(64, 1, nb_classes=10)
for i in range(len(X)):
ds.addSample(ravel(X[i]), y[i])
test_data_temp, training_data_temp = ds.splitWithProportion(0.25)
test_data = ClassificationDataSet(64, 1, nb_classes=10)
for n in range(0, test_data_temp.getLength()):
test_data.addSample( test_data_temp.getSample(n)[0], test_data_temp.getSample(n)[1] )
training_data = ClassificationDataSet(64, 1, nb_classes=10)
for n in range(0, training_data_temp.getLength()):
training_data.addSample( training_data_temp.getSample(n)[0], training_data_temp.getSample(n)[1] )
test_data._convertToOneOfMany()
training_data._convertToOneOfMany()
net = buildNetwork(training_data.indim, 64, training_data.outdim, outclass=SoftmaxLayer)
trainer = BackpropTrainer(
net, dataset=training_data, momentum=0.1,learningrate=0.01,verbose=True,weightdecay=0.01
)
trnerr,valerr = trainer.trainUntilConvergence(dataset=training_data,maxEpochs=10)
plt.plot(trnerr,'b',valerr,'r')
plt.show()
trainer.trainEpochs(10)
print('Percent Error on testData:',percentError(trainer.testOnClassData(dataset=test_data), test_data['class']))
Yukarıdaki örnekte kullanılan veri kümesi bir rakam veri kümesidir ve sınıflar 0-9 arasındadır, bu nedenle 10 sınıf vardır. Girdi 64, hedef 1 ve sınıflar, 10.
Kod, ağı veri kümesiyle eğitir ve eğitim hatası ve doğrulama hatası için grafiği çıkarır. Ayrıca aşağıdaki gibi test verileri üzerinde yüzde hata verir -
Çıktı
Total error: 0.0432857814358
Total error: 0.0222276374185
Total error: 0.0149012052174
Total error: 0.011876985318
Total error: 0.00939854792853
Total error: 0.00782202445183
Total error: 0.00714707652044
Total error: 0.00606068893793
Total error: 0.00544257958975
Total error: 0.00463929281336
Total error: 0.00441275665294
('train-errors:', '[0.043286 , 0.022228 , 0.014901 , 0.011877 , 0.009399 , 0.007
822 , 0.007147 , 0.006061 , 0.005443 , 0.004639 , 0.004413 ]')
('valid-errors:', '[0.074296 , 0.027332 , 0.016461 , 0.014298 , 0.012129 , 0.009
248 , 0.008922 , 0.007917 , 0.006547 , 0.005883 , 0.006572 , 0.005811 ]')
Percent Error on testData: 3.34075723830735