Makine öğrenimi modeli ile işlev arasındaki temel fark nedir?
Bir model , kabaca bir makine öğrenimi görevini çözebilen herhangi bir tasarım olarak tanımlanabilir. Modellere örnek olarak sinir ağı, karar ağacı, Markov ağı vb. Verilebilir.
Bir işlev , etki alanından eş etki alanına / aralığa kadar birden çoğa özelliğe sahip sıralı çiftler kümesi olarak tanımlanabilir.
Biçimsel olarak aralarındaki temel fark nedir?
Yanıtlar
Bu tüm durumlar için geçerli olmasa da, bir modeli bir işlevler kümesi olarak düşünmeyi seviyorum, işte fark burada.
Bu tanım neden faydalıdır? Bir vektör parametresi olan bir sinir ağı düşünürseniz$\theta \in \mathbb{R}^m$bir model olarak, bu parametrelerin belirli bir kombinasyonu belirli bir işlevi temsil eder. Örneğin, 2 girişli, 1 gizli nöronlu (ReLU aktivasyon fonksiyonuna sahip bir sinir ağımız olduğunu varsayalım.$\phi$girişlerin doğrusal bir kombinasyonunu takip eden) ve 1 çıkış nöronu (sigmoid aktivasyon fonksiyonu ile, $\sigma$). Girişler tek gizli birime bağlıdır ve bu bağlantıların gerçek değerli bir ağırlığı vardır. Önyargıları yok sayarsak, parametre vektöründe gruplandırılabilecek 3 parametre vardır.$\theta = [\theta_1, \theta_2, \theta_3] \in \mathbb{R}^3 $. Rasgele fonksiyonu, bu sinir ağı, aşağıdaki gibi tanımlanabilir temsil ettiği
$$ f(x_1, x_2) = \sigma (\theta_3 \phi(x_1 \theta_1 + x_2 \theta_2)) \tag{1}\label{1}, $$
Bu durumda, \ ref {1} denklemi, parametre alanı verildiğinde modeli temsil eder $\Theta = \mathbb{R}^3$. Herhangi bir belirli değerler için$\theta_1, \theta_2,$ ve $\theta_3$ alabilir, belirli (deterministik) bir fonksiyonumuz var $f: \mathbb{R} \rightarrow [0, 1]$.
Örneğin, $\theta = [0.2, 10, 0.4]$ belirli bir işlevi temsil eder, yani
$$ f(x_1, x_2) = \sigma (0.4 \phi(x_1 0.2 + x_2 10.0)) $$Nasıl göründüğünü görmek için bu işlevi (Matplotlib ile) girdilerin bazı değerleri için çizebilirsiniz. Bunu not et$x_1$ ve $x_2$ keyfi olabilir (çünkü bunlar, gerçek sayılar olduğunu varsaydığım girdilerdir).
Bir modelin bu yorumu , esasen bir dizi işlev olan hesaplamalı öğrenme teorisindeki bir hipotez sınıfının (veya uzamının) tanımı ile tutarlıdır . Bu yorum aynı zamanda sinir ağları için evrensel yaklaşım teoremleri ile de tutarlıdır; bu teoremler , belirli bir dizi parametre bulabileceğinizi belirtir, öyle ki, bazı koşullar karşılandığında, belirli bir fonksiyonu keyfi olarak iyi bir şekilde hesaplayabilirsiniz. Bu yorum aynı zamanda karar ağaçları, HMM, RNN'ler ve tüm bu ML modellerine de uygulanabilir.
Model terimi ayrıca bazen, örneğin, pekiştirmeli öğrenme bağlamında bir olasılık dağılımına atıfta bulunmak için kullanılır. $p(s', r \mid s, a)$ sonraki durum üzerindeki olasılık dağılımı $s'$ ve ödül $r$ mevcut durum verildiğinde $s$ ve aksiyon $a$ o durumda alınmış $s$. Daha fazla ayrıntı için bu soruyu kontrol edin . Bir olasılık dağılımı aynı zamanda (muhtemelen sonsuz büyüklükte) bir fonksiyonlar kümesi olarak da düşünülebilir, ancak bu sadece bir fonksiyonlar kümesi değildir, çünkü bir olasılık dağılımından da örnekleme yapabilirsiniz (yani, bir olasılık dağılımıyla ilişkili bazı stokastisite vardır). Dolayısıyla, bir olasılık dağılımı istatistiksel bir model olarak düşünülebilir veya onu temsil etmek için kullanılabilir. Bu yanıtı kontrol edin .
Herhangi bir model bir işlev olarak düşünülebilir. "Model" terimi, belirli bir şekilde, yani ilgili başka bir işlevi yaklaşık olarak kullanmak için kullanılan bir işlevi belirtir.
Basit bir ifadeyle, bir sinir ağı modeli , hipotez fonksiyonunun eğrisine uymaya çalışan bir fonksiyon yaklaştırıcısıdır . Bir fonksiyonun kendisinin sabit bir eğri oluşturacak bir denklemi vardır:

Denkleme sahipsek (yani fonksiyon), girdi verileri için sinir ağına ihtiyacımız yoktur. Bununla birlikte, eğrisinin (veya girdi ve çıktı verilerinin) sadece bir miktar fikrine sahip olduğumuzda, bir fonksiyon yaklaşımlayıcı ararız, böylece yeni, görünmeyen girdi verileri için çıktı üretebiliriz.
Bu sinir ağını eğitmek, orijinaline (bilinmeyen işleve) olabildiğince yaklaşmakla ilgilidir.
Her model bir işlevdir. Her işlev bir model değildir.
Bir işlev, bazı kümelerin öğelerini başka bir kümenin öğeleriyle, muhtemelen aynı kümeyle benzersiz şekilde eşler.
Her yapay zeka modeli bir işlevdir çünkü bilgisayar programları olarak uygulanırlar ve her bilgisayar programı, bellekteki bit dizisinin ve program başlangıcında depolamanın kombinasyonunu, artı girdileri bellekteki ve depolamadaki bit dizisine benzersiz bir şekilde eşleyen bir işlevdir. , artı çıktı, program sonlandırıldığında.
Bununla birlikte, bir 'model' çok spesifik olarak bir şeyin temsilidir. Lojistik eğriyi alın:
$$ f(x) = \frac{L}{1 + e^{k(x-x_{0})} } $$
İçin keyfi gerçek değerler verildiğinde $L$, $k$, ve $x_{0}$bu bir işlevdir. Bununla birlikte, verilerden öğrenilen çok daha spesifik değerler göz önüne alındığında, bu bir nüfus artışı modeli olabilir.
Benzer şekilde, ağırlıkları tamamen sıfır olan bir sinir ağı bir işlevdir, ancak oldukça sınırlı bir eş etki alanına sahip çok ilginç olmayan bir işlevdir. $\{0\}$. Bununla birlikte, daha sonra, ağırlıklar bir araya gelene kadar bir dizi veriyi besleyerek ağı eğitirseniz, kabaca bazı gerçek dünya üretim sürecine karşılık gelen tahminler veya eylemler verirseniz, şimdi bu oluşturma sürecinin bir modeline sahipsiniz.