อะไรคือความแตกต่างพื้นฐานระหว่างแบบจำลอง ML และฟังก์ชัน?
รุ่นสามารถกำหนดคร่าว ๆ การออกแบบใด ๆ ที่สามารถแก้งาน ML ตัวอย่างของแบบจำลอง ได้แก่ โครงข่ายประสาทเทียมแผนผังการตัดสินใจเครือข่าย Markov เป็นต้น
ฟังก์ชั่นสามารถกำหนดเป็นชุดคู่สั่งซื้อที่มีต่อหลายคนหนึ่งในสถานที่ให้บริการจากโดเมนที่จะร่วมโดเมน / ช่วง
อะไรคือความแตกต่างพื้นฐานระหว่างพวกเขาในรูปแบบทางการ?
คำตอบ
แม้ว่าสิ่งนี้อาจใช้ไม่ได้กับทุกกรณี แต่ฉันชอบคิดว่าโมเดลเป็นชุดของฟังก์ชันดังนั้นนี่คือความแตกต่าง
เหตุใดคำจำกัดความนี้จึงมีประโยชน์? หากคุณนึกถึงโครงข่ายประสาทเทียมที่มีเวกเตอร์ของพารามิเตอร์$\theta \in \mathbb{R}^m$เป็นแบบจำลองจากนั้นการรวมกันเฉพาะของพารามิเตอร์เหล่านี้จะแสดงถึงฟังก์ชันเฉพาะ ตัวอย่างเช่นสมมติว่าเรามีเครือข่ายประสาทที่มี 2 อินพุต 1 เซลล์ประสาทที่ซ่อนอยู่ (มีฟังก์ชันการกระตุ้น ReLU ซึ่งแสดงเป็น$\phi$ตามการรวมกันของอินพุทเชิงเส้น) และ 1 เซลล์ประสาทเอาท์พุท (พร้อมด้วยฟังก์ชันกระตุ้นซิกมอยด์, $\sigma$). อินพุตเชื่อมต่อกับยูนิตเดียวที่ซ่อนอยู่และการเชื่อมต่อเหล่านี้มีน้ำหนักที่มีมูลค่าจริง หากเราไม่สนใจอคติก็จะมีพารามิเตอร์ 3 ตัวซึ่งสามารถจัดกลุ่มได้ในเวกเตอร์พารามิเตอร์$\theta = [\theta_1, \theta_2, \theta_3] \in \mathbb{R}^3 $. พลฟังก์ชั่นที่เครือข่ายประสาทนี้หมายถึงสามารถกำหนดดังต่อไปนี้
$$ f(x_1, x_2) = \sigma (\theta_3 \phi(x_1 \theta_1 + x_2 \theta_2)) \tag{1}\label{1}, $$
ในกรณีนี้สมการ \ ref {1} แสดงถึงโมเดลโดยกำหนดช่องว่างพารามิเตอร์ $\Theta = \mathbb{R}^3$. สำหรับค่าเฉพาะใด ๆ ที่$\theta_1, \theta_2,$ และ $\theta_3$ สามารถใช้เรามีฟังก์ชันเฉพาะ (กำหนด) $f: \mathbb{R} \rightarrow [0, 1]$.
ตัวอย่างเช่น $\theta = [0.2, 10, 0.4]$ แสดงถึงฟังก์ชันเฉพาะบางอย่างกล่าวคือ
$$ f(x_1, x_2) = \sigma (0.4 \phi(x_1 0.2 + x_2 10.0)) $$คุณสามารถพล็อตฟังก์ชันนี้ (ด้วย Matplotlib) สำหรับค่าบางอย่างของอินพุตเพื่อดูว่ามันมีลักษณะอย่างไร โปรดทราบว่า$x_1$ และ $x_2$ ได้ตามอำเภอใจ (เนื่องจากเป็นเพียงอินพุตซึ่งฉันถือว่าเป็นจำนวนจริง)
การแปลความหมายของรูปแบบนี้จะสอดคล้องกับความหมายของระดับสมมติฐาน (หรือพื้นที่)ในทฤษฎีการเรียนรู้การคำนวณซึ่งเป็นหลักชุดของฟังก์ชั่น การตีความนี้ยังสอดคล้องกับทฤษฎีบทการประมาณโดยทั่วไปสำหรับโครงข่ายประสาทซึ่งระบุว่าคุณสามารถค้นหาชุดพารามิเตอร์ที่เฉพาะเจาะจงเพื่อให้คุณสามารถคำนวณฟังก์ชันที่กำหนดได้โดยพลการได้ดีโดยประมาณเนื่องจากตรงตามเงื่อนไขบางประการ การตีความนี้สามารถนำไปใช้กับแผนผังการตัดสินใจ, HMM, RNN และแบบจำลอง ML ทั้งหมดเหล่านี้
บางครั้งรูปแบบคำศัพท์ยังใช้เพื่ออ้างถึงการแจกแจงความน่าจะเป็นเช่นในบริบทของการเรียนรู้แบบเสริมแรงโดยที่ $p(s', r \mid s, a)$ คือการแจกแจงความน่าจะเป็นในสถานะถัดไป $s'$ และรางวัล $r$ ให้สถานะปัจจุบัน $s$ และการกระทำ $a$ ถ่ายในสถานะนั้น $s$. ตรวจสอบคำถามนี้เพื่อดูรายละเอียดเพิ่มเติม การแจกแจงความน่าจะเป็นอาจถือได้ว่าเป็นชุดของฟังก์ชัน (อาจมีขนาดใหญ่ไม่สิ้นสุด) แต่ไม่ใช่แค่ชุดของฟังก์ชันเท่านั้นเพราะคุณสามารถสุ่มตัวอย่างจากการแจกแจงความน่าจะเป็นได้ (กล่าวคือมีความสุ่มบางอย่างที่เกี่ยวข้องกับการแจกแจงความน่าจะเป็น) ดังนั้นการแจกแจงความน่าจะเป็นจึงถือได้ว่าเป็นแบบจำลองทางสถิติหรือสามารถใช้แทนได้ ตรวจสอบคำตอบนี้
รุ่นไหนก็ได้ถือว่าทำหน้าที่ได้ คำว่า "model" หมายถึงฟังก์ชันที่ใช้ในลักษณะเฉพาะกล่าวคือเพื่อประมาณฟังก์ชันอื่น ๆ ที่น่าสนใจ
กล่าวง่ายๆก็คือแบบจำลองเครือข่ายประสาทเทียมเป็นเครื่องมือประมาณค่าฟังก์ชันที่พยายามทำให้พอดีกับเส้นโค้งของฟังก์ชันสมมติฐาน ฟังก์ชันเองมีสมการซึ่งจะสร้างเส้นโค้งคงที่:
ถ้าเรามีสมการ (เช่นฟังก์ชัน) เราไม่จำเป็นต้องมีโครงข่ายประสาทเทียมสำหรับข้อมูลอินพุต อย่างไรก็ตามเมื่อเรามีเพียงความคิดบางอย่างเกี่ยวกับเส้นโค้ง (หรือข้อมูลอินพุตและเอาต์พุต) เราจะค้นหาตัวประมาณค่าฟังก์ชันเพื่อให้สำหรับข้อมูลอินพุตใหม่ที่มองไม่เห็นเราสามารถสร้างเอาต์พุตได้
การฝึกโครงข่ายประสาทเทียมนี้เป็นข้อมูลเกี่ยวกับการเข้าใกล้การประมาณค่าเดิม (ฟังก์ชันที่ไม่รู้จัก) ให้มากที่สุด
ทุกรุ่นคือฟังก์ชัน ไม่ใช่ทุกฟังก์ชันจะเป็นแบบจำลอง
ฟังก์ชันจะจับคู่องค์ประกอบของชุดบางชุดกับองค์ประกอบของชุดอื่นโดยไม่ซ้ำกันซึ่งอาจเป็นชุดเดียวกัน
AI ทุกรุ่นเป็นฟังก์ชันเนื่องจากถูกนำไปใช้เป็นโปรแกรมคอมพิวเตอร์และโปรแกรมคอมพิวเตอร์ทุกโปรแกรมเป็นฟังก์ชันที่ทำแผนที่การรวมกันของลำดับบิตในหน่วยความจำและหน่วยเก็บข้อมูลเมื่อเริ่มโปรแกรมรวมทั้งอินพุตกับลำดับบิตในหน่วยความจำและหน่วยเก็บข้อมูล บวกเอาต์พุตเมื่อสิ้นสุดโปรแกรม
อย่างไรก็ตาม 'แบบจำลอง' เป็นตัวแทนของบางสิ่งโดยเฉพาะ ใช้เส้นโค้งโลจิสติก:
$$ f(x) = \frac{L}{1 + e^{k(x-x_{0})} } $$
ให้ค่าที่แท้จริงโดยพลการสำหรับ $L$, $k$และ $x_{0}$นั่นคือฟังก์ชัน อย่างไรก็ตามด้วยค่าที่เฉพาะเจาะจงมากขึ้นซึ่งเรียนรู้จากข้อมูลอาจเป็นต้นแบบของการเติบโตของประชากร
ในทำนองเดียวกันโครงข่ายประสาทที่มีน้ำหนักเริ่มต้นเป็นศูนย์ทั้งหมดเป็นฟังก์ชัน แต่เป็นฟังก์ชันที่ไม่น่าสนใจมากกับโคโดเมนที่ค่อนข้าง จำกัด $\{0\}$. อย่างไรก็ตามหากคุณฝึกเครือข่ายโดยป้อนข้อมูลจำนวนมากจนน้ำหนักรวมกันเพื่อให้การคาดการณ์หรือการดำเนินการที่สอดคล้องกับกระบวนการสร้างโลกแห่งความเป็นจริงตอนนี้คุณมีแบบจำลองของกระบวนการสร้างนั้นแล้ว