퍼셉트론을 확장하기 위해 σ 함수를 어떻게 선택 했습니까?
나는 퍼셉트론에 대해 더 깊이 읽고 있으며, 지금은 Sigmoid Neurons 에 대해 읽었습니다 .
일부 인용문 :
네트워크에있는 단일 퍼셉트론의 가중치 또는 편향의 작은 변화로 인해 해당 퍼셉트론의 출력이 0에서 1로 완전히 뒤집힐 수 있습니다. 예를 들어, 가중치를 점진적으로 수정하는 방법을보기 어렵게 만들고 네트워크가 원하는 동작에 더 가까워 지도록 편향합니다. 아마도이 문제를 해결할 수있는 영리한 방법이있을 것입니다. 그러나 학습 할 퍼셉트론 네트워크를 얻는 방법은 당장 명확하지 않습니다. 우리는 시그 모이 드 뉴런이라는 새로운 유형의 인공 뉴런을 도입함으로써이 문제를 극복 할 수 있습니다. 시그 모이 드 뉴런은 퍼셉트론과 유사하지만 가중치와 편향의 작은 변화로 인해 출력에 작은 변화 만 발생하도록 수정되었습니다. 이것이 시그 모이 드 뉴런 네트워크가 학습 할 수 있도록하는 중요한 사실입니다.
퍼셉트론처럼 시그 모이 드 뉴런은 각 입력에 대한 가중치를 가지고 있습니다. $w1,w2,…$, 그리고 전반적인 편향, b. 그러나 출력은 0 또는 1이 아닙니다. 대신$σ(w⋅x+b)$, 여기서 σ는 시그 모이 드 함수라고하며 다음과 같이 정의됩니다. $σ(z)≡\frac{1}{1+e^{−z}}$.
σ가 실제로 계단 함수 였다면 w⋅x + b가 양수인지 음수인지에 따라 출력이 1 또는 0이되므로 시그 모이 드 뉴런은 퍼셉트론이됩니다. 실제 σ 함수를 사용하여 이미 위에서 암시했듯이 평활화 된 퍼셉트론을 얻습니다. σ의 부드러움은 가중치의 작은 변화 Δwj와 편향의 Δb가 뉴런의 출력에 작은 변화 Δ 출력을 생성한다는 것을 의미합니다. 사실 미적분학은 Δoutput이 다음과 같이 잘 근사된다고 말합니다.
$$Δoutput≈∑_j\frac{∂output}{∂w_j}Δw_j+\frac{∂output}{∂b}Δb$$
편미분에 익숙하지 않더라도 당황하지 마십시오!
Δ 출력은 변화의 선형 함수입니다. $Δw_j$ 과 $Δb$가중치와 편향에서. 이 선형성은 출력에서 원하는 작은 변화를 달성하기 위해 가중치와 편향의 작은 변화를 쉽게 선택할 수있게합니다. 따라서 시그 모이 드 뉴런은 퍼셉트론과 동일한 질적 행동을 많이 가지고 있지만 가중치와 편향을 변경하면 출력이 어떻게 변경되는지 훨씬 쉽게 파악할 수 있습니다.
실제로이 책의 뒷부분에서 다른 활성화 함수 f (⋅)에 대해 출력이 f (w⋅x + b) 인 뉴런을 가끔 고려할 것입니다. 다른 활성화 함수를 사용할 때 변경되는 주요 사항은 식 (5)의 편미분에 대한 특정 값이 변경된다는 것입니다. 나중에 이러한 편도 함수를 계산할 때 σ를 사용하면 대수를 단순화 할 수 있습니다. 단순히 지수가 미분 될 때 멋진 속성을 갖기 때문입니다. 어쨌든 σ는 신경망 작업에서 일반적으로 사용되며이 책에서 가장 자주 사용할 활성화 함수입니다. [종료]
내 질문의 첫 번째 부분은 처음에이 "시그 모이 드 모양"함수 / 방정식을 선택하는 방법을 어떻게 알았습니까? 그들은 다른 모든 곡선 또는 비 곡선 함수보다 이것을 선택하는 것을 어떻게 알았습니까? 수학 수업에서 이러한 유형의 문제에 대한 표준 연습입니까? 시그 모이 드 함수가 선택된 이유를 설명하려고하면 "출력에 대한 작은 변경에 해당하는 입력에 대한 작은 변경을 수행 할 수 있음을 의미하기 때문에"라고 말할 것입니다. 하지만 어떻게? 나는 편미분 수학을 따르지 않으며 편미분에 대한 배경 지식이 없습니다 (청중도 마찬가지입니다). esigma 함수가 선택된 이유와 방법을 아는 것은 신경망이 작동하는 이유를 이해하는 데 도움이 될 것입니다.
불행히도 편미분은 설명되지 않았습니다 (아마도 다른 곳에있을 것입니다).
제 질문의 두 번째 부분은, 어떻게 $Δoutput$"선형 함수"? S 자 모양 대신 평평한 경사면이 아닌 이유는 무엇입니까? 왜 그렇게 화려해야합니까? "σ를 사용하면 대수를 단순화"하는 방법은 무엇입니까? 이이면의 원래 생각에 대한 연구 논문을 어디서 찾을 수 있습니까? 답을 알고 있다면 시그마를 사용하면 대수를 단순화하는 이유를 어떻게 설명 할 수 있습니까? 이것은 우리가 처음에 시그마 함수를 사용하는 이유에 대한 설명의 중요한 부분처럼 보이므로 평신도 설명이 정말 도움이 될 것입니다.
답변
첫 번째 부분에 대한 답변
문제의 기능을 로지스틱 기능 이라고합니다 . 때로는 "the"시그 모이 드 함수라고도하지만 일부 저자는 S 자 함수를 의미하기 위해 시그 모이 드를 사용 합니다 .
실제로 신경망, 시그 모이 드 등에서 사용되는 다양한 활성화 함수가 있습니다. 로지스틱 함수는 더 일반적인 것 중 하나입니다. 로지스틱 함수와 그 파생물이 모든 실제 입력에 대해 정의되고 기본 함수 측면에서 짧은 표현식으로 작성 될 수 있으며 대부분의 프로그래밍에서 표준 라이브러리 함수를 사용하여 효율적으로 계산 될 수 있기 때문입니다. 언어. (이것은 고전적인 퍼셉트론의 활성화 함수로 사용되는 단계 함수와는 다릅니다. 단계 함수의 미분은 불연속성에서 정의되지 않습니다.) 이러한 속성을 가지고 널리 사용되는 또 다른 활성화 함수는 다음과 같습니다.$\tanh$. 처음에 시그 모이 드 뉴런을 제시 할 때 하나를 다른 것보다 선호 할 강력한 이유가 없습니다. 미적분학 1 클래스에서 미분하는 방법을 배우고 점근선이있는 시그 모이 드 모양의 함수를 거의 선택할 수 있습니다.$\pm\infty$. 훈련에서 약간 다른 성능 특성을 갖지만 초기 설명과는 그다지 관련이 없습니다.
역전 파는 문자 그대로 기울기가 자동 미분에 의해 계산되는 경사 하강 법 이기 때문에 편미분을 이해하지 않고 역 전파를 설명하는 것은 불행히도 매우 어렵습니다 . : 나는 역 전파가 작동하는 방법에 YouTube 동영상의 3Blue1Brown의 우수한 시리즈보고 추천 할 것 1 부 , 2 부 , 특히 3 부 와 4 부 .
질문에서 청중을 언급합니다. 이 자료를 발표 할 예정이라면 적어도 참고 자료로 위에 링크 된 4 개의 비디오를 참조하도록 청중을 진지하게 고려할 것입니다. 그들은 내가 강의에서 할 수있는 것보다 확실히 더 나은 설명을 제공합니다.
두 번째 부분에 대한 답변
선형 함수를 사용하지 않는 이유는 모든 선형 활성화 함수가있는 신경망 이 선형 함수 의 선형 조합 이므로 그 자체가 선형 함수이기 때문입니다. 따라서 선형 활성화 함수를 사용하면 신경망 훈련의 전체 지점을 놓칠 수 있습니다. 데이터에 선형 함수의 최소 제곱 피팅을 수행하면 동일한 결과를 더 빨리 얻을 수 있습니다 .
약간만 지나치게 단순화하면 선형 활성화 함수가있는 신경망은 Excel의 "추세선 맞춤"기능 일뿐입니다.
대조적으로, 충분히 좋은 비선형 활성화 함수의 경우 충분한 뉴런을 사용하여 모든 함수를 잘 근사 할 수 있다는 보편적 근사 정리 가 있습니다.
보편적 근사 정리는 신경망이 처음 발명 된 후 수년 동안 발견되지 않았기 때문에 발명의 동기 부여 요소가 아닙니다. 초기 신경망 연구는 주로 생물학적 뉴런 (뇌에있는 종류)과 제어 이론에서 영감을 받았습니다.
보편적 인 근사 정리는 충분히 큰 신경망이 어떤 기능을 잘 근사 할 수 있는 잠재력 을 가지고 있다고 말하고 있지만, 표준 신경망 훈련 방법 (확률 적 경사 하강 법 역 전파)이 실제로 잘 수행되는 실제 이유는 여전히 잘 이해되지 않고 적극적인 연구 분야.