신경망에 "키스톤"활성화 기능이 하나만있는 이유는 무엇입니까?

Aug 20 2020

이 기사는 다음과 같이 말합니다.

시그 모이 드 또는 tanh 중에서 결정하는 것은 경사 강도 요구 사항에 따라 달라집니다.

나는 (지금까지 나의 학습에서) 7 개의 활성화 함수 / 곡선을 보았다. 각각 은 마지막에 건물을 짓고있는 것 같습니다 . 그러나 위의 인용문과 같이 본질적으로 "요구 사항에 따라 활성화 기능을 선택하고 특정 사용 사례에 맞게 조정"하는 내용을 여러 곳에서 읽었습니다.

이것은 확장 가능 하지 않은 것 같습니다 . 공학적 관점에서 인간은 각 신경망에 들어 와서 옳거나 최적의 활성화 기능을 찾아야하는데, 이는 많은 시간과 노력이 소요되는 것처럼 보입니다. 특정 데이터 세트에 대해 "최상의"활성화 기능을 자동으로 찾는 사람들을 설명하는 문서를 보았습니다. 추상화의 관점에서 보면 모든 사용자를 위해 작동하는 하나의 사용자 인증 시스템을 작성하는 것이 아니라 웹 사이트에서 각 사용자를 개별적으로 처리하는 코드를 작성하는 것과 같습니다 (비유로).

이 모든 논문 / 기사에서 누락 된 것은 이유에 대한 설명입니다 . 모든 경우에 최적으로 작동하는 하나의 활성화 기능 만 가질 수없는 이유는 무엇 입니까? 이를 통해 엔지니어는 새로운 데이터 세트와 신경망을 다룰 필요가 없으며 일반화 된 신경망을 하나만 만들면 현재와 미래의 신경망이 적용되는 모든 일반적인 작업에 잘 작동합니다. 누군가가 더 최적의 것을 찾으면 유익 할 것입니다. 그러나 다음 최적의 것을 찾을 때까지 모든 상황에 대해 하나의 신경망 활성화 기능을 사용할 수없는 이유는 무엇입니까? 현재 판독에서이 핵심 정보가 누락되었습니다.

키스톤 활성화 기능을 사용할 수없는 이유에 대한 몇 가지 예는 무엇입니까?

답변

3 D.W. Aug 20 2020 at 03:58

그것들은 오래된 기사입니다. 대부분의 경우 활성화 기능을 땜질하는 것이 최선의 시간 사용이 아닐 수 있습니다. 오늘날, 표준 엔지니어링 관행은 (근사의 첫 번째 순서로) : ReLU를 사용하고 그것에 대해 스트레스를받지 마십시오. ReLU는 대부분의 경우 시그 모이 드 및 tanh보다 분명히 우수하므로 이전 기사를 읽으면 시그 모이 드 및 tanh에 대해 이야기하지만 오늘날 ReLU가이를 대체했습니다. 어떤 경우에는 ReLU보다 약간 더 좋고 어떤 경우에는 약간 더 나쁘지만 짧은 버전은 ReLU로 충분하며 학습과 지식의이 단계에서 다른 것에 대해 걱정하지 않는 더 멋진 새 활성화 기능이 있습니다. ReLU를 사용하고 하루를 호출하십시오.

이것은 조잡한 단순화이며 절대적으로 예외가 있지만 실제로는 꽤 합리적 인 경험 법칙을 제공합니다.

왜? 저의 주된 대답은 신경망으로 작업 할 때 대부분의 "왜"질문에 대한 답을 실제로 알지 못한다는 사실에 익숙해 져야한다는 것입니다. 때때로 우리는 직관과 이론을 가지고 있지만 그 핵심은 경험적 과학입니다. 우리는 신경망이 왜 잘 작동하는지 정말로 이해하지 못합니다. ReLU가 sigmoid / tanh보다 더 나은 것으로 보이는 이유에 대한 설명을 제공하는 논문이 있습니다. 특히 sigmoid / tanh는 입력이 sigmoid / tanh의 꼬리에있을 때 기울기가 사라지는 현상을 겪습니다 (그러면 출력이 기하 급수적으로 작습니다). , 그래디언트가 본질적으로 0), 훈련이 중단되거나 매우 느리게 진행됩니다.하지만 무엇을해야할지 알려주는 훌륭한 이론을 기대하지 마십시오. 대신 이것은 주로 경험적 과학이며 운이 좋으면 우리가 보는 경험적 데이터를 이해하는 데 도움이되는 실험과 이론이 있습니다.

모든 작업에 최적 인 단일 활성화 기능이있을 것으로 기대할 이유가 없으므로 그것이 사실이 아니고 "이유"가 필요하다고 생각하지 않습니다. 거짓입니다.