YouTube의 DNN 추천 기에서 Softmax를 선택해야하는 이유
YouTube DNN 후보 생성의 소프트 맥스 레이어에 대해 혼란 스럽습니다 . 사용자는 많은 비디오와 상호 작용할 수 있습니다. Softmax는 클래스가 배타적이라고 가정합니다. 예를 들어, logits = [[4.0, 4.0, 1.0]], labels = [[1.0, 1.0, 0.0]], 시그 모이 드 교차 엔트로피 손실은 0.45이고 소프트 맥스 교차 엔트로피 손실은 1.43입니다.
후보 생성 단계에서 항목의 상대적인 순서가 중요하지 않기 때문입니까?
답변
"후보 생성 단계에서는 항목의 상대적 순서가 중요하지 않기 때문입니까?"
예, YouTube가 비 전통적인 방식으로 소프트 맥스를 사용하고있는 것처럼 보이지만 이것은 정확히 진행되는 것처럼 보입니다. 후보 세대 모델은 단순히 순위 모델에 따라 순위가 매겨진 수백 개의 후보 동영상을 선택합니다.
당신이 참조한 논문의 섹션 3은 무슨 일이 일어나고 있는지 설명하는 데 좋은 일이라고 생각합니다.
"서빙 시간에 사용자에게 표시 할 상위 N 개를 선택하기 위해 가장 가능성이 높은 N 개의 클래스 (동영상)를 계산해야합니다 ... 소프트 맥스 출력 계층에서 보정 된 가능성이 제공 시간에 필요하지 않기 때문에 점수 문제가 줄어 듭니다. 범용 라이브러리를 사용할 수있는 내적 공간에서 가장 가까운 이웃 검색으로 이동합니다 . "
내가 말할 수있는 한, 이런 종류의 추천 아키텍처는 유튜브와 같은 조직이 운영하는 규모에서만 유익하며 모델 성능보다는 컴퓨팅 인프라를 구성하는 실용성과 더 관련이 있습니다. 나는 그들의 모델 성능과보다 "전통적인"아키텍처가 map @ k와 같은 것에 관한 한 무시할 만하다고 확신합니다.
편집 : 이미 여기에 표시된 것보다 훨씬 더 자세한 답변으로 동일한 질문을 찾았습니다.