Keras에서 사용하기위한 훈련 된 단어 임베딩 (Gensim)의 알 수없는 단어

Dec 19 2020

GENSIM (word2vec)을 사용하여 단어 임베딩을 훈련하고 KERAS의 신경망에서 훈련 된 모델을 사용합니다. 알 수없는 (어휘 외) 단어가있을 때 문제가 발생하여 특정 단어에 대한 가중치를 찾을 수 없기 때문에 신경망이 더 이상 작동하지 않습니다. 이 문제를 해결하는 한 가지 방법은 <unk>가중치가 0 인 사전 학습 된 단어 임베딩에 새 단어 ( )를 추가하는 것입니다 (또는 임의 가중치가 있습니까? 어느 것이 더 낫습니까?).이 방법이 괜찮습니까? 또한이 단어 임베딩의 경우이 신경망에서 가중치를 학습 할 수 없습니다.

답변

1 gojomo Dec 20 2020 at 04:17

가장 일반적인 것은 알 수없는 단어를 무시하는 것입니다. (플러그 워드 또는 오리진 벡터로 대체하면 더 왜곡됩니다.)

훈련 FastText중에 생성 된 문자 n- 그램 벡터에서 어휘 외 단어에 대한 추측 벡터를 항상 합성 하는 모드 훈련을 고려할 수도 있습니다 . (이러한 합성 벡터는 단어가 관련 단어와 겹치는 어근이있을 때 종종없는 것보다 낫습니다. 그러나 모든 관련 단어 사용의 예가 포함 된 더 많은 훈련 데이터를 얻는 것이 더 좋으며, 희귀 한 알 수없는 단어를 단순히 무시하는 것도 나쁘지 않습니다.)