답변 비교 용 NLP SBert (Bert) STS
단답형 평가를 자동화하는 좋은 방법을 연구하고 있습니다. 기본적으로 교사는 다음과 같은 몇 가지 질문으로 시험을 치릅니다.
질문 : 콜럼버스가 아시아를 찾기 위해 서쪽으로 항해 한 이유는 무엇입니까?
답 : 그래서 그는 바다를 통해 아시아로가는 새로운 무역로를 찾을 수있었습니다. 아메리카 대륙에서 스페인 인의 세 가지 목표는 많은 부를 얻고, 가능한 한 많은 땅에 대한 소유권을 주장하고, 가능한 한 많이 식민지화하려는 열망이었습니다.
그것으로 우리는 정답을 가지고 있으며 그것을 학생들의 대답과 비교하고 유사성에 따라 점수를 산출하고 싶습니다. 나는 이것이 인간 채점을위한 신뢰할 수있는 대체물이 아니라는 것을 알고 있지만, 예를 들기 위해.
이 문서와 코드베이스를 보았습니다. https://arxiv.org/pdf/1908.10084.pdf
https://github.com/UKPLab/sentence-transformers
이 문제를 해결하기위한 이상적인 방법으로 보이지만 대부분의 예는 의미 검색의 점수 / 순위를 기반으로합니다. 나는 클러스터가 아닌 두 개의 답변을 비교하고 있다는 점을 감안할 때 올바른 길을 가고 있는지 질문합니다. 더 많은 경험이있는 사람이 지침을 제공 할 수 있습니까?
답변
나는 Siamese Bert를 사용했고 꽤 잘했다고 말할 수 있습니다. 그러나 문제는 Bert 위에 미세 조정 된 데이터가 반드시 진실과 학생의 답과 동일한 의미 적 거리를 나타내는 것은 아니라는 것입니다. 예를 들어 엔지니어링에 대한 질문이있는 경우, 단어의 작은 변화가 완전히 다른 의미 일 수 있습니다. SBert는 여전히 주제와 관련이있는 유사한 원인을 찾을 수 있습니다. 미세 조정되지 않는 한.
또한 유사성을 해석 할 수 없습니다. 학생이 내 동료의 대답이 더 좋은 이유를 물어 보면 설명 할 수 없습니다.
내 의견 :이 도구를 완전히 일관되지 않은 답변을 줄이는 방법으로 사용할 수 있다고 생각하지만 언젠가는 사람의 평가가 필요합니다. 그리고 ROUGE 또는 BLEU와 같은 해석 가능한 메트릭을 사용할 수도 있습니다. 나는 또한이 주제가 NLP에서 꽤 유행한다는 것을 알고 있으며, 그에 대한 선반 도구가 있거나 좋은 도구가 있는지 여부에 놀라지 않을 것입니다.하지만 현재로서는 알지 못합니다.
@b_the_builder 멋지네요! 첫 번째는 각 단어 사이의 유사점을 사용하여 Word Mower의 거리 가 발전한 것처럼 보입니다 . 여전히 도메인 적응이 부족할 수 있다고 생각합니다. 두 번째 링크는 특정 이유로 사전 교육을 수행합니다. 대체로, 어떤 방법을 사용하든 저는 여러분이 말뭉치를 사전 훈련 한 후 대표적인 하드 매치 문장을 선택하고 그 문장이 어떻게 작동하는지 확인해야한다고 생각합니다. 확실하게하고 싶다면. 영감을 얻으려면 여기 에서 문장 간의 의미 적 유사성 작업을 살펴볼 수 있습니다 .
귀하의 메시지로 GPT-2를 시도했지만 그다지 성공적이지 않았습니다.

또한 부정도 고려하지 않을 것이라고 생각합니다. 먼저 정답 또는 부분 정답 및 오답에 대한 임계 값을 수정하려고합니다. 그러나 부정 진술을 잘 고려하지 않기 때문에 어려운 작업입니다. 예를 들어 : Tony stark은 iron man이고 Tony stark는 순전히 모순적인 진술인 iron man이 아닙니다와 같은 두 가지 진술을 제공하면 코사인 유사성은 이러한 진술이 다소 유사하다고 말할 것입니다 (STS robera large, 벤치 마크 모델에서도). 이것은 답변 채점으로 사용할 수 없습니다. 이 문제를 해결할 다른 방법이 있는지는 모르겠지만 이것은 내 경험에서 나온 것입니다.