回答比較STS用のNLPSBert(Bert)

Aug 20 2020

私は、短い回答の評価を自動化するための良い方法を研究してきました。基本的に、教師は次のようないくつかの質問でテストを行います。

質問:なぜコロンブスはアジアを見つけるために西に航海したのですか?

答え:それで彼は海を通ってアジアへの新しい交易路を見つけることができました。南北アメリカにおけるスペイン人の3つの目標は、大量の富を獲得し、可能な限り多くの土地で主張を確立し、可能な限り植民地化するという願望でした。

これで正解が得られたので、それを生徒の答えと比較して、類似性に基づいてスコアを作成したいと思います。これは人間によるグレーディングの信頼できる代替ではないことを私は知っていますが、例のためです。

私はこの論文とコードベースに出くわしました: https://arxiv.org/pdf/1908.10084.pdf

https://github.com/UKPLab/sentence-transformers

この問題を解決するための理想的な方法のように思えますが、ほとんどの例はセマンティック検索のスコアリング/ランク付けに基づいています。クラスターではなく2つの答えを比較しているだけなので、正しい方向に進んでいるかどうか疑問に思います。より多くの経験を持っている人は、おそらくいくつかのガイダンスを提供できますか?

回答

3 20roso Aug 20 2020 at 23:14

私はシャムバートを使用しましたが、それはかなり良い仕事をしていると言えます。ただし、問題は、バートの上で微調整されたデータが、必ずしも真と学生の答えとの間の答えと同じ意味的距離を完全に表すとは限らないということです。たとえば、エンジニアリングについて質問がある場合、単語の小さな変更がまったく異なることを意味する可能性があります。SBertは、トピックに関連しているため、それらが非常に類似していることを検出します。微調整されていない限り。

また、類似性を解釈することはできません。生徒が私の仲間の答えがなぜ良いのかとあなたに尋ねた場合、あなたは説明することができません。

私の意見:完全に一貫性のない回答を減らす方法としてこのツールを使用できると思いますが、ある時点で、人間による評価が必要になります。また、ROUGEやBLEUなどの解釈可能なメトリックを使用することもできます。私も、このトピックがNLPで非常に流行していることを認識しています。そのための既製のツールがあるかどうかは驚くことではありませんが、現在は認識していません。

1 20roso Aug 21 2020 at 02:30

@b_the_builderいいね!1つ目は、各単語間の類似性を使用して、WordMowerの距離を伸ばすように思えます。私はまだドメインの適応が不足しているかもしれないと信じています。あなたが提供した2番目のリンクはその特定の理由のために事前トレーニングを行います。全体として、どの方法を使用する場合でも、コーパスで事前トレーニングを行った後、代表的なハードマッチ文をいくつか選び、それらがどのように機能するかを確認する必要があると思います。確認したい場合。インスピレーションを得るために、ここで文間の意味的類似性タスクを調べることができます。

Valentas Aug 20 2020 at 20:27

プロンプトでGPT-2を試しましたが、あまり成功しませんでした。

RahulRamachandran Feb 08 2021 at 16:32

また、否定も考慮しないと思います。まず、正解または部分的に正解と不正解のしきい値を修正します。しかし、否定ステートメントを十分に考慮していないため、これは難しい作業です。たとえば、Tony starkがアイアンマンでTonystarkがアイアンマンではないという2つのステートメントを与えると、これらのステートメントは(STS roberaが大きい場合でも、ベンチマークモデルで)次のようになります。解答の採点には使用できません。これに取り組む他の方法があるかどうかはわかりませんが、これは私の経験によるものです。