私は現在、ニューラルネットワークベースの短いドキュメント分類のアプローチに取り組んでいます。私が使用しているコーパスは通常約10語であるため、標準的な統計ドキュメント分類方法の使用は限られています。この事実のために、私はトレーニングで提供された一致に対して何らかの形の自動同義語検出を実装しようとしています。私の質問は、より具体的には、次のように状況を解決することについてです。
「InvolvedFood」の分類と「InvolveingSpheres」の1つ、および次のようなデータセットがあるとします。
"Eating Apples"(Food);"Eating Marbles"(Spheres); "Eating Oranges"(Food, Spheres);
"Throwing Baseballs(Spheres)";"Throwing Apples(Food)";"Throwing Balls(Spheres)";
"Spinning Apples"(Food);"Spinning Baseballs";
私は次のリンケージに向かって動くインクリメンタルな方法を探しています:
Eating --> Food
Apples --> Food
Marbles --> Spheres
Oranges --> Food, Spheres
Throwing --> Spheres
Baseballs --> Spheres
Balls --> Spheres
Spinning --> Neutral
Involving --> Neutral
この特定のケースでは、これらは少し疑わしい一致である可能性があることを私は理解していますが、それは私が抱えている問題を示しています。私の一般的な考えは、カテゴリ内の単語の反対側に表示される単語をインクリメントした場合、偶然にすべてを「関与する」という単語にリンクすることになり、次に表示される単語を単純にデクリメントすることになると思いました。複数の同義語、または非同義語と組み合わせて使用しますが、「食べる」と「食べ物」の間のリンクが失われます。上記の方向に私を動かすアルゴリズムをどのようにまとめるかについて、誰かが何か手がかりを持っていますか?