既存のテキスト分類 (教師あり) 手法では、テキスト内の名前付きエンティティ (NE) をトレーニングとテストの機能と見なさないのはなぜですか? NE を特徴として使用することで、精度を向上させることができると思いますか?
1 に答える
作業しているドメインに大きく依存します。ドメインに基づいて機能を定義する必要があります。検索エンジンで、ランク付けの問題を学習し、動的なランクを生成しているとします。NE はここでは何のメリットもありません。それは、作業しているドメインと、定義されている出力分類ラベル (教師あり学習) にも大きく依存します。
ここで、サッカー、映画、政治などに関するドキュメントの分類に取り組んでいるとします。この場合、名前付きエンティティが機能します。ここで例を挙げましょう。ドキュメントをサッカー、映画、政治などに分類するニューラル ネットワークを使用しているとします。ここでドキュメントが入ってきたとします。ジェシー・アイゼンバーグ、アンドリュー・ガーフィールド、ジャスティン・ティンバーレイクを含むキャストとクルーでした.
別の例として、私たちのドキュメントが「トム・クルーズが映画「最後のサッカーの試合」でリオネル・メッシのキャラクターを描いているとします。ここで、ニューラル ネットワークが、俳優とサッカー選手が 1 つのドキュメントで一緒になると、それは映画である可能性が高い. これもデータとトレーニングに依存する.逆の場合もある.
したがって、私の答えは、試してみることです。名前付きエンティティを機能として使用することを誰も止めていません。作業しているドメインに役立つ場合があります。