java - 特定の単語からなるパッセージの可能性を検出する

Question

これは宿題です。私は必ずしも正確な解決策を探しているわけではありませんが、オープンな答えと可能な戦略を探しています。私は一節のコレクションと単語のコレクションを持っています。これらのパッセージのどれが特定のキーワードで構成されている可能性があるかを検出し、これらのパッセージのタイトルを出力する必要があります

強引な方法は、単純な文字列の照合と、パッセージが必要な文字列で構成されているかどうかのチェックを行うことですが、それが優れた解決策になるとはまったく思いません。また、宿題では、パッセージがキーワードで構成されている可能性が高いかどうかを判断するように求められます。これは、本質的に、ある種の機械学習/データマイニングが含まれることを意味します。

すべてのあなたの入力は非常に高く評価されています, どうもありがとう!

PS: 問題があれば、Java プログラミング言語を使用して解決します。

score 0 · Accepted Answer

私はかつて、特定のドキュメントセットの検索エンジンを構築するという課題を抱えていました。それらを解析して転置インデックスを作成し、コサインメトリックを使用してキーワードを使用してクエリを実行します。ストップワードのリストもあり、すべてのキーワードを小文字に変えました。

ここにいくつかの基本的な理論があり、より高度な資料を参照しています。

score 0 · Accepted Answer

これは、Lucene を使用して行うことができます。

少し高度なリファレンスを次に示します。

http://www.cnlp.org/apachecon2005/AdvancedLucene.ppt

http://www.cs.nmsu.edu/~tphan/publications/trec07.pdf

http://stp.ling.uu.se/~joerg/paper/tema05-final.pdf

score 0 · Accepted Answer

機械学習/データマイニングのアプローチには、あなたが言及していない大量のデータ (トレーニングデータ) が必要です。

可能性の高い単語は、何らかの形式のパターンマッチングの使用を示唆している可能性があります (正確な単語ではなく、よりリラックスしたもの)。

java - 特定の単語からなるパッセージの可能性を検出する

4 に答える 4

Related

Reference