2

これは宿題です。私は必ずしも正確な解決策を探しているわけではありませんが、オープンな答えと可能な戦略を探しています。私は一節のコレクションと単語のコレクションを持っています。これらのパッセージのどれが特定のキーワードで構成されている可能性があるかを検出し、これらのパッセージのタイトルを出力する必要があります

強引な方法は、単純な文字列の照合と、パッセージが必要な文字列で構成されているかどうかのチェックを行うことですが、それが優れた解決策になるとはまったく思いません。また、宿題では、パッセージがキーワードで構成されている可能性が高いかどうかを判断するように求められます。これは、本質的に、ある種の機械学習/データ マイニングが含まれることを意味します。

すべてのあなたの入力は非常に高く評価されています, どうもありがとう!

PS: 問題があれば、Java プログラミング言語を使用して解決します。

4

4 に答える 4

0

私はかつて、特定のドキュメントセットの検索エンジンを構築するという課題を抱えていました。それらを解析して転置インデックスを作成し、コサインメトリックを使用してキーワードを使用してクエリを実行します。ストップワードのリストもあり、すべてのキーワードを小文字に変えました。

ここにいくつかの基本的な理論があり、より高度な資料を参照しています。

于 2012-08-07T18:28:53.003 に答える
0

これは、Lucene を使用して行うことができます。

少し高度なリファレンスを次に示します。

http://www.cnlp.org/apachecon2005/AdvancedLucene.ppt

http://www.cs.nmsu.edu/~tphan/publications/trec07.pdf

http://stp.ling.uu.se/~joerg/paper/tema05-final.pdf

于 2012-08-07T18:05:55.953 に答える
0

機械学習/データ マイニングのアプローチには、あなたが言及していない大量のデータ (トレーニング データ) が必要です。

可能性の高い単語は、何らかの形式のパターン マッチングの使用を示唆している可能性があります (正確な単語ではなく、よりリラックスしたもの)。

于 2012-08-07T18:06:32.727 に答える