2

指定されたテキスト(タイトル)で重要な単語のコレクションを取得するJavaライブラリはありますか?
EDITED:重要とは、文の主なアイデアを定義したものを意味します. ありがとうございました。

4

3 に答える 3

4

Apache Mahoutをご覧になることをお勧めします。

また、あなたが説明したのと同様のケースでよく使用されるtf-idf モデルの詳細を読みたいと思うかもしれません。

編集: Tf-Idf モデルの詳細:

tf-idf モデルは基本的に 2 つのことを言います:

  1. 項がデータに何度も出現する場合、その項はおそらく重要です。[tf]
  2. 用語が世界で何度も出現する場合、データに出現することが予想されますが、まれにデータに出現する場合は、それが非常に「重要」であることを示しています [idf]

tf-idf モデルはこの仮定を利用し、tf,idf 値に従って各用語の評価を与えます。
idf 値を見つけるには、コレクションのインデックスを作成するか、検索エンジン API を使用して、結果の数に基づいて各用語がどの程度一般的であるかを推定します [エンジンによって返される数は正確ではありませんが、使用される可能性があることに注意してください。概算として]

于 2012-01-27T21:28:44.570 に答える
2

あなたが専らタイトルを扱っていることを考えると、ストップ ワード以外のほとんどすべての単語が重要であると想像できます。

おそらく、本格的なテキスト分析アルゴリズムではなく、基本的なストップワード除去アルゴリズムを探しているだけでしょうか?

これがどれだけ複雑または「スマート」である必要があるかによって異なります。

于 2012-01-27T21:55:21.967 に答える
2

トピック モデルは、ドキュメント (またはドキュメントのコレクション) に対してこれを実行しようとします。個々の文で多くのことができるとは思えません。

セマンティック パーサー ( RelEx など) を使用して、主要なサブジェクト/オブジェクト/その他を取得しようとすることもできますが、それでもそれほど単純ではありません。

あなたがやろうとしていることのいくつかの例が役に立ちます。「主なアイデアを定義する」はまだかなりあいまいです - どのタイプの文を扱っていますか?

于 2012-01-27T21:34:05.817 に答える