1

Javaにストップワードライブラリはありますか?

例: ファイルから入力を読み取り、各単語内の文字をソートする Java プログラムを作成します。それが完了したら、結果のすべての単語を昇順で並べ替え、最後にファイル内の数値の合計を並べ替えます。

  • データの処理中に特殊文字とストップ ワードを削除する
  • コードの実行にかかった時間を測定する

上記のパズルを解くためのストップ ワード ライブラリを提供してください

4

4 に答える 4

5

Apache Lucene には、さまざまな自然言語用のさまざまなストップワード セットと、自然言語処理用のその他の多数の機能があります。ここで入手可能な英語のストップワード: http://lucene.apache.org/core/old_versioned_docs/versions/3_0_1/api/all/org/apache/lucene/analysis/standard/StandardAnalyzer.html

于 2012-06-22T06:13:03.690 に答える
0

ストップワードについては、Wikiページの外部リンクを参照してください。 また、Googleにはいくつかの実装があります

于 2012-06-22T06:24:23.060 に答える
0

ライブラリを使用する必要はありません。これは、標準パッケージのみを使用して数行のコードで実行できます。

  • ファイルを読み取る FileInputStream

  • 簡単にあなたの言葉を取得するためのスキャナー。

  • 数値を読み取る Double.parseDouble

  • Arrays.sort (またはその他のコレクション ユーティリティ) を使用してデータを並べ替えます。

  • System.currentTimeMillis は、操作の期間を測定します。

ストップ ワードをフィルター処理する場合は、単純にそれらを HashSet に入れて、読み取り中にフィルター処理します。

于 2012-06-22T06:13:13.320 に答える
0

なぜストップワードライブラリが必要なのですか? 単にストップ ワードを a に保存してFileから読み取り、そのような単語がテキスト内に見つかった場合は削除します。

List別の方法は、ストップ ワードの a を維持することです。a に対するチェックListは比較的簡単です。

そして、おそらくこの実装を見たいと思うでしょう。

于 2012-06-22T06:15:14.367 に答える