Javaにストップワードライブラリはありますか?
例: ファイルから入力を読み取り、各単語内の文字をソートする Java プログラムを作成します。それが完了したら、結果のすべての単語を昇順で並べ替え、最後にファイル内の数値の合計を並べ替えます。
- データの処理中に特殊文字とストップ ワードを削除する
- コードの実行にかかった時間を測定する
上記のパズルを解くためのストップ ワード ライブラリを提供してください
Javaにストップワードライブラリはありますか?
例: ファイルから入力を読み取り、各単語内の文字をソートする Java プログラムを作成します。それが完了したら、結果のすべての単語を昇順で並べ替え、最後にファイル内の数値の合計を並べ替えます。
上記のパズルを解くためのストップ ワード ライブラリを提供してください
Apache Lucene には、さまざまな自然言語用のさまざまなストップワード セットと、自然言語処理用のその他の多数の機能があります。ここで入手可能な英語のストップワード: http://lucene.apache.org/core/old_versioned_docs/versions/3_0_1/api/all/org/apache/lucene/analysis/standard/StandardAnalyzer.html
ストップワードについては、Wikiページの外部リンクを参照してください。 また、Googleにはいくつかの実装があります
ライブラリを使用する必要はありません。これは、標準パッケージのみを使用して数行のコードで実行できます。
ファイルを読み取る FileInputStream
簡単にあなたの言葉を取得するためのスキャナー。
数値を読み取る Double.parseDouble
Arrays.sort (またはその他のコレクション ユーティリティ) を使用してデータを並べ替えます。
System.currentTimeMillis は、操作の期間を測定します。
ストップ ワードをフィルター処理する場合は、単純にそれらを HashSet に入れて、読み取り中にフィルター処理します。
なぜストップワードライブラリが必要なのですか? 単にストップ ワードを a に保存してFile
から読み取り、そのような単語がテキスト内に見つかった場合は削除します。
List
別の方法は、ストップ ワードの a を維持することです。a に対するチェックList
は比較的簡単です。
そして、おそらくこの実装を見たいと思うでしょう。