-1

私は、自然言語処理用に約 40,000 個のテキスト ファイル (平均サイズが 1 KB を超えています) を持っています。Java を使用して、これらすべてのファイルにいくつかの一般的な前処理関数を適用したいと考えています。これらの機能には、すべての文字を小文字に変換する、すべての句読点を削除する、すべての数字を削除する、重複する空白 (タブスペース) を削除する、すべての事前定義されたストップ ワードを削除する、最後に、結果のファイルをディスクに保存するなどがあります。

この種の作業に効果的な Java ライブラリを推奨してくれる人はいますか? どうもありがとう !

4

1 に答える 1

1

マレットはJava機械学習ライブラリであり、初期テキスト処理も実行できます:http: //mallet.cs.umass.edu/import.php

出力はおそらくマレットのデータ形式である必要がありますが、この形式はかなりうまく設計されています。

于 2012-06-28T12:29:57.133 に答える