4

複数の単語を使用して文字列をトークン化する必要があるデータ マイニング アルゴリズムに取り組んでいます。すべてのストップワードを含む別のファイルがあります。私がする必要があるのは、区切り文字として機能する単語 (ストップワード) のいずれかで入力文字列をトークン化することです。たとえば。
ファイルにストップワードがそのまま 含ま れ て
いる
場合


入力文字列は
「コンピューター クラスターは、互いに連携して動作する疎に接続されたコンピューターのセットで 構成 さ れ ています」
となります。




すべてのストップワードに対して文字列を再帰的にチェックすると、非常に時間がかかりますか? これには何か良い方法はありますか?

4

1 に答える 1

7

フォームの正規表現を構築します

delim1|delim2|delim3

次に、Stringsplit()メソッドを使用して、任意の区切り記号でテキストを分割します。

Pattern.quote正規表現を構築するには、各区切り文字を読み取り、構築する正規表現に追加する前にそれを渡します。これにより、区切り文字で正規表現のメタ文字も使用できるようになります。

于 2012-11-04T21:44:56.167 に答える