java - Java で複数の区切り文字を使用して文字列を分割する

Question

複数の単語を使用して文字列をトークン化する必要があるデータマイニングアルゴリズムに取り組んでいます。すべてのストップワードを含む別のファイルがあります。私がする必要があるのは、区切り文字として機能する単語 (ストップワード) のいずれかで入力文字列をトークン化することです。たとえば。
ファイルにストップワードがそのまま含まれて
いる
場合

入力文字列は
「コンピュータークラスターは、互いに連携して動作する疎に接続されたコンピューターのセットで構成されています」
となります。

すべてのストップワードに対して文字列を再帰的にチェックすると、非常に時間がかかりますか? これには何か良い方法はありますか？

score 7 · Accepted Answer

フォームの正規表現を構築します

delim1|delim2|delim3

次に、Stringのsplit()メソッドを使用して、任意の区切り記号でテキストを分割します。

Pattern.quote正規表現を構築するには、各区切り文字を読み取り、構築する正規表現に追加する前にそれを渡します。これにより、区切り文字で正規表現のメタ文字も使用できるようになります。

java - Java で複数の区切り文字を使用して文字列を分割する

1 に答える 1

Related

Reference