複数の単語を使用して文字列をトークン化する必要があるデータ マイニング アルゴリズムに取り組んでいます。すべてのストップワードを含む別のファイルがあります。私がする必要があるのは、区切り文字として機能する単語 (ストップワード) のいずれかで入力文字列をトークン化することです。たとえば。
ファイルにストップワードがそのまま
含ま
れ
て
いる
場合
入力文字列は
「コンピューター クラスターは、互いに連携して動作する疎に接続されたコンピューターのセットで
構成
さ
れ
ています」
となります。
すべてのストップワードに対して文字列を再帰的にチェックすると、非常に時間がかかりますか? これには何か良い方法はありますか?