r - TM、Quanteda、text2vec。正規表現パターンに従って単語リストの用語の左側にある文字列を取得します

翻译自：https://stackoverflow.com/questions/45410661 2017-07-31T08:19:23.270

169 次

名前、住所、電話番号がいくつかの言語で存在するかどうか、テキストの大きなフォルダーを分析したいと思います。

これらは通常、「住所」、「電話番号」、「名前」、「会社」、「病院」、「配送業者」という単語で始まります。私はこれらの単語の辞書を持っています。

テキストマイニングツールがこの仕事に最適かどうか疑問に思っています。これらすべてのドキュメントのコーパスを作成し、特定の辞書エントリの右または下で特定の (正規表現の基準について考えています) を満たすテキストを見つけたいと思います。

Rのデータマイニングパッケージにそのような構文はありますか？単語リストエントリの右または下にある文字列、特定のパターンに一致する文字列を取得するには?

そうでない場合、仕事をするためのRのより適切なツールでしょうか?

1 に答える 1