名前、住所、電話番号がいくつかの言語で存在するかどうか、テキストの大きなフォルダーを分析したいと思います。
これらは通常、「住所」、「電話番号」、「名前」、「会社」、「病院」、「配送業者」という単語で始まります。私はこれらの単語の辞書を持っています。
テキスト マイニング ツールがこの仕事に最適かどうか疑問に思っています。これらすべてのドキュメントのコーパスを作成し、特定の辞書エントリの右または下で特定の (正規表現の基準について考えています) を満たすテキストを見つけたいと思います。
Rのデータマイニングパッケージにそのような構文はありますか?単語リスト エントリの右または下にある文字列、特定のパターンに一致する文字列を取得するには?
そうでない場合、仕事をするためのRのより適切なツールでしょうか?