regex - Rでパターンごとに単語の出現を数えます

Question

おそらくよくある質問ですが、ここで非常に行き詰っています。

XML ファイルから、すべての出現箇所、その行、およびアルファベットと数字 (文字通り英数字) のみを含む各 12 文字の文字列の総出現回数を検索しようとしています。

例: ファイルがxmlInputの場合、12 文字の英数字文字列のすべての出現箇所、位置、および合計数を検索して抽出しようとしています。

出力例:

  String        Total Count     Line-Num
 CPXY180D2324   2               132,846
 CPXY180D2131   1               372
 CPCY180D2139   1               133

regmatches私は、パターンによって文字列のすべての出現を取得するために使用できることを知っています。私はそのために以下を使用しています:(これについてのあなたの助けに感謝します)。

ProNum12<-regmatches(xmlInput, regexpr("([A-Z0-9]{12})", xmlInput))
ProNum12

regmatchesパターンに従うすべての一致を教えてください。しかし、パターンが表示された行番号はわかりません。grepすべての出現箇所の行番号を教えてくれます。

textcntライブラリのパッケージを使用できると思ってTauいましたが、正しく実行できませんでした。おそらくそれは適切なパッケージではありませんか？

パターンに一致するすべての単語を検索し、出現回数の合計と各出現の行番号を返す R のパッケージ/ライブラリはありますか? そのようなパッケージが存在しない場合、上記のいずれかまたはそれ以上を使用してこれを行う方法はありますか?

regex - Rでパターンごとに単語の出現を数えます

1 に答える 1

Related

Reference