問題タブ [agrep]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - スペルミスのある値を agrep に置き換える
レストランのデータセットがあり、変数「CONAME」には各施設の名前が含まれています。残念ながら、誤字脱字がかなりありますので、訂正したいと思います。次のコードを使用してファジー セット マッチングの agrep を試しました (すべての主要なチェーンについて繰り返します)。
rest2012$CONAME <- agrep("MC DONALD'S", rest2012$CONAME, ignore.case = FALSE, value = FALSE, max.distance = 3)
次のエラー メッセージが表示されます: Error in $<-.data.frame
( *tmp*
, "CONAME", value = c(35L, 40L, 48L, : replacement has 3074 rows, data has 67424)
スペルミスのある名前を置き換える別の方法はありますか、それとも agrep 関数を間違って使用しているだけですか?
r - " 'pattern' must be a non-empty character string" エラーが R の agrep で発生する
次のエラーが表示されます。
以下を実行しようとすると:
大規模なデータベースで
しかし、小さいもので実行するときはそうではありません
データベースが、以下を使用して生成できるランダムな文字の 15 ~ 25 文字の文字列になるように、再現可能なコードを作成する必要があることはわかっています。
ここで、「n」は長さ、「m」は 15 ~ 25 の整数です。
regex - 非常に類似しているが、必ずしも完全に重複しているわけではないデータ フレーム内の行を検出する
互いに非常に類似しているが、必ずしも完全に重複しているわけではないデータ フレーム内の行を特定したいと考えています。各行のすべてのデータを最後に 1 つの文字列セルにマージし、部分一致関数を使用することを検討しました。一致として認定するために必要な類似性のレベルを設定/調整できると便利です (たとえば、別の行の文字の 75% に一致するすべての行を返します)。
これは簡単な作業例です。
このシナリオでは、行 2 が行 1 の複製として表示されるようにしますが、行 4 は表示されないようにします (あまりにも似ていません)。提案をありがとう。
regex - R agrep: 複数の置換と一致させる方法
文字列を文字列のベクトルに一致させようとしています:
パターンから 2 つの文字を代入すると、パターンがベクトル要素と同一になるため、後者の結果は期待していませんでした。ただし、これは次all
の代わりに機能しsubstitutions
ます。
複数の置換が許可されている場合、何を変更する必要がありますか? substitution
壊れたオプションですか?ありがとう。
注: この質問は基本的に次の質問と同じです: https://stat.ethz.ch/pipermail/r-help/2011-June/281731.htmlですが、回答はありませんでした。
r - Rでは、あいまい一致を使用して複数のパターンを検索するにはどうすればよいですか?
私は、回答者が活動の場所を、通常は町または市の名前で記述した調査データセットを持っています。名前付き都市の一意の言及をそれぞれ識別し、各都市が言及された回数を数えたいと思います。最終的な出力は、各都市が言及された回数を含むベクトルになります。課題の 1 つは、都市名のつづりが間違っている、大文字が奇妙に使用されている、または長い文字列 (複数の都市が含まれる場合もあります) に埋め込まれている可能性があることです。agrep 関数のパターンとして使用しようとしている、適切な大文字とスペルの都市名のマスター リストがあります。
データセットのサンプル チャンクは次のように構成されています。
このサンプルでは、最終結果はベクトルになります。
agrep を使用してマスター ベクトルをループ処理する関数を構築しようとしました。これにより、サーベイ ベクトルで一致を検索し、一致数をカウントしてから、マスター ベクトルの各項目の一致数を出力します。ここに私がこれまでに持っているものがありますが、すべてNULLになります。私が間違っていること、および/またはこの問題に取り組むためのより良い方法があるかどうかはわかりません。