問題タブ [stringr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
string - 同様の文字列検索ループのベクトル化
次のような文字列の大きなベクトルがあります。
同じベクトル d から各文字列に対して同様の文字列を取得したくありません。
1. 文字列ごとに、数字が存在する場合やアルファベット文字数が 5 未満の場合に完全一致を強制するなどの特定のルールに基づいて、他のすべての文字列文字列との編集距離を計算します
。文字列とともにデータフレーム dist。
3. 距離 < 3 に基づいて dist をサブセット化します。
4. 同様の文字列を折りたたんで、新しい列として元のデータフレームに追加します。
stringr
とstringdist
パッケージを使用しています
ループを使用する代わりに、プロシージャをベクトル化することは可能ですか? 文字列の非常に大きなベクトルがあるためstringdistmatrix
、メモリの制限により、ベクトル全体を使用して距離行列を計算することはできません。ループは大きなデータに対しては正常に機能しますが、非常に低速です。
regex - R の文字列から電話番号を抽出する
テキストからの抽出に取り組んでいます'stringr'
-RIでパッケージを使用すると、次の例が見つかりました:
ただし、私の文字列は次の形式です。
しかしpattern
、上記のすべての形式を抽出する方法についてはわかりません。
regex - R のテキストから情報を抽出する
R でエンティティ抽出に取り組んでいます。andフィールドがUniqueID
ありText
ます。テキスト フィールドから位置情報を抽出する必要があります。私のテキストフィールドには場所名の説明があります
Locations のリストがあります。
を一致させ、フィールドloc
からそれらの場所を抽出する必要がtext
あります。テキスト フィールドSENOKO INDUSTRIAL ESTATE
では、さまざまな方法で綴られているSenoko Estate
か、Senoko
(半分の名前) またはスペルミスsenok Est.
があります。上記のすべてのスペルミスと半分スペルの単語について - 正確な名前を取得する必要がありますloc
すなわちから。SENOKO INDUSTRIAL ESTATE
.
私の出力は次のようになります。
regex - rのstr_splitの左側のかっこを削除する
Rでこれを機能させるにはどうすればよいですか?
gregexpr("(", "US (California, San Luis Obispo County)", fixed = FALSE, : 無効な正規表現 '(', reason 'Missing ')'' のエラー
gregexpr("(", "US (California, San Luis Obispo County)") のエラー: 無効な正規表現 '(', 理由 'Missing ')''
gregexpr("(", "US (California, San Luis Obispo County)", perl = T) のエラー: 無効な正規表現 '('
さらに、警告メッセージ:
r - テキスト ファイルのテンプレートを使用してディレクトリ構造を作成する
text.txt
次のような単一スペース (タブではなく) を使用してインデントされた複数行のテキストを含むテキスト ファイルがあるとします。
たとえば、実際のディレクトリ テンプレートは次のようになります。
基本的に、ファイルはディレクトリ構造のテンプレートです。このテンプレートは、ユーザーが設定できます。彼女はさまざまなプロジェクトにさまざまなテンプレートを使用でき、名前は一般的です. 唯一の制約は、階層がスペースを使用して確立され、フォルダーがスラッシュで終わることです。
そのようなディレクトリ テンプレートを入力として受け取り、現在の作業ディレクトリにディレクトリ構造を作成する関数を作成したいと考えています。擬似コードは次のとおりです。
regex - R 文字列から "[" "]" のみを削除
私は次のようなものを持っています:
そして、各行 (test[1] test[2] ...) の [ と ] (最初と最後の文字) を削除したいのですが、ポイント (22.9999) を保持したいと思います。
いくつかのストリンガー関数を試しましたが、正規表現にはあまり向いていません...助けてもらえますか?
え