問題タブ [stringr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
738 参照

string - 同様の文字列検索ループのベクトル化

次のような文字列の大きなベクトルがあります。

同じベクトル d から各文字列に対して同様の文字列を取得したくありません。


1. 文字列ごとに、数字が存在する場合やアルファベット文字数が 5 未満の場合に完全一致を強制するなどの特定のルールに基づいて、他のすべての文字列文字列との編集距離を計算します
。文字列とともにデータフレーム dist。
3. 距離 < 3 に基づいて dist をサブセット化します。
4. 同様の文字列を折りたたんで、新しい列として元のデータフレームに追加します。

stringrstringdistパッケージを使用しています

ループを使用する代わりに、プロシージャをベクトル化することは可能ですか? 文字列の非常に大きなベクトルがあるためstringdistmatrix、メモリの制限により、ベクトル全体を使用して距離行列を計算することはできません。ループは大きなデータに対しては正常に機能しますが、非常に低速です。

0 投票する
2 に答える
3791 参照

regex - R の文字列から電話番号を抽出する

テキストからの抽出に取り組んでいます'stringr'-RIでパッケージを使用すると、次の例が見つかりました:

ただし、私の文字列は次の形式です。

しかしpattern、上記のすべての形式を抽出する方法についてはわかりません。

0 投票する
1 に答える
808 参照

regex - R のテキストから情報を抽出する

R でエンティティ抽出に取り組んでいます。andフィールドがUniqueIDありTextます。テキスト フィールドから位置情報を抽出する必要があります。私のテキストフィールドには場所名の説明があります

Locations のリストがあります。

を一致させ、フィールドlocからそれらの場所を抽出する必要がtextあります。テキスト フィールドSENOKO INDUSTRIAL ESTATEでは、さまざまな方法で綴られているSenoko Estateか、Senoko(半分の名前) またはスペルミスsenok Est.があります。上記のすべてのスペルミスと半分スペルの単語について - 正確な名前を取得する必要がありますlocすなわちから。SENOKO INDUSTRIAL ESTATE.

私の出力は次のようになります。

0 投票する
2 に答える
3911 参照

regex - rのstr_splitの左側のかっこを削除する

Rでこれを機能させるにはどうすればよいですか?

gregexpr("(", "US (California, San Luis Obispo County)", fixed = FALSE, : 無効な正規表現 '(', reason 'Missing ')'' のエラー

gregexpr("(", "US (California, San Luis Obispo County)") のエラー: 無効な正規表現 '(', 理由 'Missing ')''

gregexpr("(", "US (California, San Luis Obispo County)", perl = T) のエラー: 無効な正規表現 '('

さらに、警告メッセージ:

0 投票する
1 に答える
1949 参照

r - テキスト ファイルのテンプレートを使用してディレクトリ構造を作成する

text.txt次のような単一スペース (タブではなく) を使用してインデントされた複数行のテキストを含むテキスト ファイルがあるとします。

たとえば、実際のディレクトリ テンプレートは次のようになります。

基本的に、ファイルはディレクトリ構造のテンプレートです。このテンプレートは、ユーザーが設定できます。彼女はさまざまなプロジェクトにさまざまなテンプレートを使用でき、名前は一般的です. 唯一の制約は、階層がスペースを使用して確立され、フォルダーがスラッシュで終わることです。

そのようなディレクトリ テンプレートを入力として受け取り、現在の作業ディレクトリにディレクトリ構造を作成する関数を作成したいと考えています。擬似コードは次のとおりです。

0 投票する
2 に答える
3105 参照

regex - R 文字列から "[" "]" のみを削除

私は次のようなものを持っています:

そして、各行 (test[1] test[2] ...) の [ と ] (最初と最後の文字) を削除したいのですが、ポイント (22.9999) を保持したいと思います。

いくつかのストリンガー関数を試しましたが、正規表現にはあまり向いていません...助けてもらえますか?