問題タブ [stringi]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - stringi パッケージで後方参照を使用するには?
RI では\\1
、キャプチャ グループへの参照に使用できます。ただし、stringi パッケージを使用する場合、これは期待どおりに機能しません。
期待される出力: hello-you
.
ドキュメントでは、この問題に関するものは何も見つかりませんでした。
regex - 正規表現を使用して、中国語のような UTF-8 または UTF-16 でエンコードされたテキストを汚染することなく句読点を削除する方法は?
RでUTF-8の元の文字、特に中国語を台無しにすることなく、ASCIIおよびUTF-8でエンコードされた文字列から句読点を削除するにはどうすればよいですか.
結果:
しかし、望ましい結果は次のようになります。
CJK 記号と句読点をすべて削除し、ASCII 句読点を求めています。
@akrun、sessionInfo()は以下の通り
r - R - 大きなテキストファイルの特定の文字列の出現をカウントする方法
メールのリストで最大 10,000 の異なる場所の出現を見つけようとしています。私が必要としているのは、電子メールごとに最も頻繁に言及される場所を持つ 1 つのベクトル、2 番目に頻繁に言及される場所、3 番目に頻繁に言及される場所を持つベクトルです!
私のデータセットは巨大であるため、パフォーマンスに問題があります。stringi と parallel パッケージで試してみましたが、それでも非常に低速です (20.000 の電子メールと 10.000 の場所で約 15 分)。入力データ (eMails と Cities) は次のようになります。
stringi を使用したコードは次のとおりです。
たとえば、 index または equal を使用して、これを高速化する方法はありますか? この問題について助けていただけることを本当に楽しみにしています。
どうもありがとうクレメンス
r - rの大縮尺文字を日付形式のような文字に変換する
df
1,000 万行のデータ フレームがあります。「誕生日」列の文字書式を「xxxxxxxx」から「xxxx-xx-xx」に変換したい。例えば。「20051023」から「2005-10-23」まで。私はdf$birthday <- lapply(df$birthday, as.Date, "%Y%m%d")
それを行うために使用できますが、データ変換のために多くのメモリと計算時間を浪費します. ただし、日付型ではなく、日付のような文字に変換したいだけです。stringi
そのため、C言語で書かれているのでパッケージを使用します。残念ながら、df$birthday <- stri_join(stri_sub(df$birthday, from=c(1,5,7), to=c(4,6,8)), collapse = "-")
関数はベクトル入力をサポートしていないため、機能しません。この問題を解決する方法はありますか? どうもありがとう。
r - r の最後の単語に基づいて文字列を並べ替える
たとえば、以下に示すように、列に n 個の文字列があります。最後の単語に基づいて文字列を並べ替えたい。
希望の出力
特定の列のすべての文字列を最後の単語に基づいて並べ替えたい。ここでは、Linie 1、Linie 2 などに基づいている必要があります。
誰かが私にこれらを行う方法を教えてもらえますか。
regex - Rの変数の二重引用符の間の単語を抽出する
括弧内に示すような形式の次の入力から名前を抽出したい
以下に示すように、引用符の間の名前を抽出したいと思います。助言がありますか?