問題タブ [stringi]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
regex - 文字列内の単一パターンに一致する複数の場所を異なる置換で順次置換します
パッケージを使用stringr
すると、ベクトル化された方法で正規表現の置換を簡単に実行できます。
質問: 次のことを行うにはどうすればよいですか。
のすべての単語を置き換えます
数を増やすなど、さまざまな置換に
単純なセパレータは想定できないことに注意してください。実際の使用例はより複雑です。
stringr::str_replace_all
動作しないようです
すべての単語に適用される置換ごとにベクトルを生成するか、入力エントリが不確実または重複しているため、
目的のために動作しません。
linux - テキスト エンコーディング - Windows では問題ありませんが、nix では問題ありません
Win マシンと nix マシンのデフォルト エンコーディング (それぞれ ISO-8859-1 と UTF-8) の間でデータをロードする際に問題があります。
例 - Windows ファースト:
Windows では、上記は必要に応じて "BOAS" を生成します。
nix に移動し、保存したファイルを使用します。
ニックスは「B??S」を与える。
これは read.table エンコーディングの問題だと思いますが、nix で ISO-8859-1 を使用する方法がわかりません。助言がありますか?
r - stringdist パッケージを使用した、空白を含む変数の文字列マッチング
データセット内の文字列をジャロ距離と一致させようとしています。問題は、空白を含む文字列を一致として取得していることです。データは次のとおりです。
空白の一致を処理する方法はありますか? このような出力を期待しています。
r - ggplot2 のインストール時にエラーが発生しました。C コンパイラが必要です
ggplot2
協力者の Mac コンピュータにインストールしようとしています。次のエラーが表示されます。
Cコンパイラをインストールする必要があるようです。周りを検索した後、言及されているのは だけですgcc
。これをインストールするには、App Store から XCode をインストールする必要があります。XCode をインストールしようとすると、Mac OS 10.10 以降が必要であるというメッセージが表示されます。彼のマシンは 10.7.5 なので、インストールされません。
インストールできる方法はありますgcc
か?
regex - 正規表現によるr ngram抽出
Karl Broman の投稿: https://kbroman.wordpress.com/2015/06/22/randomized-hobbit-2/は、楽しみのためだけに正規表現と ngram をいじることになりました。正規表現を使用して 2 グラムを抽出しようとしました。これを行うためのパーサーがあることは知っていますが、正規表現ロジックに興味があります (つまり、私が満たすことができなかったのは自己課題でした)。
以下に、最小限の例と目的の出力を示します。私の試みの問題は2つあります:
グラム (単語) が消費され、次のパスで使用できなくなります。 2 番目のパスでそれらを使用できるようにするにはどうすればよいですか? (例: で以前に消費された後に
like
利用できるようにしたい)like toast
I like
単語間のスペースを非キャプチャにすることはできませんでした ( を使用したにもかかわらず、出力の末尾の空白に注意して
(?:\\s*)
ください)。 n 番目 (この場合は 2 番目) の単語の末尾のスペースをキャプチャしないようにするにはどうすればよいですか? これは簡単に実行できることを知っています:"(\\b[A-Za-z']+\\s)(\\b[A-Za-z']+)"
2グラムの場合ですが、ソリューションをnグラムに拡張したいと思います。PS私は知って\\w
いますが、アンダースコアと数字を単語の一部とは見なしませんが'
、単語の一部と見なします。
MWE:
望ましい出力:
r - R3.2.1 にアップデートした後、パッケージ 'stringi' が動作しません
この質問のバージョンが投稿されているのを見ましたが、まだ回答がありません。私は ggplot2 を使用しようとしていますが、次のエラーが発生します (RStudio バージョン 0.98.1102.
R と Rstudio の両方を更新したところ、次のようになりました。
だから当然私は試しました:
「stringi」をインストールする方法について何か提案はありますか? 私はエラー出力に慣れていません。R と Rstudio の古いバージョンに戻してみる必要がありますか? 最終的には、パッケージが更新された R で動作しないという点で、これが氷山の一角になるのではないかと心配しています。
ああ、そして:
r - R のエラー: (ソース形式でのみ利用可能で、C/C++/Fortran のコンパイルが必要な場合があるパッケージ)
「yaml」および「stringi」パッケージを R-Studio にインストールしようとしていますが、次のエラーが表示され続けます。
また
これらを正しくインストールするにはどうすればよいですか?
r - 異なる列から文字列を抽出し、R でデータを整理する
データ セットから映画タイプの文字列を抽出しようとしています。データは次の形式で、さまざまなレビュアーによってジャンル タイプがデータセットにランダムに分散されています。幸い、データセットには 4 つのジャンル タイプ (コメディ、アクション、ホラー、SF) しかありませんが、繰り返しもあります。したがって、データセットからこれらの文字列を抽出する必要があります。
次の形式の出力を期待しています。
助言がありますか?