問題タブ [splitstackshape]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - sep = "." の使用 「data.table」の「fread」
「 data.table fread
」から強制的に値"."
として正常に使用できsep
ますか?
「splitstackshape」で関数fread
を高速化するために使用しようとしています。私が採用している一般的なアプローチについては、この Gistを参照してください。切り替えを行う理由については、この質問を参照してください。concat.split
私が直面している問題は、ドット ( "."
) を の値として扱うことですsep
。そうするたびに、「予期しない文字」エラーが発生します。
次の単純化された例は、問題を示しています。
現在の関数で使用している回避策は"."
、元のデータには存在しないことが望ましい別の文字、たとえば"|"
で置き換えることですが、他の誰かのデータセットに何があるかを予測できないため、危険に思えます。これが実際の回避策です。
この質問では、データのバランスが取れていると仮定します (各行には同じ数の " sep
" 文字が含まれます)。セパレーターとして aを使用することは最善のアイデアではないことは承知していますが、ここ SO で回答した他の質問"."
に基づいて、他のユーザーがデータセットに持っている可能性があるものを説明しようとしています。
r - merged.stack (または reshape) を使用して幅の広いテーブルから長いテーブルを作成する
次のようなデータフレームがあります。
yy_test_20xx 列に NA がない ID について、列タイトルから取得した件名、テスト名、テスト スコア、および列タイトルから取得した年を含む新しいデータ フレームを作成するスクリプトを作成したいと考えています。 . したがって、この例では、ID 1 には 3 つのエントリがあります。予想される出力は次のようになります。
私は reshape とさまざまな形式の merged.stack の両方を試しました。これは、正しい道を進んでいる出力を取得するという意味で機能しますが、そこに到達するのに十分なほど入力を理解できません。
私は reshape でより多くの成功を収めました (近づきました):
r - R での列の分割
私は R を初めて使用し、17 列と 100 万行を超える大きなデータセットを持っています。列の 1 つを区切り記号「/」で 4 つに分割したいと考えています。Rが以下のコマンドを完了するのに永遠にかかります。以下を完了するためのより良い方法はありますか。できるだけ多くのコード情報を提供しましたので、ご協力いただければ幸いです。
r - 1 つの文字列変数から複数のダミー変数を作成する
この同様の質問からほとんどすべてを試しましたが、他の誰もが得ていると思われる結果を得ることができません。これは私の問題です:
私はこのようなデータフレームを持っており、各教師が扱う成績をリストしています:
teaches
次のように、変数を列に分割するソリューションを探していました。
私はライブラリを含むこの解決策を理解しており、回答者の説明を考えるsplitstackshape
と、明らかに非推奨の関数は私が望むことを正確に行うはずです。concat.split.expanded
ただし、同じ結果に到達できないようです。
を使用するcSplit
と、「以前のほとんどの concat.split* 関数」に取って代わることがわかりました。次のようになります。
cSplit
のヘルプを使用して、これらのパラメーターをすべて微調整しようとしましたが、その分割を取得できません。助けていただければ幸いです。
r - 手動で指定せずに data.table が数値変数を文字変数に強制するのを防ぐ方法は?
次のデータセットを検討してください。
最後の列の文字列を別々の行に分割したい場合は、(data.table
バージョン1.9.5+で):
ただし、使用する場合:
すべての列が文字変数に強制されることを除いて、同じ結果が得られます。問題は、小さなデータセットの場合、by
引数で分割する必要のない変数を指定することは大きな問題ではありませんが、多くの列/変数を持つデータセットの場合は大きな問題です。splitstackshape
パッケージでこれを行うことが可能であることは知っていますが( @ColonelBeauvelの回答でdata.table
言及されているように)、これにさらに操作を連鎖させたいため、解決策を探しています。
by
引数で分割する必要のない変数を手動で指定せずに、どうすればそれを防ぐことができますか?
r - 無関係/類似の観測を 1 つ (その他) にまとめる
近所ごとに認識されている問題について調査を行った後、このデータフレームを取得しました。調査にはさまざまな選択肢と自由回答があったため、自由回答の質問の結果はしばしば無関係です (以下を参照)。
このデータフレームの結果:
ご覧のとおり、9 行目以降の結果はほとんど無関係です (選択肢ごとに 1 つまたは 2 つの回答者のみ)。そのため、近隣との関係を失うことなく(「その他」などの) 単一の選択肢にグループ化することを望みます(つまり、なぜ今すぐ値の名前を変更できないのですか)。助言がありますか?
r - splitstackshape/data.frame と tidyr/dplyr が読み込まれているときに cSplit を実行するとエラーが発生する
名簿マイニングを自動化しようとしています。ある時点で、セパレーター付きの名前に基づいて行を分割する必要があるため、splitstackshape の cSplit は完璧です。また、多数の dplyr データ シェーピングを使用して、分割の前後を行っています。
読み込まれたライブラリ:
問題は、data.frame の後に dplyr をロードすると、次のメッセージが表示されることです。
次に、cSplit を使用しようとすると:
次のエラーが表示されます。
さまざまな順列を試しました - このエラーは、data.frame と dplyr の両方が (いずれかの順序で) ロードされている場合にのみ発生し、dplyr なしで R を再起動するか、ロードしないと cSplit が正常に動作します。
ただし、両方を同時に使用できるようにする必要があり、dplyr を切り離しても役に立ちません (dplyr が見つからないというエラーが発生するだけです)。
このスレッドを見たことがありますが、データが破損しているという結論に達したようです。これは、おもちゃのデータセットで実行すると、
それは正常に動作します。しかし、この「破損」を修正する方法がわかりません。