問題タブ [r]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
math - Rに焦点を当てた応用統計の学習
私はMITとスタンフォードが彼らのコースの多くのビデオをオンラインに置いたことを知っています。Applied Statisticsのコース(ビデオはオンラインで入手可能)を知っている人はいますか?
私はRで遊んでいますが、ツール(技術的な側面から)は非常に簡単です。ただし、統計的な側面(回帰、再帰的パーティショニングなど)に関しては、私にはまったくわかりません。Applied Statisticsのコースの説明をいくつか読みましたが、まさに私が探しているタイプのコースのようです。ただし、(地元のコミュニティカレッジを探すのではなく)オンラインで視聴できるビデオがあれば、それをお勧めします。
統計を学ぶための良いビデオはありますか?できればRに焦点を当てますか?
r - Rで時間を処理するベストプラクティスは何ですか?
調査データセットを使用しています。インタビューが開始された時刻と終了した時刻をそれぞれ示す2 つの文字列vectors
とがstart
あります。finish
これらは、 、 などcharacter
のような文字列です。この2つをもとに面接の時間を計算しようとしています。これを行う最善の方法は何ですか?"9:24 am"
"12:35 pm"
日付については、 、、、またはのようなclasse
s またはsがたくさんあることを知っています。それで、のようなものを探していましたが、見つかりませんでした。作成された日付を追加し、すべてをdate-timeに変換してから使用する必要がありますか?function
as.date()
as.Date()
chron()
as.POSIXct()
as.time()
POSIX()
class
difftime()
での時間処理のベスト プラクティスは何R
ですか?
r - データフレームの受け渡しを回避するための最良の方法は何ですか?
作業するのは12data.frame
秒です。それらは類似しており、それぞれに対して同じ処理を行う必要があるため、を取り、data.frame
それを処理してから、を返す関数を作成しましたdata.frame
。これは機能します。しかし、私は非常に大きな構造物を通り過ぎているのではないかと心配しています。一時的なコピーを作成している可能性があります(私ですか?)これは効率的ではありません。data.frame
周りを通り過ぎるのを避けるための最良の方法は何ですか?
r - Y関数とは?
Y
私の友人は、私がその機能を理解しているかどうか私に尋ねました. 私はそれが何であるかさえ知りませんでした。? Y
どこにも行きませんでした。
それは何ですか?
r - リストから要素を削除するにはどうすればよいですか?
リストがあり、そこから1つの要素を削除したいと思います。これどうやってするの?
この関数のわかりやすい名前がリファレンスマニュアルにあると思うものを調べてみましたが、適切なものは見つかりませんでした。
r - 指定された X 軸の累積プロット
こんな感じのデータがあります。x軸に対してdat1の累積値をプロットしたい。また、dat2 と一緒にプロットします。
Rでそれを行う一般的な方法は何ですか?
Hmisc の ECDF を見てみましたが、私が望んでいるようには見えません。特に、x 軸の値を指定することはできません。
r - 行列の固有値を計算するのにどれくらいの費用がかかりますか?
行列の固有値を計算するのにどれくらいの費用がかかりますか?
最高のアルゴリズムの複雑さは?
1000 x 1000 のマトリックスがある場合、実際にはどのくらいの時間がかかりますか? マトリックスがスパースであれば、それが役立つと思いますか?
固有値計算が終了しない場合はありますか?
ではR
、次のおもちゃの例のように固有値を計算できます。
誰がそれが使用するアルゴリズムを知っていますか?
固有値を計算する他の (オープンソース) パッケージはありますか?
r - Rデンドログラムでエッジに色を付けたり四角形を正しく描画したりするにはどうすればよいですか?
R のと関数を使用して、このデンドログラムを生成しました。hclust()
as.dendrogram()
plot.dendrogram()
dendrapply()
関数とローカル関数を使用して葉に色を付けましたが、正常に機能しています。
ノードのセット (たとえば、ツリーの右下隅にある" _+v\_stat5a\_01_
" と " "のクラスター) が有意または重要かどうかを示す統計テストの結果があります。_+v\_stat5b\_01_
dendrapply()
また、重要な葉を含むデンドログラム内の正確なノードを見つけるために使用できるローカル関数もあります。
私はどちらかをしたいです(例に従って):
_+v\_stat5a\_01_
" " と " "を結ぶエッジに色を付け_+v\_stat5b\_01_
ます。また、- " " と " "の
rect()
周りを描く_+v\_stat5a\_01_
_+v\_stat5b\_01_
次のローカル関数があります (「nodes-in-leafList-match-nodes-in-clusterList」条件の詳細は重要ではありませんが、重要なノードが強調表示されます)。
このif
ブロック内から を呼び出してみdendrapply(n, markEdges)
ましたが、うまくいきませんでした:
_+v\_stat5a\_01_
私の理想的な例では、「 」と「 」をつなぐエッジ_+v\_stat5b\_01_
は破線で赤色になります。
私はまたrect.hclust()
、このif
ブロック内で使用しようとしました:
しかし、結果は水平樹形図 (つまり、水平ラベルを持つ樹形図) では機能しません。以下に例を示します(右下隅の赤いストライプに注意してください)。生成されるものの次元について何かが正しくなくrect.hclust()
、それがどのように機能するのかわかりません。自分のバージョンを書くことができます。
edgePar
取得または適切に動作するためのアドバイス、または独自の同等のものrect.hclust()
を作成できるようにするためのアドバイスに感謝します。rect.hclust()
アップデート
この質問をして以来、パラメーターを計算してオブジェクトgetAnywhere(rect.hclust())
を描画する関数コードを取得していました。rect
この関数のカスタム バージョンを作成して、水平および垂直の葉を処理し、 で呼び出しますdendrapply()
。
ただし、 の一部を削除するある種のクリッピング効果がありrect
ます。水平の葉 (木の右側に描かれる葉) の場合、rect
いずれかの右端が消えるか、または の他の 3 つの辺の境界幅よりも細くなりrect
ます。垂直の葉 (ツリーの下部に描かれる葉) の場合、 の一番下の端でrect
同じ表示上の問題が発生します。
rect
重要なクラスターをマークする手段として行ったのは、クラスターのエッジの先端と (水平) リーフ ラベルの間に垂直の赤いストライプをレンダリングするように幅を狭めることです。
これにより、クリッピングの問題は解消されますが、別の問題が発生します。つまり、クラスター エッジの先端と葉のラベルの間のスペースが 6 ピクセル程度しかなく、あまり制御できません。これにより、縦縞の幅が制限されます。
より悪い問題は、x
縦縞が 2 つの要素の間に収まる場所を示す座標が、より大きなツリー ( par["usr"]
) の幅に基づいて変化することです。これは、ツリー階層が最終的にどのように構造化されるかによって異なります。
x
私は「修正」、またはより適切に言えば、この値とrect
水平方向の木の幅を調整するためのハックを書きました。常に一貫して機能するとは限りませんが、私が作成しているツリーでは、エッジやラベルに近づきすぎないように (またはオーバーラップさせないように) しているようです。
rect
最終的には、クリッピングがないように を描画する方法を見つけた方がよいでしょう。x
または、特定のツリーのエッジとラベルの間の特定の位置を計算する一貫した方法で、ストライプを適切に中央に配置してサイズを調整します。
色や線のスタイルでエッジに注釈を付ける方法にも非常に興味があります。
r - R ランダム フォレスト変数の重要性
Rでの分類にランダムフォレストパッケージを使用しようとしています.
リストされている可変重要度メジャーは次のとおりです。
- クラス 0 の変数 x の生の重要度スコアの平均
- クラス 1 の変数 x の生の重要度スコアの平均
MeanDecreaseAccuracy
MeanDecreaseGini
今、私はそれらの定義を知っているように、これらの「意味」を知っています。私が知りたいのは、それらの使い方です。
私が本当に知りたいのは、これらの値がどれほど正確であるか、良い値とは何か、悪い値とは何か、最大値と最小値などのコンテキストでのみ、これらの値が何を意味するかです.
変数の値が高い場合、それは重要か重要でないかMeanDecreaseAccuracy
? MeanDecreaseGini
また、生のスコアに関する情報も役立ちます。それらの適用に関連するこれらの数値について知っておくべきことをすべて知りたい.
「エラー」、「合計」、または「順列」という言葉を使用する説明は、ランダム フォレストがどのように機能するかについての議論を含まない単純な説明よりも役に立ちません。
ラジオの使い方を誰かに説明してほしいと思ったとしても、ラジオが電波を音に変換する仕組みが説明されているとは思いません。
r - R のタイトル/ラベルのないプロット
Rでは、タイトルがなく、タイトルが占めていたスペースを使用するプロットを作成する方法はありますか?
plot()
、main
、sub
、xlab
、およびylab
すべてのデフォルトは ですが、これNULL
により、本来あったはずの場所に空白が残るだけです。それらを含めないことは、端に余分な空きスペースを残すのではなく、プロット スペース全体が利用されることを意味する場合に便利です。これはすべて、プロットをpdf()
、png()
などのファイル デバイスに出力する場合に特に関連します。