問題タブ [t-test]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 行/列が入れ替わった 2 つの異なるデータ フレームで t 検定を実行しますか?
わかりにくいタイトルで申し訳ありませんが、これは説明が少し難しいです。基本的に、次のような 2 つのデータ テーブルがあります。
したがって、df1 のすべてのエントリは、df2 の列名に対応します。私の目標は、df1$pval に t 検定の p 値を入力することです。df1 のすべての行について、df1$SNP の値に一致する df2 列を比較する t 検定を実行し、それを df1$Gene.ID の値に一致する df2 列と比較します。
たとえば、df1 の最初の行では、df2$W と df2$A を比較し、結果の p 値を df1[1, 3] 内に返します。2 行目では、df2$X と df2$B を比較し、df1[2, 3] の p 値を返します。つまり、次のようなものです。
colnamesただし、単一の列名だけでなく、関数を使用して複数の列名しか選択できないため、これは機能しません。これを回避する方法についての提案は大歓迎です。または、より簡単な方法を念頭に置いている場合は、それも素晴らしいでしょう。
apache-spark - Sparkで簡単なt検定を実行するには?
私の目標は、 https://spark.apache.org/docs/2.0.2/api/java/org/apache/spark/mllib/stat/test/StudentTTestに記載されているメソッドを使用して、Spark Scala で t 検定を実行することです。 .html . 私のデータがデータフレームで与えられているとしましょう:
今、私は試しました
しかし、これでエラーが発生しました:<console>:29: error: object StudentTTest in package test cannot be accessed in package org.apache.spark.mllib.stat.test
私は何を間違っていますか?
python - scipy と Excel が生成する 2 サンプル t 検定の p 値がわずかに異なるのはなぜですか?
の場合python、デフォルトでは両側検定です。
私は得た
Excel、Dataタブ - Data Analysis-ではt-Test: Two-Sample Assuming Unequal Variances、 に対して同じ値を取得しましたが、 (0.1084... vs 0.1082...)tに対してわずかに異なる値を取得しましたp
理由を聞いてもいいですか?
r - ビッグデータフレーム: 数千の因子についてグループ間で「繰り返される」t検定
データラングリングと「反復」t検定に関連する多くの投稿を読みましたが、私の場合はそれを達成する方法がわかりません。
ここで StackOverflow のサンプル データセットを取得できます: https://www.dropbox.com/s/0b618fs1jjnuzbg/dataset.example.stckovflw.txt?dl=0
次のような gen 式の大きなデータフレームがあります。
各グループには 5 匹の動物がいて、各動物には定量化された多くの遺伝子があります。(ただし、各動物は定量化された遺伝子の異なるセットを持っている可能性がありますが、多くの遺伝子は動物とグループ間で共通です)。
治療グループ (A、B、C、または D) とコントロールの間の各世代に対して t 検定を実行したいと思います。データは、各グループの各世代の p 値を含む表として提示する必要があります。
非常に多くの世代 (千) があるため、各世代をサブセット化することはできません。
手順を自動化する方法を知っていますか?
私はループについて考えていましたが、それが私が望むものとどのように進めるかを達成できるかどうかは絶対にわかりません.
また、apply関数を使用してこれらの投稿を詳しく調べていました: Apply t-test on many columns in a dataframe split by factor and Looping through t.tests for data frame subsets in r
@andrew_reece : ありがとうございます。それはほぼ正確に私が探していたものです。しかし、t-testでそれを行う方法が見つかりません。ANOVA は興味深い情報ですが、処理されたグループのどれが私のコントロールと有意に異なるかを知る必要があります。また、どの治療グループが「2 つずつ」互いに有意に異なるかを知る必要があります。
「t.test(…)」の「aov(..)」を変更して、コードを使用しようとしています。そのために、まず、2 つのグループのみを比較するために、subset(b, condition == "control" | condition == "治療 A" ) を実現します。ただし、結果テーブルを csv ファイルにエクスポートすると、テーブルがわかりにくくなります (遺伝子名、p 値などはなく、数値のみ)。私はそれを適切に行う方法を探し続けますが、今まで行き詰まっています。
@42:
これらのヒントをありがとうございました。これは単なるデータセットの例です。個々の t 検定を使用する必要があると仮定しましょう。
これは、データを探索するための非常に便利な出発点です。たとえば、私は自分のデータをベン図で表そうとしています。コードを書くことはできますが、それは最初のトピックから外れています。また、条件の各組み合わせで検出された共有の「遺伝子」をあまり気難しい方法で要約する方法がわからないため、条件を 3 つだけ簡略化しました。
r - R は、3 つのサンプルを持つ 2 つのグループを使用して、各行の T 検定/Anova を実行します。
私のデータセットは次のようになります。
列 [2:4] と [5:7] の各行 (複合) に対して t 検定を実行し、すべての p 値を保存したいと考えています。基本的には化合物ごとにAC群とAM群に違いがあるかどうかを見ます。
これには別のトピックがあることは承知していますが、私の問題に対する実行可能な解決策が見つかりませんでした。
PS。私の実際のデータセットには約35000行あります(4行だけではなく、別のソリューションが必要かもしれません)

