問題タブ [data-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - パラメーター制限付きの root miniuit2 等高線
ROOTデータ分析フレームワークの一部である Minuit2 ミニマイザーを使用して、物理的な制限を持つパラメーターの等高線図を作成しようとしています。残念ながら、Minuit2 は、等高線図を作成しようとすると、パラメーターを制限外の領域にドリフトさせようとしているようです。
他の誰かがこれまたは同様の問題に対処しましたか? 回避策はありますか?
私はすでにROOT フォーラムでこの質問をしましたが、これまたは同様の問題に対処したスタック オーバーフロー ユーザーもいるかもしれないと思いました。
java - ASMコードで特定の「データ分析」を実行するJavaツール
JavaクラスまたはEclipseで使用できるものを使用したASMコードの特定の「データ分析」が必要です。具体的には、次の順序で変数の3つのステップを識別する必要があります。1)使用; 2)初期化; 3)削除します。
ありがとう。
python - date_range を使用してタイムスタンプ付きデータのインデックスを再作成する
私はpandas.Series
タイムスタンプ付きのデータを持っています - 基本的には一連のイベントです:
各期間のイベント数を保持pandas.TimeSeries
する特定のpandas.date_range
(例: 15 分間隔; )を作成したいと思います。pandas.date_range(start, end, freq='15T')
これはどのように達成できますか?
ありがとう、ピーター
r - Rはデータフレームのパーセンテージ値を計算します
今日の私の質問は、Rで作業しているデータフレームに関するものです。データフレームのヘッダーは次のようになります:String(unique)、Integer N [0-23]
これらの24の整数値は、1日の各時間に関連付けられた文字列の頻度を表します。論理的には、各行のint値は、一般にデータに文字列が表示される頻度の合計になります。
つまり、特定の時間における文字列の実際の頻度は必要ありませんが、この頻度がすべての行の整数値の合計に対して表すパーセンテージです。
私の講師は、table()がそのための適切なRツールである可能性があることをほのめかしましたが、それがどのように役立つかを正直に理解していません。
他のすべてが失敗した場合は、Javaで計算します-Rでこれを行うためにあなたの助けを本当に感謝しますが。
これまで読んでくれてありがとう、そしてあなたの助けを前もって感謝します、
リッキーフォックス
@@@@@@私はあなたの編集です、私を読んでください@@@@@@
ジェームズから得た助けを借りて、私は次の適切なものを手に入れました
つまり、パーセンテージの合計は各行で100になりますが、テーブル全体でそうする必要があります。それを行う方法はありますか?
r - R でのビッグデータ分析でどこに時間を投資するかを決定するのに苦労する
R は知っている、SQL は知っている、Windows を使用している、予算は 0 ドル、データは 1 テラバイト、プロセッサは 12 個、RAM は 96GB あり、速度の向上が報われるのであれば、新しいソフトウェアを学習する意欲がある長期的にはオフ。
記述統計と回帰を実行する必要があります。
選択肢が多すぎます。全精力をどこに注ぐべきか?ありがとう。
python - MultiIndexを使用したPandasDataFrame:インデックスの1つで重複する要素をチェックする効率的な方法
私は次のようなデータを扱っています:
この投稿で示唆されているように、私はそれをMultiIndexで処理しています。ただし、このような構造で、追加のチェックをどのように行うのか疑問に思います。さらに詳しく説明しましょう。各「サンプル」列には、1(重複なし)からいくつかの重複要素まで、繰り返される「検出器」要素の数が固定されています。各サンプル要素について、検出器の数が常に同じであることを確認したいと思います(つまり、P_1に3つの「106」検出器がある場合、P_2にも3つの「106」検出器が必要です)。
現在、私はこれをかなり大雑把にやっています:
それは私には非常にハッキーなようで、おそらくパンダでこれを行うためのより良い方法があります。これはどのように達成できますか?
solr - ヒンディー語の音声フィルタ ファクトリ
私は Apache solr を使用しています。音声フィルタ ファクトリを使用しようとしています。solr.PhoneticFilterFactory で使用できるすべてのエンコーダを試しましたが、いずれもインド語をサポートしていません。ヒンディー語、タミル語、ベンガル語などのインド言語の音声表現を取得できるように、他のフィルター/メソッドはありますか?
そうでない場合は、既存のフィルターを変更してこれらの言語をサポートする方法を教えてください。
python - pandas: コピーなしの階層インデックスのスライス
階層インデックスの特定のレベルにあるいくつかの行の DataFrame エントリを変更したいと考えています。標準的な例を次に示します。
行を 0 に設定したいと思いsecond==2
ます (たとえば)。メソッドを使用してみDataFrame.xs
ましたが、ビューではなくコピーを返します:
最後の割り当ては影響しませんでしたdata
(もちろん値が変更されましたselected
)。
python - pandas DataFrame で列のペアの減算を計算する
私はかなりのサイズ (48K 行、最大数十列) の DataFrame を扱っています。それらの操作のある時点で、列値のペアごとの減算を行う必要があり、私が行っている方法よりも効率的な方法があるかどうか疑問に思っていました (以下を参照)。
私の現在のコード:
データは大きくなる可能性があるため (順列テスト中にもこのコードを使用しています)、少し最適化できるかどうか知りたいです。
編集: 要求に応じて、典型的なデータ セットのサンプルを次に示します。
そして、典型的な結果は、「A」グループがgroup1
「B」group2
であり、各 ID 行に対して、各列に対して上記で生成されたペアリングに対応するペア (例えば、A1_B1、A2_B1、A3_B1...) を持つ場合、各行 ID の減算を含みます。
statistics - Rapidminer のデシジョン ツリーに最適なパラメータは何か
14 個の通常の属性を持つ一連のデータがあります。このトレーニング データからRapidminerで最適なデシソン ツリーを作成して、このツリーをスコアリング データに使用できるようにしようとしています。
しかし、デシジョン ツリーに使用するパラメーターがわかりません (例: 基準、最小ゲイン、信頼度など)。また、自分のモデルに適用できる/適用する必要がある他の演算子を (もしあれば) わかりませんか?
何が最適かについての一般的なヒントを誰か教えてもらえますか?
私が持っているデータは、誰かが新しい銀行口座を開設した場合、信用状態が良好かどうかを判断するためのものです. 信用度、口座の種類、履歴、職歴、性別、職業などの情報を持っています。
ありがとうございました。