問題タブ [statistics]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql-server - SQL Server 2005 の「統計の作成」は何をしますか?
データベース チューニング アドバイザーは、データベースに多数の統計を作成することを推奨しています。私はSQLの一種なので、そのような生き物に出くわしたのはこれが初めてでした. MSDN のエントリは少しわかりにくかったです。これが正確に何をするのか、なぜそれが良い考えなのか説明してもらえますか?
.net - オープンソースの.NET統計ライブラリを推奨する
一連の数値データの平均、標準偏差、中央値などを計算する必要があります。使用できる優れたオープンソースの.NETライブラリはありますか?私はNMathを見つけましたが、それは無料ではなく、私のニーズにはやり過ぎかもしれません。
algorithm - 数値セットの類似性をスコアリングするアルゴリズム
複数の数値セットをターゲット セットと比較して、どれが最も「似ている」かを判断するアルゴリズムは何ですか?
このアルゴリズムの用途の 1 つは、今日の 1 時間ごとの天気予報を過去の天気記録と比較して、天気が似ている日を見つけることです。
2 つのセットの類似性は少し主観的なものであるため、アルゴリズムは実際には、良い一致と悪い一致を区別する必要があります。過去のデータがたくさんあるので、近いものは自動で捨てて、「ベストマッチ」が上位にくるようにして、ユーザーが閲覧しなければならない日数を絞り込みたいと思います。リスト。
編集: 理想的には、アルゴリズムの結果は、異なるデータ セットを使用した結果に匹敵します。たとえば、ナイルズが提案する平均二乗誤差を使用すると、かなり良い結果が得られますが、データのスケールが異なるため、温度を比較するときに生成される数値は、風速や降水量などの他のデータで生成される数値と比較することはできません. 気象以外のデータの一部は非常に大きいため、温度を使用して生成される数十または数百と比較して、平均二乗誤差アルゴリズムは数十万の数を生成します。
c++ - 数値配列の最大差を見つけるアルゴリズム
私は数百万の数字の配列を持っています。
配列を反復処理して、範囲 (配列内の最大値から最小値を引いた値) を見つける必要があります。ただし、落とし穴があります。最小値と最大値が互いに 1,000 サンプル以内にある範囲を見つけたいだけです。
したがって、次の最大値を見つける必要があります: range(data + 0, data + 1000), range(data + 1, data + 1001), range(data + 2, data + 1002), ...., range(data + 3599000、データ + 3600000)。
それが理にかなっていることを願っています。基本的には上記のようにできますが、もっと効率的なアルゴリズムがあれば探しています。上記のアルゴリズムはO(n)だと思いますが、最適化できる感じです。私が遊んでいるアイデアは、最新の最大値と最小値、およびそれらがどれだけ遡るかを追跡し、必要な場合にのみバックトラックすることです。
これを C++ でコーディングしますが、疑似コードの優れたアルゴリズムでも問題ありません。また、私が見つけようとしているこの番号に名前がある場合は、それが何なのか知りたいです。
ありがとう。
statistics - インターフェイスの変更によってユーザビリティが向上したか、または低下したかをどのように測定しますか?
e コマース Web サイトの場合、サイトの変更によって実際にユーザビリティが向上したかどうかをどのように測定しますか? どのような測定値を収集する必要がありますか?また、このテストを開発の一部にするためのフレームワークをどのように設定しますか?
algorithm - テキスト コンテンツにジオタグまたはジオラベルを付ける方法
テキストに都市/地域または起源を自動的にラベル付けするための優れたアルゴリズムは何ですか? つまり、ブログがニューヨークに関するものである場合、プログラムでどのように伝えることができるでしょうか。ある程度確実にこれを行うと主張するパッケージ/ペーパーはありますか?
私はいくつかの tfidf ベースのアプローチ、固有名詞の交差を見てきましたが、これまでのところ目覚ましい成功はありません。アイデアをいただければ幸いです。
より一般的な質問は、トピックのリストが与えられた場合のトピックへのテキストの割り当てに関するものです。
シンプル/単純なアプローチは、ベイジアン アプローチで完全に好まれましたが、私はオープンです。
oracle - パーティション交換によるテーブルロード (Oracle 10g)
このタイプの負荷の最適化についていくつか質問があります。
パーティション化されたテーブルにロードするデータの新しいテーブルを構築し、この新しいテーブルにインデックスを構築します。
COMPUTE STATISTICS オプションを使用してインデックスを構築する必要がありますか、それとも DBMS_Stats の Cascade オプションを使用する必要がありますか?
スワップ前のテーブルまたはスワップ後のパーティションで統計を収集する必要がありますか?
スワップ後にそれを行い、パラメーター リストでパーティション名を指定した場合、粒度パラメーターにはどのような相互作用がありますか? たとえば、パーティション名を指定してから粒度を「GLOBAL AND PARTITION」に設定すると、グローバルになりますか? その1つのパーティションだけを行いますか?
linux - LinuxでGetProcessIoCountersに相当するものは何ですか?
Windowsのドキュメントへのリンクは次のとおりです。
基本的には同様のデータを取得したいのですが、Linux上です。すべてが可能ではない場合は、少なくともいくつかの部分。
oracle - oracletempテーブルスペースを使用しているプロセス/クエリを検出します
Oracle FAQでは、一時表スペースを次のように定義しています。
一時表領域は、データベースのソート操作およびグローバル一時表の保管のためのスペースを管理するために使用されます。たとえば、2つの大きなテーブルを結合し、Oracleがメモリ内でソートを実行できない場合、ソート操作を実行するためのスペースが一時表領域に割り当てられます。
それは素晴らしいことですが、スペースを正確に使用しているものについての詳細が必要です。アプリケーション設計の癖のため、ほとんどのクエリはある種の並べ替えを行うため、クライアントの実行可能ファイル、ターゲットテーブル、またはSQLステートメントに絞り込む必要があります。
基本的に、私はこれ(かなり大きなアプリケーション)の何が悪いのかをより正確に教えてくれる手がかりを探しています。「ソート」よりも正確である限り、あらゆる種類の手がかりが役立つ可能性があります。
performance - Oracle SGA を使用しているプロセス/クエリを検出する
SGA (非) 使用率を監視するためのクエリがあります。
それは素晴らしいことですが、スペースを正確に使用しているものについて、さらに詳細が必要です。本質的に、私はこれ (かなり大規模なアプリケーション) の何が問題なのかをより正確に教えてくれる手がかりを探しています。
select * from v$sgastat
開発者として認識できるものは何も提供しません-少なくともいくつかの指針がなければ.