4
  • 多くの変数があり、その多くは制御できないプロセスから最大のパフォーマンスを得たいと思っています。
  • 何千もの実験を実行できないので、何百もの実験を実行できればいいのですが
    • 多くの制御可能なパラメータを変更する
    • パフォーマンスを示す多くのパラメータに関するデータを収集する
    • 私が制御できなかったパラメータについては、可能な限り「正しい」
    • 私が制御できるものの「最良の」値をいじめ、最初からやり直します

これはデータマイニングと呼ばれるように感じます。ここでは、すぐには関連していないように見えますが、ある程度の努力の後に相関関係を示している大量のデータを調べています。

それで...私はどこでこの種のもののアルゴリズム、概念、理論を見始めますか?検索を目的とした関連用語でさえも役立つでしょう。

背景:私はウルトラマラソンサイクリングをしたり、各ライドのログを記録したりするのが好きです。より多くのデータを保持したいのですが、何百回ものライドの後、自分のパフォーマンスに関する情報を引き出すことができます。

ただし、ルート、環境(温度、圧力、ハム、太陽負荷、風、降水量など)、燃料、姿勢、重量、水負荷など、すべてが異なります。いくつかのことを制御できます。しかし、同じルートを20回実行して新しい燃料レジームをテストするのは気のめいることであり、私がやりたいすべての実験を実行するには何年もかかります。ただし、これらすべてを記録することはできます(自転車FTWのテレメトリ)。

4

3 に答える 3

2

回帰分析を行いたいようですね。確かにデータは豊富です!


回帰分析は、統計および科学において非常に一般的なモデリング手法です。(統計は回帰分析の芸術であり科学であると主張することもできます。) 必要な計算を行うための統計パッケージが数多くあります。(私は1つをお勧めしますが、私は何年も古くなっています。)

あまりにも多くの場合、相関関係は因果関係に等しいと考えられているため、データ マイニングは悪名を馳せています。良いテクニックは、影響を与えることがわかっている変数から始めて、まずそれらに基づいて統計モデルを構築することです。風、重量、上昇が移動速度に影響を与え、統計ソフトウェアがデータセットを取得して、これらの要因間の相関関係を計算できることがわかります。これにより、統計モデルまたは線形方程式が得られます。

speed = x*weight + y*wind + z*climb + constant

新しい変数を探索すると、R-squared などの適合度メトリックを比較することで、モデルが改善されているかどうかを確認できます。そのため、気温や時刻がモデルに何かを追加するかどうかを確認できます。

データに変換を適用したい場合があります。たとえば、寒い日にパフォーマンスが向上することがあります。ただし、非常に寒い日や非常に暑い日は、パフォーマンスが低下する可能性があります。その場合、温度をビンまたはセグメントに割り当てることができます: < 0°C; 0°C ~ 40°C; > 40°C、またはそのようなもの。重要なのは、データ自体だけでなく、現実の世界で起こっていることの合理的なモデルに一致する方法でデータを変換することです。


これがプログラミング関連のトピックではないと思われる場合は、これらの同じ手法を使用してシステム パフォーマンスを分析できることに注意してください。

于 2008-09-19T22:03:01.820 に答える
2

多くの変数を使用すると、次元が多すぎるため、主成分分析を確認することをお勧めします。回帰分析から「アート」の一部を取り出し、データ自体に語らせます。この種の分析を行うソフトウェアは、リンクの下部に示されています。

于 2008-09-19T22:52:43.620 に答える
1

私は過去に似たような問題にPerl モジュールのStatistics::Regressionを使用したことがあります。ただし、回帰分析は間違いなく芸術であることに注意してください。Perl モジュールの警告にあるように、適切な数学を学んでいないと意味がありません。

于 2008-09-19T22:47:46.703 に答える