ベースラインとは何ですか?ベンチマークとは何ですか?これらの最良の定義は何ですか?また、一連の数値をどのようにベースライン化し、別のセットをベンチマークしますか?
4 に答える
SPR (Software Productivity Research)からの興味深い定義
ベースラインとベンチマークは似ていますが、異なるアクティビティです。
比喩的に言えば、ベースラインは、将来の参照のために重要なパフォーマンス特性を測定する、組織の「砂の中の線」です。
これは必ずしも「良い」状態ではありません。参考程度に。
ベンチマークは、単語自体の元の派生語によって最もよく理解されます。
材木を一定の長さに切断するなどの反復作業に従事する商人は、切断前にボードの配置を示すために作業台に切り込みを入れることがよくありました。文字通り、ベンチマークは比較の基準となり、過去の成功の指標となりました。
基本的:
- ベースラインは重要な状態の識別に関するものです。これは、数字のセットが承認ステータスを満たし、公的に認められていることを意味します。
- ベンチマークとは、アプリケーションの相対的なパフォーマンスを評価することです。
こんにちは、Gagneet です。私は Windows パフォーマンス チームに所属しています。これらの用語の使用方法は次のとおりです。
ベースラインは、後続の測定の参照として使用される既知の構成の測定値です。ベースラインとして、測定対象を特徴付けます。たとえば、コールド ブート時間を考えてみましょう。ここには、十分に特徴付けられた一連のマシンがあります。これは、マシンがどのように機能するか、優れたドライバーがあり、ハードウェアが壊れたり欠陥がないことを知っていることを意味します。
このハードウェアでは、XP-RTM、XP-SP2、Vista-RTM、Vista-SP1、Vista-SP2 など、いくつかの「ベースライン」測定があります。
これらのベースラインごとに、ブートのすべてのフェーズ、CPU の量、ディスクとメモリの使用率、DLL のロード数などを含む、十分に特徴付けられ理解された一連の測定値があります。
ベースラインが確立されたら、他の測定値を取得して、それらをベースラインと比較できます。たとえば、現在Window-7に取り組んでいます。ビルドごとに (毎日)、一連の起動時間テストを実行します。各 Win-7 ビルドのすべての特性をベースライン測定値と比較します。これには、以前のすべての Win-7 ビルドが含まれます。これにより、違いがどこにあるかを確認し、問題のある領域を掘り下げることができます。 詳細は次のとおりです。
科学研究では、ベンチマークは一種のテストであり、ベースラインは一種の結果です。
ベンチマーク テストの例を見てみましょう。英語の 5,000 文のコレクションを取得し、ラボの 4 コアの Dell マシンを使用して、さまざまなアルゴリズムを使用してスペイン語に翻訳します。データと機械を一定に保っているため、さまざまなアルゴリズムがタスクを完了するのにかかった時間と、それらの相対的な精度 (ゴールド スタンダードの人間の翻訳に対して測定) を有意に比較できます。
このベンチマーク テストのベースラインを見つけるために、コンテキストを考慮せずに、個々の単語ごとに最も一般的な翻訳を見つけるだけの非常に単純な翻訳アルゴリズムを作成することがあります。このアルゴリズムの精度を人間の翻訳と比較して測定することで、他のアルゴリズムが打ち負かす必要がある最小スコア (ベースライン) のアイデアが得られ、どのレベルの精度が「良い」と見なされるかの感触が得られます。
ベースラインとは対照的に、上限も有用な尺度です。翻訳の例では、人間による翻訳のうちの 1 つの精度を他の翻訳と比べて測定することで、上限を見つけることができます。これにより、人間の意見の相違が限界に達する前に、「正確さ」の基準をどれだけ高く達成できるかがわかります。当社の機械翻訳アルゴリズムは、ベースラインと上限の間のレベルで機能すると予想されます。
間違っている場合は訂正してください。ただし、「ベースライン」は既知の良好な状態を指し、「ベンチマーク」は現在の状態を指すと思います。ベンチマークを行い、それをベースラインと比較します。