2

これまで、「ベンダー」による過去のパフォーマンスの要約を使用して、各ベンダーに新しいビジネスを割り当てる方法を決定してきました。

今、私たちがやりたいのは、その要約パフォーマンスを地理、サイズ、年齢などの小さなサブセットに分割して、ベンダーに提供する新しいビジネスをより適切に割り当てることです。

たとえば、現在、3つのベンダーと9つのビジネスを配布しているとします。現在、私は業績の要約に基づいてビジネスを配っています。ただし、地理、サイズ、年齢などによるそれぞれの長所は考慮されていません。

つまり、Vendor-Aは小さなテキサスのアカウントを処理するのが本当に得意であり、Vendor-Bは大きなフロリダのアカウントをうまく処理できるとしましょう。私は、各ベンダーが得意なものを手に入れ、得意でないビジネスを獲得しないようにしたいのです。

このすべての情報はデータベースにありますが、それを抽出して、誰にどの程度の種類のビジネスを提供するかについての決定に基づく実際のアルゴリズムやアプローチはありません。このタスクについてSQLServerAnalysis Servicesを調査しましたが、これを行うために使用する必要があるアルゴリズムについて、いくつかの非常に一般的なポインターを使用できます。

より良い予測を行うためにデータのセグメンテーションを処理するように設計されたアプローチまたはアルゴリズムを知っている人はいますか?

4

6 に答える 6

5

処理する履歴データがかなり大量にある場合は、単純ベイズ分類器を使用できます。アカウントの機能を入力として使用して、分類子のファミリーをトレーニングして、各ベンダーのパフォーマンスを予測できます。

選択した言語にはおそらく無料の実装がすでに存在しますが、基礎となる理論について読み、それを適切に使用していることを確認し、どのような種類の出力が妥当であるかを理解する必要があります。

于 2009-06-19T17:48:42.117 に答える
3

ナイーブベイズは良い選択ですが、決定木も検討したいと思います。デシジョンツリーを使用する主な利点は次のとおりです。

  1. 人間が何が起こっているのかを理解し、微調整するのは簡単です。
  2. トレーニング対象のデータセットが少ない場合でも、これはうまく機能します。

しかし、あなたが決めるものは何でも、最も難しい部分はあなたのデータを特定の属性に変換することです。これは、特定のアルゴリズムに合わせて調整することと、トレーニングが具体的になりすぎないようにすることの両方を目的としています。

例:数値としての年齢の代わりに、意思決定の目的で年齢範囲(0-10、11-20、...)を指定することに関心がある場合があります。地理、都市なども同様です。

于 2009-06-19T18:18:17.250 に答える
2

一般的な量を数値に変換する:(編集で追加)

データから品質メトリック(「良さ」の尺度)を取得し、これらの多くを数値に変換するための何らかの方法が必要です。考えられる指標は、タスクを完了する時間(初期見積もりではなく、これについて嘘をついているかどうかを確認するため)、コスト、コストと見積もりコスト(真実の見積もりが得られるかどうかを確認するため)、および顧客満足度に関連するある種のコングロマリットです。彼らが取り組んだプロジェクトに。

以前の契約の地域/地域は、特定のトランザクションの地域の中心(IE「カリフォルニア」または「米国」)およびその地域の幅-x、幅-y(エラー境界)のX、Yを使用したGPS座標としてコード化できます。 )地理が重要かどうかを確認するには、新しい契約から一定の距離内にある以前のすべてのビジネスを見つけます(単純な形式:以前のすべてのトランザクションの距離を確認するだけ、大量のデータを含む複雑な形式:ある種のクラスタリングアルゴリズムまたは3-d表面抽出)。

次に、(現在の希望する取引場所と以前の取引場所の間の距離)を差し引いた(以前の商取引の品質メトリック)の加重平均を実行します。複雑ですが、地域のビジネス指標が得られます。

意味を抽出するためのデータの分析

データを標準のCSVタプル(会社ID、地域コード/座標、アカウントサイズ、パフォーマンスメトリック)に変換してから、統計的回帰と数値分析手法を実行することをお勧めします。あなたの目標は、各特性の観点から会社の業績を説明する一連の方程式です。 主成分分析は、企業の業績にとって最も重要な特性を特定することにより、このプロセスを簡素化できます。

ソフトウェアの選択:

正直なところ、この種の分析は、純粋な統計と数学であるため、SQL分析エンジンではなく、統計またはデータマイニングソフトウェアのドメインです。メトリックと特性が数値で明確に定量化できる場合は、R、Matlab、Mathematicaなどが適切な選択です。データセットが非常に大きい場合は、入手できる最も堅牢なパッケージに投資することをお勧めします。

最適な候補企業の選択:単純なケース

最適な候補にビジネスを割り当てる問題は、古典的な最適化問題です。変数とパフォーマンスの関係が線形である場合は、非常に便利なケースがあります。 線形計画法は、その種の問題を正確に最適に解決するように設計されています(関係を抽出できると仮定します)。

最適な候補企業の選択:複雑なケース

パフォーマンス対特性の方程式が非線形である場合、最適なソリューションを見つけるためにファジーロジックが必要です。これは、非常に高度なアルゴリズムを使用して、変数がたくさんある場合にビジネスに非常に優れた(必ずしも最良ではない)ソリューションを見つけます。経験から、Mathematicaには非線形最適化のための(遺伝的アルゴリズムに基づく)一流の最適化ツールのセットがあり、Matlabにはその問題を解決するためのファジー論理/遺伝的アルゴリズムもあります。その他のツールについては、「グローバル非線形最適化」を参照してください。

于 2009-06-19T17:58:35.660 に答える
0

そのための1つの方法は、地理的な場所、アカウントのサイズ、価格、納期など、関心のあるすべての特性を一覧表示することです。

次に、各ベンダーを各特性(たとえば、1から10)でスコアリングします。

次に、各特性に優先順位を付けます。1から10にすることもできます。

この優先順位は、一般的なものでも、ジョブごとのものでもかまいません。

次に、必要な特性ごとにベンダースコア*優先度を「単純に」乗算します。合計が最も多いものが仕事を取得します。

于 2009-06-19T17:55:11.127 に答える
0

履歴データの分散を計算します。これは、将来表示される内容を「予測」するために使用できます。「未来は過去のようなものになる」という仮定があなたのプロセスにとって理にかなっているなら。それはかなり単純で、多くのSQLサーバーは計算を行うのに役立つビルトインを提供します。

于 2009-06-19T18:21:23.987 に答える
0

回帰分析、特に線形回帰が必要です。

于 2009-06-19T18:29:59.150 に答える