一般的な量を数値に変換する:(編集で追加)
データから品質メトリック(「良さ」の尺度)を取得し、これらの多くを数値に変換するための何らかの方法が必要です。考えられる指標は、タスクを完了する時間(初期見積もりではなく、これについて嘘をついているかどうかを確認するため)、コスト、コストと見積もりコスト(真実の見積もりが得られるかどうかを確認するため)、および顧客満足度に関連するある種のコングロマリットです。彼らが取り組んだプロジェクトに。
以前の契約の地域/地域は、特定のトランザクションの地域の中心(IE「カリフォルニア」または「米国」)およびその地域の幅-x、幅-y(エラー境界)のX、Yを使用したGPS座標としてコード化できます。 )地理が重要かどうかを確認するには、新しい契約から一定の距離内にある以前のすべてのビジネスを見つけます(単純な形式:以前のすべてのトランザクションの距離を確認するだけ、大量のデータを含む複雑な形式:ある種のクラスタリングアルゴリズムまたは3-d表面抽出)。
次に、(現在の希望する取引場所と以前の取引場所の間の距離)を差し引いた(以前の商取引の品質メトリック)の加重平均を実行します。複雑ですが、地域のビジネス指標が得られます。
意味を抽出するためのデータの分析
データを標準のCSVタプル(会社ID、地域コード/座標、アカウントサイズ、パフォーマンスメトリック)に変換してから、統計的回帰と数値分析手法を実行することをお勧めします。あなたの目標は、各特性の観点から会社の業績を説明する一連の方程式です。 主成分分析は、企業の業績にとって最も重要な特性を特定することにより、このプロセスを簡素化できます。
ソフトウェアの選択:
正直なところ、この種の分析は、純粋な統計と数学であるため、SQL分析エンジンではなく、統計またはデータマイニングソフトウェアのドメインです。メトリックと特性が数値で明確に定量化できる場合は、R、Matlab、Mathematicaなどが適切な選択です。データセットが非常に大きい場合は、入手できる最も堅牢なパッケージに投資することをお勧めします。
最適な候補企業の選択:単純なケース
最適な候補にビジネスを割り当てる問題は、古典的な最適化問題です。変数とパフォーマンスの関係が線形である場合は、非常に便利なケースがあります。 線形計画法は、その種の問題を正確に最適に解決するように設計されています(関係を抽出できると仮定します)。
最適な候補企業の選択:複雑なケース
パフォーマンス対特性の方程式が非線形である場合、最適なソリューションを見つけるためにファジーロジックが必要です。これは、非常に高度なアルゴリズムを使用して、変数がたくさんある場合にビジネスに非常に優れた(必ずしも最良ではない)ソリューションを見つけます。経験から、Mathematicaには非線形最適化のための(遺伝的アルゴリズムに基づく)一流の最適化ツールのセットがあり、Matlabにはその問題を解決するためのファジー論理/遺伝的アルゴリズムもあります。その他のツールについては、「グローバル非線形最適化」を参照してください。