短い説明:
SQLAnalysisサービスまたはその他のSQLServerサービスを使用して、データセット内のSQLTEXTフィールド間の共通性を示すデータをマイニングできるかどうかを知りたいです。
長い説明
問題追跡(チケット発行)ソフトウェアのメモ列として使用される約10,000行のTEXTブロブで構成されるデータのサブセットを調べています。すべての行を解析し、[メモ]列で一般的に使用されるバイトシーケンスを見つけることができる可能性のあるものを(何かを構築することなく)すぐに使用したいと思います。言い換えれば、一般的に使用されるフレーズ(2〜3語のフレーズ、つまりTEXT BLOBの9〜20文字のセクション)を見つけたいと思います。これは、アソシエイトのメモに、トラブルシューティングプロセスフローで標準化できる類似のフレーズ(トラブルシューティング手法)が含まれているかどうかをより適切に判断するのに役立ちます。
クロージングノート
私の方法はおそらくそれを行うための最も効率的な方法ではないので、私は実際にはこれを行うためのアプリケーションを構築したくありません。
または、すぐに使用できるソリューションを誰も知らない場合は、コードで使用できる可能性のあるアルゴリズムをお勧めします。ここでは、値の配列に対して文字列の比較を行うことができます。
うまくいけば、これはすべて理にかなっています。何か説明が必要な場合は、コメントで知らせてください。