0

短い説明:

SQLAnalysisサービスまたはその他のSQLServerサービスを使用して、データセット内のSQLTEXTフィールド間の共通性を示すデータをマイニングできるかどうかを知りたいです。

長い説明

問題追跡(チケット発行)ソフトウェアのメモ列として使用される約10,000行のTEXTブロブで構成されるデータのサブセットを調べています。すべての行を解析し、[メモ]列​​で一般的に使用されるバイトシーケンスを見つけることができる可能性のあるものを(何かを構築することなく)すぐに使用したいと思います。言い換えれば、一般的に使用されるフレーズ(2〜3語のフレーズ、つまりTEXT BLOBの9〜20文字のセクション)を見つけたいと思います。これは、アソシエイトのメモに、トラブルシューティングプロセスフローで標準化できる類似のフレーズ(トラブルシューティング手法)が含まれているかどうかをより適切に判断するのに役立ちます。

クロージングノート

私の方法はおそらくそれを行うための最も効率的な方法ではないので、私は実際にはこれを行うためのアプリケーションを構築したくありません。

または、すぐに使用できるソリューションを誰も知らない場合は、コードで使用できる可能性のあるアルゴリズムをお勧めします。ここでは、値の配列に対して文字列の比較を行うことができます。

うまくいけば、これはすべて理にかなっています。何か説明が必要な場合は、コメントで知らせてください。

4

1 に答える 1

1

SQL Server Integration Services(EnterpriseエディションおよびDevエディション)のテキストマイニング変換を使用して用語検索と用語抽出を実行し、AnalysisServicesの相関ルールを使用して用語関連付けモデルを構築できます。まだ機能するはずのエージングチュートリアルがあります(無料ログインが必要です)

これに関連する何かを今年後半に発表する予定です。ベータテストに興味がある場合は、当社のWebサイト(predixionsoftware.com)にフィードバックを残すことができます。

-Jamie MacLennanCTOPredixionソフトウェア

于 2010-04-28T16:58:48.827 に答える