0

制御された入力を使用していない従来のデータ入力システムを使用しています。すべてが varchar(max) フィールドに格納されますが、残念ながら、言い方には多くのバリエーションが含まれています。

何かがいつ調整されたかを知りたい場合、「どこで t.col が '%cal%' のようになったか」とだけ言うことはできません。

「CAL、CAL.、Calib.Calibrate、calibrate、Calibration、calibration、Cal'd...」のような場合には機能しますが、スペルが間違っているバリアントでは機能しません。

また、その人は「NO cal reqd, don't cal.」と言っているかもしれません。

テキストは、アクションが行われたことを「推測」する場合があります。「キャリブレーション」は、「ベースラインに調整、手順ごとに調整」と書かれている場合があります。

あるケースからわかるように、文字通り何千もの潜在的な「ルール」があります。

約 30,000 件のレコードを処理し、データが分類される約 30 (0,1 / true/false) のカテゴリにインテリジェントに解析するのに約 2 週間かかりました。

T-SQLを使用して手動処理を置き換える便利なクエリ構造を誰かが教えてくれるかどうか知りたいです。

4

1 に答える 1

0

Microsoft MVP の Dejan Sarka によって書かれた次の記事を見つけました: SQL Server 2012-2014 を使用したテキストのインデックス作成、クエリ、および分析: http://www.pluralsight.com/courses/description/indexing-querying-analyzing-text-with-sqlserver -2012-2014

このページには、「Bing や Google などの最新の検索エンジンなしで Web 上で何かを検索することは想像しがたいです。しかし、ほとんどの最新のアプリケーションは、依然としてユーザーを正確な検索のみに制限しています。エンド ユーザーにとっては、標準の SQL LIKE 演算子でさえ強力ではありません。おおよその検索には十分です. さらに, 多くのドキュメントは最新のデータベースに保存されています. エンドユーザーはおそらくドキュメントコンテンツ内の強力な検索も望んでいます. テキストマイニングもますます一般的になっています. 誰もがブログからのデータを理解したいと思っています. Web サイトとソーシャル メディア. バージョン 2012 および 2014 の Microsoft SQL Server は、以前のエディションで実質的に利用可能だった全文検索のサポートを強化します. 全文検索の新しいコンポーネントであるセマンティック検索は、ドキュメントの意味を理解するのに役立ちます.ついに、SQL Server Integration Services の Term Extraction および Term Lookup コンポーネントも役立ちます。」

これは私が求めているものに沿っています。どうも!-S

于 2014-10-02T18:47:17.550 に答える