sql-server - 大規模データベースでのデータ相関

Question

私たちは、データポリシーに準拠させるために、企業全体に保存されている特定の情報の場所を特定しようとしています。ファイル側では、Nessus を使用してさまざまなファイルを検索していますが、データベース側については疑問に思っています。

Nessus を使用することは、生データを出力し、それがどのテーブルまたは行にあったかを教えてくれなかったり、特にこれらのデータベースが非常に大きい (数百ギガバイト) ことを考えると、有用な情報を提供してくれなかったりするため、ほとんど無意味に思えます。

また、注目に値するのは、このシステムがパターンベースのマッチング (正規表現の使用など) を実行できる必要があることです。単なる「ばかげた検索」エンジンではありません。

このデータを見つけるために、データマイニングとデータウェアハウスの使用を調査しましたが、実際にはデータを見つけるだけではなく、データの分析を目的としているようです。

データベース内の大量のデータを検索して、この情報を見つけようとするより良い方法はありますか? Oracle 11g と SQL Server 2008 の両方を使用しており、両方で検索を実行する必要があるため、サーバー固有のパラダイムから離れたいと思います (ただし、T-SQL から PL に変換するためにコードを書き直す必要がある場合) /SQL、またはその逆、気にしません)

score 2 · Accepted Answer

大量のテキストを検索するためのSQLServerでは、全文検索を調べることができます。

詳細はこちらhttp://msdn.microsoft.com/en-us/library/ms142559.aspx

しかし、私が正しく読んでいるのであれば、Web検索エンジンがWebサイトやWebページをスパイダーするのと同じようにデータベースをスパイダーしたいと思うでしょう。

複数のテーブルにまたがる結果を返す一連のフルテキストクエリを使用できます。

score 1 · Accepted Answer

Oracle は RegExp_Like() 関数を使用した正規表現をサポートしており、システムメタデータに基づいて必要なコードの生成を自動化するのはかなり簡単なはずです (たとえば、特定の長さを超えるすべてのテキスト列を検索し、それらを述語に含めるなど)。そのテーブルに対して、正規表現に一致する行と値を見つけます)。本当にやりがいがありません。理論的には、列の制約をチェックして、正規表現に一致するが過剰になる可能性のある値の挿入を防ぐことができます。

score 0 · Accepted Answer

Oracle Text は、データベースに保持されている大量のテキスト (PDF、HTML、TXT、DOC など) に含まれる語句の検索に適しています。限定的なあいまい検索がありますが、正規表現自体はありません。

探しているデータの種類やデータベースにあるものについては、実際には調べません。Nessus はセキュリティの問題を探していることを示していますが、「データ相関」というタイトルはまったく別のものを示唆しています。

実際、データ構造は、何をどこで探すべきかについての情報を提供する必要があります。データベースとは、アクセシビリティのためにデータを構造化することです。CMS、フォーラムソフトウェアなどをサポートするデータベースは、別のやかんになります。

sql-server - 大規模データベースでのデータ相関

3 に答える 3

Related

Reference