リンクテキストWindows2008ServerR2に組み込まれているTIFFIFilterを、SQLServer2008の全文検索で使用したい...R2も。
サーバーマネージャーを介してフィルターをインストールし、[コンピューターの構成]->[管理用テンプレート]->[OCR]の[ローカルグループポリシー]設定を[TIFFドキュメントのすべてのページに対してOCRを実行するように強制する]を更新しました。
また、フルテキストカタログと「FileData」というテーブルを作成しました。これは次のようになります。
CREATE TABLE [FileServer].[FileData](
[FileDataId] [int] IDENTITY(1,1) NOT NULL,
[FileGUID] [uniqueidentifier] ROWGUIDCOL NOT NULL,
[Data] [varbinary](max) FILESTREAM NOT NULL,
[Extension] [nvarchar](100) NULL,
[Filename] [nvarchar](256) NULL,
[Path] [nvarchar](256) NULL,
CONSTRAINT [PK_FileData_FileDataId] PRIMARY KEY CLUSTERED
(
[FileDataId] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY] FILESTREAM_ON [FILES],
CONSTRAINT [UX_File_FileGUID] UNIQUE NONCLUSTERED
(
[FileGUID] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY]
) ON [PRIMARY] FILESTREAM_ON [FILES]
GO
SET ANSI_PADDING OFF
GO
ALTER TABLE [FileServer].[FileData] ADD CONSTRAINT [DF_FileData_FileGUID] DEFAULT (newid()) FOR [FileGUID]
GO
ALTER TABLE [FileServer].[FileData] ADD CONSTRAINT [DF_FileData_FileData] DEFAULT (0x) FOR [Data]
GO
PDFやWordDOCなどのファイルをそのテーブルに挿入すると、後で全文検索を使用してファイル内のキーワードをヒットできます。
非常にクリアなテキスト(1024 x 768 ...約12ワード)で大きな巨大なTIFFファイルを作成し、それをFileDataテーブルにインポートしました。私はその中のすべての単語を見つけることができます。
SELECT [Path], [Filename], [Data]
FROM [FileServer].[FileData]
WHERE FREETEXT(*, 'Jason') and FREETEXT(Extension, 'tif');
ただし、メーカーのデータシートのような「実際の」TIFFファイルを使用すると、キーワードを検索したときに結果がゼロになります。理由はわかりません。SQLServerを使用したオンラインでのトラブルシューティングはあまりありません。
さまざまな種類の圧縮を使用して、圧縮を使用せずに.TIFFファイルを保存しようとしましたが、うまくいきませんでした。私のテストファイルのテキストはCRYSTALでクリアで、まだかなり大きいです。ファイルの明瞭さが問題であるとは想像できませんが、それは可能だと思います。
比較するものがあるので、次の2つの画像を取得してインポートしました。
作業サンプルの結果は本当に良いです。これらは、フルテキストインデックスの作業サンプルからのキーワードです。 $3.50©0004081989 2010 21 21:35:42 235 282 3116 3702 40 4810989豊富な抽象的付随する獲得行為アクションの利点エージェンシーアルゴリズムアルゴリズムすでに量アムステルダム分析アン出現アプリケーションアーバーarnficiojartficia1割り当てbvベースの基本ブッカー旅団バケット構築bv機能慎重に変化する特性チェッカー分類器分類器分類器クロージングコグニティブ比較競合する複雑な複雑さ複雑さコンピューターが直面する混乱は、継続的に継続的に考案された信用治療を検討するデータまともな定義された定義設計設計された発見の議論を考案する生態学的経済の努力の間に邪魔するelsevierファイルの終わりエンジニアリング環境環境エラーイベントの例展示経験表現された現存する拡張機能顔面実行可能なファイル発射最初の流れ次のフォーマットゲームは一般的な遺伝的与える目標を生成するゴールドバーグ良いホリアッドしかし、オランダは、暗黙のうちに不正確に情報インテリジェンスに影響を与える画像に没頭しているという仮説を立てています。s大規模なメッセージmimichigannew nn0004 nn08 nn1989 nn2010 nn21 nn235 nn282 nn3116 nn3702 nn3d5 $ nn40nn48109nn89騒々しい北のnos斬新なノベルティ入手可能すばやくランダムにまれに現実的な強化繰り返し再印刷された要件網膜レビューロボットのルールルールを改訂科学シーケンスセット非常に単純で単純な小さなまばらなシステムシステムタグ付けされた技術理論thortiff時間tt21352つの典型的な米国の大学を私たちに2回ねじる不思議な世界のない私たちアメリカのビジュアルvolに大学不思議な世界のない私たちアメリカのビジュアルvolに大学
しかし、壊れたサンプルからの結果はただ...まあ、空いている。実際のTIFF画像からの1つの単語ではありません: 08 20102121:49:22ファイル形式の画像の終わりnn08nn2010nn21タグ付きtifftt2149
誰かが次に何を試すべきかについて何か考えを持っているなら、私はすべての耳です。