sql-server-2008 - TIFFIFilterがVARBINARY列のテキストを正しく読み取っていません

Question

リンクテキストWindows2008ServerR2に組み込まれているTIFFIFilterを、SQLServer2008の全文検索で使用したい...R2も。

サーバーマネージャーを介してフィルターをインストールし、[コンピューターの構成]->[管理用テンプレート]->[OCR]の[ローカルグループポリシー]設定を[TIFFドキュメントのすべてのページに対してOCRを実行するように強制する]を更新しました。

また、フルテキストカタログと「FileData」というテーブルを作成しました。これは次のようになります。

CREATE TABLE [FileServer].[FileData](
 [FileDataId] [int] IDENTITY(1,1) NOT NULL,
 [FileGUID] [uniqueidentifier] ROWGUIDCOL  NOT NULL,
 [Data] [varbinary](max) FILESTREAM  NOT NULL,
 [Extension] [nvarchar](100) NULL,
 [Filename] [nvarchar](256) NULL,
 [Path] [nvarchar](256) NULL,
 CONSTRAINT [PK_FileData_FileDataId] PRIMARY KEY CLUSTERED 
(
 [FileDataId] ASC
)WITH (PAD_INDEX  = OFF, STATISTICS_NORECOMPUTE  = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS  = ON, ALLOW_PAGE_LOCKS  = ON) ON [PRIMARY] FILESTREAM_ON [FILES],
 CONSTRAINT [UX_File_FileGUID] UNIQUE NONCLUSTERED 
(
 [FileGUID] ASC
)WITH (PAD_INDEX  = OFF, STATISTICS_NORECOMPUTE  = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS  = ON, ALLOW_PAGE_LOCKS  = ON) ON [PRIMARY]
) ON [PRIMARY] FILESTREAM_ON [FILES]

GO

SET ANSI_PADDING OFF
GO

ALTER TABLE [FileServer].[FileData] ADD  CONSTRAINT [DF_FileData_FileGUID]  DEFAULT (newid()) FOR [FileGUID]
GO

ALTER TABLE [FileServer].[FileData] ADD  CONSTRAINT [DF_FileData_FileData]  DEFAULT (0x) FOR [Data]
GO

PDFやWordDOCなどのファイルをそのテーブルに挿入すると、後で全文検索を使用してファイル内のキーワードをヒットできます。

非常にクリアなテキスト（1024 x 768 ...約12ワード）で大きな巨大なTIFFファイルを作成し、それをFileDataテーブルにインポートしました。私はその中のすべての単語を見つけることができます。

SELECT [Path], [Filename], [Data]
FROM [FileServer].[FileData]
WHERE FREETEXT(*, 'Jason') and FREETEXT(Extension, 'tif');

ただし、メーカーのデータシートのような「実際の」TIFFファイルを使用すると、キーワードを検索したときに結果がゼロになります。理由はわかりません。SQLServerを使用したオンラインでのトラブルシューティングはあまりありません。

さまざまな種類の圧縮を使用して、圧縮を使用せずに.TIFFファイルを保存しようとしましたが、うまくいきませんでした。私のテストファイルのテキストはCRYSTALでクリアで、まだかなり大きいです。ファイルの明瞭さが問題であるとは想像できませんが、それは可能だと思います。

比較するものがあるので、次の2つの画像を取得してインポートしました。

作業サンプルファイル壊れたサンプルファイル

作業サンプルの結果は本当に良いです。これらは、フルテキストインデックスの作業サンプルからのキーワードです。 $3.50©0004081989 2010 21 21:35:42 235 282 3116 3702 40 4810989豊富な抽象的付随する獲得行為アクションの利点エージェンシーアルゴリズムアルゴリズムすでに量アムステルダム分析アン出現アプリケーションアーバーarnficiojartficia1割り当てbvベースの基本ブッカー旅団バケット構築bv機能慎重に変化する特性チェッカー分類器分類器分類器クロージングコグニティブ比較競合する複雑な複雑さ複雑さコンピューターが直面する混乱は、継続的に継続的に考案された信用治療を検討するデータまともな定義された定義設計設計された発見の議論を考案する生態学的経済の努力の間に邪魔するelsevierファイルの終わりエンジニアリング環境環境エラーイベントの例展示経験表現された現存する拡張機能顔面実行可能なファイル発射最初の流れ次のフォーマットゲームは一般的な遺伝的与える目標を生成するゴールドバーグ良いホリアッドしかし、オランダは、暗黙のうちに不正確に情報インテリジェンスに影響を与える画像に没頭しているという仮説を立てています。s大規模なメッセージmimichigannew nn0004 nn08 nn1989 nn2010 nn21 nn235 nn282 nn3116 nn3702 nn3d5 $ nn40nn48109nn89騒々しい北のnos斬新なノベルティ入手可能すばやくランダムにまれに現実的な強化繰り返し再印刷された要件網膜レビューロボットのルールルールを改訂科学シーケンスセット非常に単純で単純な小さなまばらなシステムシステムタグ付けされた技術理論thortiff時間tt21352つの典型的な米国の大学を私たちに2回ねじる不思議な世界のない私たちアメリカのビジュアルvolに大学不思議な世界のない私たちアメリカのビジュアルvolに大学

しかし、壊れたサンプルからの結果はただ...まあ、空いている。実際のTIFF画像からの1つの単語ではありません： 08 20102121:49:22ファイル形式の画像の終わりnn08nn2010nn21タグ付きtifftt2149

誰かが次に何を試すべきかについて何か考えを持っているなら、私はすべての耳です。

score 1 · Accepted Answer

動作しない画像を白黒に変換して、さらに多くの単語が認識されるかどうかを確認してください。

追加した

IrfanView（または任意の画像ツール）を使用して、2番目の画像のDPIを300に設定してみてください。その後、再試行してください。

明らかに、これらのトラブルシューティング手順は永続的な解決策ではなく、問題を特定するのに役立ちます。

score 1 · Accepted Answer

rwongは正しいです。問題を切り分ける必要があります。

すべてのOCRエンジンがカラーTIFF画像を処理でき、白黒を優先できるわけではありません。OCRエンジンは機能していないページを処理しておらず、表示されないエラーメッセージを発行しているだけだと思います。

上記のように、ファイルを白黒TIFF画像として保存してみてください。
ファイルをJPEGとして保存し、画像をJPEGとして認識してみてください。

動作していない画像をOCRで実行し、ほとんどのテキストを正しく抽出できたため、解像度は大きな問題ではありません。

score 1 · Accepted Answer

さて、実際の問題は画像のサイズでした。ITFF IFilterのOCRは、それを処理しようとさえしていませんでした...大きすぎます。試行錯誤でこれを発見する必要があり、着信TIFFの最大サイズ/DPIを示すドキュメントが見つかりませんでした。誰かがこれらの仕様を知っていますか？この記事にはいくつかの情報があるようです：support.microsoft.com/kb/837847しかし、Sharepointに固有であり、それが機能するかどうかを確認するために設定をいじる時間がありませんでした。また、サイズキャップを外すだけです。そこにアイデアはありますか？

score 0 · Accepted Answer

何か面白いものを見つけました

私はC＃を使用しています

                    Image tiffFile = Image.FromFile(TiffPath);

                    resultFilePath = Path.Combine(tempFolder, Path.GetFileName(TiffPath));

                    tiffFile.Save(resultFilePath);

そして、データベースに新しいtiffファイルを入れて使用します。これは機能します。理由はわかりませんが、問題は解決します。

sql-server-2008 - TIFFIFilterがVARBINARY列のテキストを正しく読み取っていません

4 に答える 4

Related

Reference