c# - バイナリファイルをBLOBおよびテキストとしてSQLServerに保存します（またはフルテキストインデックスからテキストを取得します）

Question

現在、ファイル（PDF、DOC）をBLOBフィールドとしてデータベースに保存しています。ファイルの生のテキストを取得して、ヒットハイライトやその他の機能のために操作できるようにしたいと思います。

SQLまたは.netコードを使用して、ファイルを解析し、保存時に生のテキストを保存する簡単な方法を知っている人はいますか。アドビにはPDFをテキストに変換するfiltdumpユーティリティがあることがわかりました。Filtdumpはコマンドラインツールのようですが、ファイルストリームを使用する方法がわかりません。また、Officeドキュメントやその他のファイルタイプの抽出機能はどうなりますか？

-また-

サードパーティのフィルターを使用せずに、SQLフルテキストインデックスから生のテキストを引き出す方法はありますか？

Luceneなどのサードパーティツールを使用せずに.netおよびMSSqlソリューションを構築しようとしていることに注意してください

score 3 · Accepted Answer

SQL Server からアプリに直接ストリーミングすることが絶対に必要でない場合、難しいのは PDF または DOC ファイル形式の解析です。

iTextSharp ライブラリを使用すると、PDF ファイルの内部にアクセスできます。

http://itextsharp.sourceforge.net/

Word ドキュメントを解析すると主張する商用製品を次に示します。

Aspose.Words

追加するために編集：

また、IFilter を追加して SQL Server フルテキストインデックス作成を機能させる方法があるかどうかも尋ねていると思います。これは良いアイデアのように思えます。私はこれを自分で行ったことはありませんが、MS は明らかに長い間 Word フィルターをサポートしており、Adobe は (無料の) PDF フィルターをリリースしました。ここには多くの情報があります：

フィルターセントラル

SQL Server のフルテキストインデックス作成を最適化する 10 の方法

SQL Server 全文検索: 言語機能- 少し古いですが、理解しやすいです。

score 1 · Accepted Answer

SQL Server全文検索機能は、IFiltersを使用してPDFまたはOfficeファイル形式からプレーンテキストを抽出します。サーバーにIFiltersをインストールできます。または、コードがSQL Serverと同じマシンで実行されている場合は、既にインストールされています。

.NETからIFiltersを使用する方法を示す記事は次のとおりです：http：//www.codeproject.com/KB/cs/IFilter.aspx

score 1 · Accepted Answer

私はこれと同じ問題を抱えていました...アプリケーションに以下を追加して解決しました：

EPocalipse.IFilter.dll (64x Windows の問題により、Office 2007 ドキュメントを除くすべてのドキュメント)
OpenXML SDK 2.0 (Office 2007 ドキュメント用)

これらを使用してプレーンテキストを取得し、バイナリデータと一緒にデータベースに格納します。私は確かに専門家ではないので、これを行うためのより良い方法があるかもしれませんが、これは明らかにiFiltersによって読み取られない「クイック保存」2007年より前のWordドキュメント以外のすべてで機能します. そのエラーが発生した場合、ユーザーにドキュメントを再保存してもらうだけで、すべて正常に動作します。

サンプルコードが必要な場合はお知らせください...今すぐ投稿しますが、少し長いです。

score 1 · Accepted Answer

C# アプリケーションから .doc ファイルを開いてテキストとして保存し、テキストと .doc ドキュメントの両方をデータベースに入れることができます。

score 1 · Accepted Answer

SQL 2008 を使用している場合は、新しいFILESTREAM機能の使用を検討できます。

データは varbinary(max) 列に保存されますが、通常の Win32 ハンドルを介して生データにアクセスすることもできます。

ハンドルを取得する方法を示すサンプルコードを次に示します。

c# - バイナリファイルをBLOBおよびテキストとしてSQLServerに保存します（またはフルテキストインデックスからテキストを取得します）

5 に答える 5

Related

Reference