現在、ファイル(PDF、DOC)をBLOBフィールドとしてデータベースに保存しています。ファイルの生のテキストを取得して、ヒットハイライトやその他の機能のために操作できるようにしたいと思います。
SQLまたは.netコードを使用して、ファイルを解析し、保存時に生のテキストを保存する簡単な方法を知っている人はいますか。アドビにはPDFをテキストに変換するfiltdumpユーティリティがあることがわかりました。Filtdumpはコマンドラインツールのようですが、ファイルストリームを使用する方法がわかりません。また、Officeドキュメントやその他のファイルタイプの抽出機能はどうなりますか?
-また-
サードパーティのフィルターを使用せずに、SQLフルテキストインデックスから生のテキストを引き出す方法はありますか?
Luceneなどのサードパーティツールを使用せずに.netおよびMSSqlソリューションを構築しようとしていることに注意してください