現在、毎日多数のドキュメント(.doc、.docx、.odt、pdf)を自分のWebサイトにアップロードしており、これらのドキュメントはSQLデータベース(mediumblob)に保存されています。
現在、データベースからドキュメントを開き、クイックリファレンスと検索機能のためにテキストバージョンを切り取ってデータベースのフィールドに貼り付けています。
私はこの「カットアンドペースト」プロセスを自動化することを目指しています-テキストを抽出できる限り、フォーマットは実際の問題ではありません-そして何人かの人々が下がる良いルートを提案できるかもしれないことを望んでいましたか?
正規表現を使用してblobフィールドのコンテンツを操作しようとしましたが、実際には機能していません。
私はアップロードの時点でテキストを抽出する目的でApachePOIを見てきましたが、私の比較的単純なニーズを考えると、これは多分少しやり過ぎだと思わずにはいられません。
私が遭遇するさまざまなドキュメント形式とblobフィールドへのコンテンツの現在の保存を考えると、Apache POIはこのインスタンスで使用するのに最適なソリューションでしょうか、それとも誰かが代替案を提案できますか?
ヘルプと提案を大歓迎します。
クリス