私のアプリケーションでは、ファイルを受け取ります。ファイルに検索可能なテキスト(テキストコンテンツ)または検索不可能なテキスト(画像)があるかどうかを確認して表示する必要があります。
PDF ファイルでは、検索不可能なタイプもある可能性があるため、ファイル拡張子を使用することはできません。
これにはJavaコードが必要です。誰でも私を助けてください。
私のアプリケーションでは、ファイルを受け取ります。ファイルに検索可能なテキスト(テキストコンテンツ)または検索不可能なテキスト(画像)があるかどうかを確認して表示する必要があります。
PDF ファイルでは、検索不可能なタイプもある可能性があるため、ファイル拡張子を使用することはできません。
これにはJavaコードが必要です。誰でも私を助けてください。
この問題を解決するには、ファイルの内容から不明なファイルの MIME タイプを特定する必要があります。次に、対応するファイル タイプのテキストを抽出するために、MIME タイプからクラスへのマッピングを作成する必要があります。
最初の部分 (MIME タイプの識別) を実行するためのライブラリがありますが、これはヒューリスティックなプロセスであり、(理論的には) 間違った答えを返すか、(実際には) "不明" を返す可能性があります。これを行う方法に関するSOの質問とその他の参照のサンプルを次に示します。
これは、データ マイニングの領域と、検索エンジン(Lucene) の領域にあります。多くのコンバーター (pdftotext、htmltotext、unzip など) があります。次に、文字エンコーディングが役割を果たします。UTF16-LE は 1 文字あたり 2 バイトを使用します。一部のファイル タイプには、識別ヘッダー、マジック クッキー (JPEG、GIF、PDF) があります。
ニーズに最適なプロジェクトをインターネットで調査することをお勧めします。そして、機能するパイプラインを設計した後、段階的に機能を追加します。
データ マイニングの完全な標準である設計が必要な場合は、JDM 2.0 が API を提供する可能性があります。