java - Javaで検索可能/検索不可能なファイルを識別する

Question

私のアプリケーションでは、ファイルを受け取ります。ファイルに検索可能なテキスト（テキストコンテンツ）または検索不可能なテキスト（画像）があるかどうかを確認して表示する必要があります。

PDF ファイルでは、検索不可能なタイプもある可能性があるため、ファイル拡張子を使用することはできません。

これにはJavaコードが必要です。誰でも私を助けてください。

score 0 · Accepted Answer

この問題を解決するには、ファイルの内容から不明なファイルの MIME タイプを特定する必要があります。次に、対応するファイルタイプのテキストを抽出するために、MIME タイプからクラスへのマッピングを作成する必要があります。

最初の部分 (MIME タイプの識別) を実行するためのライブラリがありますが、これはヒューリスティックなプロセスであり、(理論的には) 間違った答えを返すか、(実際には) "不明" を返す可能性があります。これを行う方法に関するSOの質問とその他の参照のサンプルを次に示します。

score 0 · Accepted Answer

これは、データマイニングの領域と、検索エンジン(Lucene) の領域にあります。多くのコンバーター (pdftotext、htmltotext、unzip など) があります。次に、文字エンコーディングが役割を果たします。UTF16-LE は 1 文字あたり 2 バイトを使用します。一部のファイルタイプには、識別ヘッダー、マジッククッキー (JPEG、GIF、PDF) があります。

ニーズに最適なプロジェクトをインターネットで調査することをお勧めします。そして、機能するパイプラインを設計した後、段階的に機能を追加します。

データマイニングの完全な標準である設計が必要な場合は、JDM 2.0 が API を提供する可能性があります。

java - Javaで検索可能/検索不可能なファイルを識別する

2 に答える 2

Related

Reference