python - バイナリデータから拡張子のないファイルの種類を特定する

Question

拡張子のないファイルがいくつかあります。それらに拡張子を関連付けたいと思います。そのために、ファイル内のデータを読み取る python プログラムを作成しました。私の疑問は、サードパーティのツールを使用せずに、拡張子なしでそのタイプをどのように識別できるかです。

PDF、ドキュメント、およびテキストファイルのみを特定する必要があります。他のタイプのファイルは使用できません。

私のサーバーはcent osです

score 11 · Accepted Answer

ファイルの最初の数バイトを読み取って、「マジックナンバー」を探すことができます。マジックナンバーに関するウィキペディアのページ%PDFでは、PDF ファイルは ASCIIで始まり、doc ファイルは 16 進数の D0 CF 11 E0 で始まることが示唆されています。

多くの標準的なマジックナンバーは、実際にはバイナリファイルの先頭にある ASCII テキストであるため、テキストファイルの識別は一般的にかなり困難です。あなたの場合、PDF、DOC、またはTXT以外のものを取得しないことを保証できる場合、おそらく回避できるのは、PDFとDOCのマジックナンバーをチェックし、どちらでもない場合はテキストであると想定することですそれらの。

score 5 · Accepted Answer

あなたはあなたのOSを言っていません。file*nix ベースの場合、libmagic の周りに Python ラッパー (ctypes を使用)があり、内容を調べることで拡張子のないファイルを識別できるコマンドと同じ基本メカニズムを使用します。または、libmagic がファイル定義をどのように使用するかを調べて、2 つの主要なファイルタイプ (doc、pdf) をどのように識別し、残っているものはすべてテキストでなければならないかを調べます ;-) そして、既存のコードを拡張します。

score 0 · Accepted Answer

PDF ドキュメントは %PDF-version number で始まりますが、一部は完全に圧縮されている可能性があります。

python - バイナリデータから拡張子のないファイルの種類を特定する

3 に答える 3

Related

Reference