PHPを使用してファイルのMIMEタイプを検出するのは簡単です。つまり、PEARのMIME_Typeパッケージ、PHPのfileinfofile -i
を使用するか、Unixマシンで呼び出します。これは、バイナリファイルや、簡単に検出できるある種の「マジックバイト」を持つ他のすべてのファイルで非常にうまく機能します。
私が失敗しているのは、プレーンテキストファイルの正しいMIMEタイプを検出することです。
- CSS
- 差分
- INI(構成)
- Javascript
- rST
- SQL
それらはすべて「テキスト/プレーン」として識別されます。これは正しいですが、私にはあまりにも具体的ではありません。ファイルの内容を分析するのに時間がかかる場合でも、実際のタイプが必要です。
だから私の質問:そのようなプレーンテキストファイルのMIMEタイプを検出するためにどのソリューションが存在しますか?図書館はありますか?コードスニペット?
私はファイル名もファイル拡張子も持っていませんが、ファイルの内容は持っていることに注意してください。
rubyを使用すれば、githubの言語学者を統合できます。OhlohのohcountはCで記述されていますが、タイプを検出するためのコマンドラインツールがあります。ohcount -d $file
私が試したこと
オーカウント
xmlファイルとphpファイルを正しく検出しますが、それ以外はすべて検出しません。
Apache tika
xmlとhtmlを検出し、他のすべてのテストファイルはとしてのみ表示されましtext/plain
た。