Mac OS X マシンで処理する必要がある PDF ファイルから Windows で生成された 5000 以上のテキスト ファイルがあります。それらすべてで実行dos2unix
して、改行を修正し、エンコーディングを UTF-16LE から UTF-8 に変換します。
4949 の場合はすべてうまくいきますが、320 のファイルの場合、dos2unix はバイナリ ファイルであるとして実行をスキップします。
これは、スキップされた 320 個のファイルとその他のファイルのテキストをfile -c
提供することと一貫性があります。data
ただし、それらは目視検査によるテキストです...
320 の修理方法を教えてください。最初は BOM の存在ではないかと疑っていましたが、問題のないファイルにも表示されます。
さらに、データとテキスト ファイルの両方が次で始まります。
0000000 ff fe 3d 00 20 00 70 00 61 00 67 00 65 00 20 00
0000010 31 00 20 00 3d 00 0a 00 0d 00 0d 00 0a 00
ヒントはありますか?前もって感謝します。