PDFをテキストファイルに変換するためにpdftotextオープンソースツールを使用しています。テキストファイルをUTF-8形式で保存して、すべてのアクセント文字をテキストファイルに保持できるようにするにはどうすればよいですか。以下のコマンドを使用して、コンテンツをテキストファイルに抽出しますが、アクセント記号付きの文字を表示できません。
pdftotext -enc UTF-8 book1.pdf book1.txt
この問題の解決にご協力ください。
前もって感謝します、
次のコマンドを使用して、使用可能なエンコーディングのリストを取得できます。
pdftotext -listenc
-enc引数を使用して適切なものを選択します。ここの鉱山はデフォルトでUTF-8を実行しているようです。つまり、「UTF-8」は不要です
pdftotext -enc UTF-8 your.pdf
ロケール(LC_ALL、LANG、...)を確認することをお勧めします。
編集: 次のPDFをダウンロードしました: http ://www.i18nguy.com/unicode/unicodeexample.pdf
次のコマンドを使用して、Windows 7 PC(ドイツ語)およびXPDF3.02PL5で変換しました。
pdftotext.exe -enc UTF-8 unicodeexample.pdf
すべての文字が正しく表示されるため、テキストファイルは間違いなくUTF-8でエンコードされています。テキストファイルを何に使用していますか?Webアプリケーションを介して表示している場合は、テキストファイルが希望どおりに変換されているのに、コンテンツのエンコーディングが間違っている可能性があります。
ブラウザ(FirefoxでのエンコードをISO-8859-1およびUTF-8に強制する)または16進エディタを使用して再確認します。
少し面倒なので、別の回答を追加します。
私はPDFをバラバラにしましたが、私の最善の推測は、使用されているフォントの「問題」です。
最終的に得られるコードポイントは、PDF リーダーで表示されているものではないことがわかります。フォントが何であれ、Unicode 標準で定義されているものとは異なるマッピングを持つ場合があります。そのため、あなたのコンテンツは「間違った」ものであり、それに対してできることはあまりありません.