utf-8 - pdftotextを使用してテキストファイルをUTF-8形式で保存する方法

Question

PDFをテキストファイルに変換するためにpdftotextオープンソースツールを使用しています。テキストファイルをUTF-8形式で保存して、すべてのアクセント文字をテキストファイルに保持できるようにするにはどうすればよいですか。以下のコマンドを使用して、コンテンツをテキストファイルに抽出しますが、アクセント記号付きの文字を表示できません。

pdftotext -enc UTF-8 book1.pdf book1.txt

この問題の解決にご協力ください。

前もって感謝します、

score 27 · Accepted Answer

次のコマンドを使用して、使用可能なエンコーディングのリストを取得できます。

pdftotext -listenc

-enc引数を使用して適切なものを選択します。ここの鉱山はデフォルトでUTF-8を実行しているようです。つまり、「UTF-8」は不要です

pdftotext -enc UTF-8 your.pdf

ロケール（LC_ALL、LANG、...）を確認することをお勧めします。

編集： 次のPDFをダウンロードしました： http ：//www.i18nguy.com/unicode/unicodeexample.pdf

次のコマンドを使用して、Windows 7 PC（ドイツ語）およびXPDF3.02PL5で変換しました。

pdftotext.exe -enc UTF-8 unicodeexample.pdf

すべての文字が正しく表示されるため、テキストファイルは間違いなくUTF-8でエンコードされています。テキストファイルを何に使用していますか？Webアプリケーションを介して表示している場合は、テキストファイルが希望どおりに変換されているのに、コンテンツのエンコーディングが間違っている可能性があります。

ブラウザ（FirefoxでのエンコードをISO-8859-1およびUTF-8に強制する）または16進エディタを使用して再確認します。

score 0 · Accepted Answer

少し面倒なので、別の回答を追加します。

私はPDFをバラバラにしましたが、私の最善の推測は、使用されているフォントの「問題」です。

Acrobar Reader で PDF ファイルを開く
ページ上のすべてのテキストを選択する
それをコピーして、Unicode 対応のテキストエディターに貼り付けます (「隠し」OCR がないため、実際のデータをコピーしています)。

最終的に得られるコードポイントは、PDF リーダーで表示されているものではないことがわかります。フォントが何であれ、Unicode 標準で定義されているものとは異なるマッピングを持つ場合があります。そのため、あなたのコンテンツは「間違った」ものであり、それに対してできることはあまりありません.

utf-8 - pdftotextを使用してテキストファイルをUTF-8形式で保存する方法

2 に答える 2

Related

Reference