linux - 不正確な PDF からテキストへの変換

Question

Linux で利用可能なほぼすべての PDF からテキストへのコンバーターを試しましたが、テキストの一部が破損しているか不正確です。一部の文字が他の文字に置き換えられるように、一部の単語が PDF に存在するテキストから欠落しています。一部の単語では、変換されたテキストにセミコロンなどが含まれています。

単語を修正できるように aspell も試しましたが、一部の単語で aspell が沈黙したままです。

注: PDF にはスウェーデン語のテキストが含まれています。

それで、pdfからテキストへの変換でこの不正確さを修正する解決策はありますか?

score 1 · Accepted Answer

いいえ。表示されたビジュアルテキストの下にある実際のテキストはさまざまなフレーバーで保存できるため、すべての pdf ファイルに有効なソリューションはないと思います。

たとえば、PDFがLaTeXによって生成される場合、いくつかの構成オプション、非ASCII文字がどのように埋め込まれているかによって異なります。:oの代わりにもらったときもあれば、文字を直接埋め込んだときもありましたö。o:これらのバリアントはそれぞれ、あたかも表示されöます。

お気に入りの pdf ビューアーでテキストをコピーして貼り付けるか、破損した単語を検索しようとすると、おそらく同じ結果が表示されます。

これらの問題を回避するために、ocr ソフトウェアを使用できますが、これらのツールの認識にはすべての欠点があります。

linux - 不正確な PDF からテキストへの変換

1 に答える 1

Related

Reference