1

Linux で利用可能なほぼすべての PDF からテキストへのコンバーターを試しましたが、テキストの一部が破損しているか不正確です。一部の文字が他の文字に置き換えられるように、一部の単語が PDF に存在するテキストから欠落しています。一部の単語では、変換されたテキストにセミコロンなどが含まれています。

単語を修正できるように aspell も試しましたが、一部の単語で aspell が沈黙したままです。

注: PDF にはスウェーデン語のテキストが含まれています。

それで、pdfからテキストへの変換でこの不正確さを修正する解決策はありますか?

4

1 に答える 1

1

いいえ。表示されたビジュアル テキストの下にある実際のテキストはさまざまなフレーバーで保存できるため、すべての pdf ファイルに有効なソリューションはないと思います。

たとえば、PDFがLaTeXによって生成される場合、いくつかの構成オプション、非ASCII文字がどのように埋め込まれているかによって異なります。:oの代わりにもらったときもあれば、文字を直接埋め込んだときもありましたöo:これらのバリアントはそれぞれ、あたかも表示さöます。

お気に入りの pdf ビューアーでテキストをコピーして貼り付けるか、破損した単語を検索しようとすると、おそらく同じ結果が表示されます。

これらの問題を回避するために、ocr ソフトウェアを使用できますが、これらのツールの認識にはすべての欠点があります。

于 2013-07-22T11:53:39.263 に答える