5

PDF を HTML ドキュメントにきれいに変換できる Web サイトまたはソフトウェアはありますか?

4

2 に答える 2

3

ここでの課題は、PDF がセマンティック言語ではなくレイアウト言語であり、HTML の場合はその逆であるということです。

これは、エンドユーザーが読みやすいままであるという希望を持って HTML に変換する場合、HTML に個々の単語 (場合によっては文字) を配置してレイアウトを行わせる必要があり、意味構造がしばしば文字化けしたり失われたりすることを意味します。

テキスト文書を表すほとんどすべての PDF ファイルを開き、テキスト内の単語や段落を (目で) 見つけようとすることで、問題の感覚をつかむことができます。

これを HTML 文書と比較してください。HTML 文書は、多くの場合、ソースから簡単に読み取ることができます。

于 2012-09-10T23:10:22.873 に答える
0

HTML の乱れは、通常、PDF ファイル自体が原因であり、変換に使用されたソフトウェアが原因ではありません。PDF を HTML に変換するために、任意の数のパッケージを使用できます。いくつかの選択肢には、PDF MinerPDFTOHTML、および私はPDFTKが含まれます。HTML のジブリッシュが発生するかどうかは、明確に定義されていません。

于 2012-09-10T21:03:38.780 に答える