1

pdftotextPDFファイルからプレーンコンテンツを抽出するために使用しています。

ただし、結果には形式がありません (例: 段落、リストなど)。pdftotextを使用してPDFからプレーンテキストを抽出し、マークアップでフォーマットされた結果を取得するにはどうすればよいですか?

実際にこれを試しています:

pdftotext -layout -enc UTF-8

これを行う他の方法はありますか?

4

1 に答える 1

1

あなたがしたいことは、 では不可能pdftotextです。

返される結果はpdftotext -layout、取得できる最高のものです。

テキストのMarkdown (またはその他のフォーマット) 出力は現在不可能です。

pdf.jsただし、将来的に同様のことを達成する可能性のある他の分野( など)でいくつかの開発が行われる可能性があります...

ただし、この「書式設定」は、PDF ページの視覚的な外観を何らかの形で反映するだけであり、文書の構造情報 (「見出し」、「リスト」、「段落」など)とは一致しません。

@jongware が彼のコメントに書いたことは完全に正しいです。

PDF ファイルには「段落、リストなど」は含まれません。適切なマークアップで明確にタグ付けされていない限り。PDF がタグ付けされていない場合、すべてのユーティリティ (PDF 処理ソフトウェアの試金石である Adob​​e 独自の Acrobat Reader まで) は、「段落」または「リスト」が何であるかを推測することしかできません。

于 2015-01-13T20:17:11.353 に答える