pdftotext - pdftotext で書式設定されたプレーンテキストマークアップを取得するにはどうすればよいですか?

Question

pdftotextPDFファイルからプレーンコンテンツを抽出するために使用しています。

ただし、結果には形式がありません (例: 段落、リストなど)。pdftotextを使用してPDFからプレーンテキストを抽出し、マークアップでフォーマットされた結果を取得するにはどうすればよいですか?

実際にこれを試しています：

pdftotext -layout -enc UTF-8

これを行う他の方法はありますか？

score 1 · Accepted Answer

あなたがしたいことは、では不可能pdftotextです。

返される結果はpdftotext -layout、取得できる最高のものです。

テキストのMarkdown (またはその他のフォーマット) 出力は現在不可能です。

pdf.jsただし、将来的に同様のことを達成する可能性のある他の分野（など）でいくつかの開発が行われる可能性があります...

ただし、この「書式設定」は、PDF ページの視覚的な外観を何らかの形で反映するだけであり、文書の構造情報 (「見出し」、「リスト」、「段落」など)とは一致しません。

@jongware が彼のコメントに書いたことは完全に正しいです。

PDF ファイルには「段落、リストなど」は含まれません。適切なマークアップで明確にタグ付けされていない限り。PDF がタグ付けされていない場合、すべてのユーティリティ (PDF 処理ソフトウェアの試金石である Adobe 独自の Acrobat Reader まで) は、「段落」または「リスト」が何であるかを推測することしかできません。

pdftotext - pdftotext で書式設定されたプレーン テキスト マークアップを取得するにはどうすればよいですか?

1 に答える 1

Related

Reference

pdftotext - pdftotext で書式設定されたプレーンテキストマークアップを取得するにはどうすればよいですか?