pdftotext
PDFファイルからプレーンコンテンツを抽出するために使用しています。
ただし、結果には形式がありません (例: 段落、リストなど)。pdftotext
を使用してPDFからプレーンテキストを抽出し、マークアップでフォーマットされた結果を取得するにはどうすればよいですか?
実際にこれを試しています:
pdftotext -layout -enc UTF-8
これを行う他の方法はありますか?
pdftotext
PDFファイルからプレーンコンテンツを抽出するために使用しています。
ただし、結果には形式がありません (例: 段落、リストなど)。pdftotext
を使用してPDFからプレーンテキストを抽出し、マークアップでフォーマットされた結果を取得するにはどうすればよいですか?
実際にこれを試しています:
pdftotext -layout -enc UTF-8
これを行う他の方法はありますか?
あなたがしたいことは、 では不可能pdftotext
です。
返される結果はpdftotext -layout
、取得できる最高のものです。
テキストのMarkdown (またはその他のフォーマット) 出力は現在不可能です。
pdf.js
ただし、将来的に同様のことを達成する可能性のある他の分野( など)でいくつかの開発が行われる可能性があります...
ただし、この「書式設定」は、PDF ページの視覚的な外観を何らかの形で反映するだけであり、文書の構造情報 (「見出し」、「リスト」、「段落」など)とは一致しません。
@jongware が彼のコメントに書いたことは完全に正しいです。
PDF ファイルには「段落、リストなど」は含まれません。適切なマークアップで明確にタグ付けされていない限り。PDF がタグ付けされていない場合、すべてのユーティリティ (PDF 処理ソフトウェアの試金石である Adobe 独自の Acrobat Reader まで) は、「段落」または「リスト」が何であるかを推測することしかできません。