perl - Perl の CAM::PDF を使用して PDF ドキュメントの最初の段落を抽出するにはどうすればよいですか?

Question

Perl のCAM::PDFを使用して PDF ドキュメントの最初の段落を抽出するにはどうすればよいですか?

score 1 · Accepted Answer

print CAM::PDF->new('file.pdf')->getPageText(1);

ページからすべてのテキストを取得します。しかし、CAM::PDF は、この特定の仕事には絶対に最適なツールではありません (私は作成者です)。できるかどうかを確認するためだけに、気まぐれにテキスト抽出を追加しました。

score 0 · Accepted Answer

プレーン PDF は実際にはマークアップ言語ではありません。テキストは特定の場所に描画されます。タグ付き PDFと呼ばれるものがあり、ドキュメントにタグが付けられていると、作業が簡単になる可能性があります。

テキストが画像ではなく PDF にテキストとして保存されている場合は、PDF からテキストへのトランスレータを介してドキュメントを実行し、そこからテキストの最初のチャンクを取得する傾向があります。

2 に答える 2