1

Perl のCAM::PDFを使用して PDF ドキュメントの最初の段落を抽出するにはどうすればよいですか?

4

2 に答える 2

1
print CAM::PDF->new('file.pdf')->getPageText(1);

ページからすべてのテキストを取得します。しかし、CAM::PDF は、この特定の仕事には絶対に最適なツールではありません (私は作成者です)。できるかどうかを確認するためだけに、気まぐれにテキスト抽出を追加しました。

于 2009-10-28T02:46:24.387 に答える
0

プレーン PDF は実際にはマークアップ言語ではありません。テキストは特定の場所に描画されます。タグ付き PDFと呼ばれるものがあり、ドキュメントにタグが付けられていると、作業が簡単になる可能性があります。

テキストが画像ではなく PDF にテキストとして保存されている場合は、PDF からテキストへのトランスレータを介してドキュメントを実行し、そこからテキストの最初のチャンクを取得する傾向があります。

于 2009-10-23T15:03:25.680 に答える