Perl のCAM::PDFを使用して PDF ドキュメントの最初の段落を抽出するにはどうすればよいですか?
2 に答える
1
print CAM::PDF->new('file.pdf')->getPageText(1);
ページからすべてのテキストを取得します。しかし、CAM::PDF は、この特定の仕事には絶対に最適なツールではありません (私は作成者です)。できるかどうかを確認するためだけに、気まぐれにテキスト抽出を追加しました。
于 2009-10-28T02:46:24.387 に答える
0
プレーン PDF は実際にはマークアップ言語ではありません。テキストは特定の場所に描画されます。タグ付き PDFと呼ばれるものがあり、ドキュメントにタグが付けられていると、作業が簡単になる可能性があります。
テキストが画像ではなく PDF にテキストとして保存されている場合は、PDF からテキストへのトランスレータを介してドキュメントを実行し、そこからテキストの最初のチャンクを取得する傾向があります。
于 2009-10-23T15:03:25.680 に答える