2

iText を使用して生成された PDF ドキュメントからすべてのデータ (正方形、四角形、線など) を抽出しようとしていますが、テキストと画像ではなくコンテンツを抽出できません。グラフィック コンポーネントを抽出したい上記の通り。

4

1 に答える 1

2

これには3つのオプションがあるようです(少なくともそれらは私が見つけることができたものです)、あなたが正確に何を持っているのかわからないので、3つすべてを貼り付けます。これらは難易度が高くなります)

最初のオプション: 次のようなことができます: (ここから取得)

PDDocument document = null; 
document = PDDocument.load(inFile); 
List pages = document.getDocumentCatalog().getAllPages();
Iterator iter = pages.iterator(); 
while (iter.hasNext()) {
            PDPage page = (PDPage) iter.next();
            PDResources resources = page.getResources();
            Map pageImages = resources.getImages();
            if (pageImages != null) { 
                Iterator imageIter = pageImages.keySet().iterator();
                while (imageIter.hasNext()) {
                    String key = (String) imageIter.next();
                    PDXObjectImage image = (PDXObjectImage) pageImages.get(key);
                    image.write2OutputStream(/* some output stream */);
                }
            }
}

2番目のオプションは、ここに示されている内容に沿って何かを使用してPDFドキュメントをHTMLに変換し、HTMLを処理してタグJSoupを反復処理することです。これは、画像がレンダリングされると想定しています.img

または、以下を参照してHough Transformください。

ハフ変換は、画像解析、コンピューター ビジョン、およびデジタル画像処理で使用される特徴抽出手法です。この手法の目的は、投票手順によって特定のクラスの形状内のオブジェクトの不完全なインスタンスを見つけることです。

などのイメージング ライブラリは、そのようなライブラリの Java ラッパーであるため、そのままOpenCVでそのような機能を生成できるはずです ( )。OpenCV-Java

この例は正しい方向を示しているはずです。

于 2013-10-18T05:27:25.073 に答える