特定のファイルへのリンクを検索するために、Apache PDFBox を使用して PDF をスキャンしています。
スキャンする PDF が約 1,000 ありますが、ほとんどのリンク (実際、現在確認できる限り 1 つを除くすべて) が見つかりました。
ただし、PDFBox が無視する特定のリンクが PDF 内に 1 つあります。Foxit で PDF を開いてリンクのプロパティを確認すると、他のすべてのリンクとまったく同じように見えます (実際に検出されます)。
リンクを反復処理するために使用するコードは次のとおりです。
for( Object p : pages ) {
PDPage page = (PDPage)p;
List<?> annotations = page.getAnnotations();
for( Object a : annotations ) {
PDAnnotation annotation = (PDAnnotation)a;
if( annotation instanceof PDAnnotationLink ) {
PDAnnotationLink link = (PDAnnotationLink)annotation;
/* Do stuff with the link */
}
}
}
影響を受ける PDF ではpage.getAnnotations()
、空のリストが返されます。
注釈以外に知っておくべきリンクの種類はありますか?