2

私は、PDFファイルから強調表示されたパッセージを抽出するPythonのツールに取り組んでいます。OS X LionのプレビューでPDFを定期的に強調表示していますが、これらのパッセージを抽出するための優れたツールが見つかりません。Skimなど、ハイライトしてエクスポートできるアプリは他にもありますが、プレビューで追加したアプリを抽出する方法が必要だと思います。

ハイライトはPDFファイルのHFS+拡張属性に保存されると思いましたが、xattrを使用してそれらを見ると、他の場所に保存されているようです。PDFKitも調べましたが、注釈を見つけるのではなく、注釈を作成する方法しかわかりませんでした。

誰かがハイライト/注釈を見つける場所を教えてくれたり、これを説明しているドキュメントを教えてくれたら、本当にありがたいです。

4

2 に答える 2

2

PDFKit を使用すると、任意の PDFPage インスタンスから注釈を取得できます。

[myPDFPage annotations]その特定のページの注釈の配列を返します。

詳細については、ドキュメントを参照してください。

于 2012-05-27T02:45:53.107 に答える
2

技術的に言えば、PDF の一部を強調表示することは、ファイルに注釈を追加することです。これらの注釈は、PDF 仕様で定義された PDF オブジェクトです。それらは PDF ファイル自体の内部に保存されます。つまり、元のファイルを変更します! そのため、HFS+ 拡張属性にハイライトの痕跡が見つかりません...

したがって、タイトル行の質問に対する答えは次のとおりです。プレビューは、PDF ファイル内のハイライトを完全に準拠した PDF オブジェクトとして保存します。

あなたのテキストに暗示されているあなたの本当の質問 ( 「強調表示された箇所を抽出したい」 ) に対する答えは、sosborn によって適切に回答されました。

于 2012-05-27T11:30:13.667 に答える