いくつかのハイパーリンクを含む PDF ドキュメントがあり、その PDF からすべてのテキストを抽出する必要があります。http://www.endlesscurious.com/2012/06/13/scraping-pdf-with-python/の PDFMiner ライブラリとコードを使用して、 テキストを抽出しました。ただし、ハイパーリンクは抽出されません。
たとえば、Check this link outというテキストにリンクが添付されています。単語を抽出することはできますCheck this link out
が、本当に必要なのはハイパーリンク自体であり、単語ではありません。
どうすればこれを行うことができますか?理想的には、Python で行うことを好みますが、他の言語でも同様に行うことができます。
見たことはありますがitextsharp
、使ったことはありません。私は を実行していUbuntu
ます。助けていただければ幸いです。