自分のkindle4を購入して以来、科学論文や漫画を読むのに役立つソフトウェアを探していました。これまでのところ、私の検索では、論文にはk2pdfoptが
、コミックにはBrissが生成されました。実際にはマンガのみです。
最初のリンク、つまりk2pdfoptのページには、PDFの特定の部分を別の部分に切り抜くための非常に優れたソフトウェアが記載されています。k2pdfoptは、これらのpdfトリミングソフトウェア(Brissを含む)とは異なる行で動作することに注意してください。単語や方程式などを、電子書籍リーダーに合わせて画像形式でリフローされるテキストブロックとして認識します。Reflowable DocumentのWikipediaページ(http://en.wikipedia.org/wiki/Reflowable_document)には、k2pdfoptと同様に機能するXeroxPARCによって設計された実験的なソフトウェアが記載されています。
したがって、私の質問は、同様の方法で問題に取り組む既存のオープンソースプロジェクト(またはそれ以上)があるかどうかです。つまり、単語レベルのテキストを画像として認識し、アルゴリズムを使用してそれらの画像を植字します。
- k2pdfoptはexeファイルを生成します-まだwineで試していません。
- ソフトウェアは高度にカスタマイズ可能ですが、つまり、単語の間隔と行間の間隔を提案できますが、ユーザーインターフェイスはなく、すべてのページを同じように扱う必要があります。したがって、たとえば、目次を認識したり、脚注を適切に追加したりする方法はありません。おそらく、人間の介入が必要です。
- したがって、新しいプロジェクトが必要です(そのようなプロジェクトがまだ存在しない場合)。
- 仕事にPythonを使用したいのですが、通常のpdf関連モジュールReportLabとpyPdfは既存のpdfページをインポートできません。誰かがそのようなPythonモジュールの検索を手伝ってもらえますか?