epub - ePub 抜粋の抽出

Question

ePub の形式、標準、構造、リーダー、ツール、および ePub を操作/変換/作成するための利用可能な開発者のテクニックについて読んだことがありますが、特定の長さの文字を抽出して作成するための魔法のような機能は (今のところ) ありません。本の抜粋。そして、まさに私が探しているのは、ePub の最初の X 単語を抽出する方法です。

私が検討している最初のアプローチ (私のお気に入りではありません) は、すべての ePub メタデータを読み取り、決定された ePub の抜粋を作成するのに十分な単語が得られるまで、正しい順序で xml ファイルの解析を開始するパーサーを作成することです (感謝しますこの方向のいくつかのフィードバック)
2番目の方法（これまでのところ見つけられません）は、既存のツール/関数またはパーサー（任意の言語）であり、（うまくいけば）ePubのプレーンテキストを返すため、最初のXワードを収集して作成することができます抜粋。

2 番目のオプションを実現するのに役立つツールを知っていますか?

score 1 · Accepted Answer

Apache Tika を参照してください: http://tika.apache.org/ コマンドラインから、Java ライブラリとして、またはサーバーモードで使用して、ePub からテキストを抽出することもできます。これが役に立てば幸いです、F.

score 0 · Accepted Answer

ホセ、私はあなたが望むことをするためのツールを知りません. ただし、最初のアプローチについてコメントさせてください。ツールを見つけた場合は、これらのコメントで評価できることを願っています。

あなたのアプローチは問題ないと思います。抽出をうまく作成したい場合は、とにかくこのステップを所有することをお勧めします。私はあなたに提案します、

OPF ファイルを取得し、GUIDE セクションを探します。GUIDE セクションが存在する場合は、指定されているタイプを確認してください。一部はおそらく抜粋とは関係ありません (表紙、タイトルページ、著作権ページ)。多くの本にはタイプが明示的に記載されていませんが、これは記載されている場合に役立つはずです。
次に、無関係なものを除外して SPINE セクションのファイルを順番に調べ、抜粋を取得するのに十分な数の XHTML ファイルを読みます。
一方、OPF ファイルでは、これが抜粋に関連する場合、大量のメタデータを取得します (タイトル、作成者、日付は必須であり、一部の著者はキーワードなどの他のメタデータも大量に入力します)。

この抜粋を使用してミニ EPUB を作成する場合は、抜粋を作成するために使用される XHTML ファイルで参照される CSS、オーディオ、ビデオ、画像、およびカスタムフォントファイルを選択する必要があります。抜粋 epub のカバーファイルに元のカバーファイルを使用することもできます。

読み上げなどの楽しいものを含む固定レイアウトの本を扱っていて、抜粋としてミニ EPUB を作成したい場合は、単語数ではなくページ数を使用する方がよい場合があります。抜粋に SMIL ファイルを含めて見栄えを良くすることを忘れないでください: (i) 見開き 2 ページを分割しないでください。(ii) 元のページが奇数の場合、最初のページが奇数ページであることを確認してください。または、元の番号が偶数の場合でも-これを行うには、空白のフィラーページを追加する必要がある場合があります(奇数/偶数を間違えると、後続の2つのページスプレッドが互いに向き合わなくなります)

それが役立つことを願っています。

epub - ePub 抜粋の抽出

2 に答える 2

Related

Reference