2

私の 9 歳の息子は視力が非常に低く、1/10 です。現在、彼の学校のサポート担当者は、彼に教科書の pdf スキャンを提供し、PC で教科書にアクセスするための適切なトレーニングを提供しています。

ただし、これはいくつかの理由から理想的とは言えません。

  • ファイルサイズが大きい (地理書 1 冊で 300Mb、スキャンを行うのは技術者ではありません)
  • テキストのサイズは、ズームを介して間接的にのみ制御されます。私の少年は、少なくとも常に 40pt のテキストが必要です。
  • ナビゲートするのが難しい。つまり、フレーズを読むためだけに何度もスクロールして戻る必要があり、全体を読むのが少し疲れます。
  • メモを取ったり、教科書の解答欄に記入したりする能力がない。
  • TOC/index/ へのアクセスなし
  • PC の問題 (重量/電力/タブレットと比較したクールさの合計)

だから、html5の世界には答えがあると思っています。私が目指しているプロセスは次のとおりです。

  • 教科書をスキャンして、ABBY
    FineReader などの OCR プログラムで実行します。
  • これにより、生のテキストと画像が得られます
  • この生データを、次のような構造を持つ html5 形式にひねります。

    <div class="book">
        <div id="TOC"></div> (This TOC will be built dynamically)
        <div class="page" id="1"> (Important to keep the notion of pages to allow him to have the same reference as the rest of the class)
            <div class="text"></div>
            <div class="img"></div>
            <div class="answerzone"></div>
            <div class="footer"></div>
        </div>
    </div>
    
  • 次に、JavaScript が開始され、次の機能が追加されます。

    • 大きな半透明の左矢印と右矢印は常に画面下隅に表示されます
    • 大きくて半透明のページ番号が常に表示されます (例: 右上隅)
    • 左上隅にある大きな半透明のシンボルで、次の機能にアクセスできます
    • 目次へのアクセス
    • フォントサイズの増減
    • キーボードから、またはスタイラスで画面上にテキストを書き込むことができるゾーンを追加します。このゾーンには、背景として画像を含めることができます。たとえば、回答の周りに円を描く必要がある場所です。
    • 彼が追加したもの (テキスト/画像) はすべてタブレットにローカルに保存されます

というわけで、ここからが質問部分です。解決策を見つけた同様の要件の経験がある人はいますか? テキスト/画像を追加し、すべてをローカルに保存するためのゾーンまで、javascriptのことを行うことができます(まあ、できると思います)。私のニーズに合った既存のhtml5ソリューションへのポインタを持っている人はいますか?

よろしくお願いします、

コルム

PS私はepub全体から離れました。正直に言うと、それはhtmlだけであり、電子ブックリーダーソリューションの代わりにブラウザーを使用しないのはなぜですか?

4

2 に答える 2

1

次の記事をご覧ください: CSS3 を使用した本の構築

これは優れた記事であり、非常に役立つテクニックがたくさん含まれています。明らかに、大量の HTML を生成する必要がありますが、この記事で説明した手法を使用すると、無駄なHTML をほとんど生成する必要がなくなります。この記事では、ページ番号と目次の作成方法を正確に説明しており、JavaScript を使用してページを変更するための左矢印と右矢印を作成することは難しくありません (もちろん、CSS でスタイルを設定します)。

注釈については、これをタブレット用にするか、PC 用にするかについて少し混乱しています。PC 用の場合は、 Zoteroなどのビルド済みツールを使用することをお勧めします。タブレット用の場合は、できることとできないことがタブレットによって大きく異なるため、耳で少しプレイする必要があるかもしれません。

于 2012-08-27T01:12:29.207 に答える
0

これは非常に難しい問題です。最大の問題は、PDFからインテリジェントなテキストを取得することです。PDFには、HTMLで使用するような構造はありません。それは本質的にに印刷される電子紙です。テキストは視覚的に整列するブロックに配置されますが、ファイル内で互いにあまり関係がない場合があります。

おそらくあなたの最善の策は、Calibreを使用してフォーマットを別のものに変更することだと思います。特に教科書のように複雑なものでは、結果は完全にはほど遠いものになります。書籍を変換するときは、必ずHeristicProcessingのオプションに移動して有効にしてください。

Calibreが機能しない場合は、これを行うために使用できるライブラリもいくつかあります。
itextは非営利目的で無料で使用でき、テキストを抽出できます。 pdfboxは無料で、テキスト抽出もあります。 pdfnetは商用製品ですが、使用できるものがある場合があります。

満足のいく自動化された結果が得られるかどうかはわかりません。PDFの膨大なライブラリではなく、1人の子供のカリキュラムを処理するだけでよいことを考えると、各ページを手作業でコピーする価値があるかもしれません。このようにして、テキストをインテリジェントな方法で配置できます。

于 2012-09-11T15:12:35.173 に答える