1

オンラインで書籍を PDF 形式でダウンロードしましたが、その書籍を iOS プロジェクトで使用したいと考えています。必要な形式は xml です。形式は次のようになります。

<q>question here</q>
<a>answer here</a>
<q>question2</q>
<a>answer2</a>

PDF形式は次のようなものです:

               the question is centered
    the answer has several paragraphs that start with 4 white space. 

    This is another paragraph
               This is the second question and so on

    This is the answer to the second question

               The third question and there may be a blank line above
    This is the 4th question and no blank line above

word/pages を使用して pdf を txt に変換し、テキストを 1 行ずつ読んでみましたが、質問と回答を特定できません。別の問題は、変換を行うと、pdf の自動折り返しが改行に変換されることです。

注:プロセスは

pdf -> use word/pages -> txt -> python program -> xml -> python program -> sqlite database

重要な部分は、pdf を正しい xml ファイルに変換する方法です。

4

1 に答える 1

-1

私見、github.com または他の場所から、使用可能なオープン ソースの使いやすい pdf ビューアーを見つけることができます。次に、変換されたテキストを解析して xml を生成できます。

于 2013-08-11T02:55:42.470 に答える