オンラインで書籍を PDF 形式でダウンロードしましたが、その書籍を iOS プロジェクトで使用したいと考えています。必要な形式は xml です。形式は次のようになります。
<q>question here</q>
<a>answer here</a>
<q>question2</q>
<a>answer2</a>
PDF形式は次のようなものです:
the question is centered
the answer has several paragraphs that start with 4 white space.
This is another paragraph
This is the second question and so on
This is the answer to the second question
The third question and there may be a blank line above
This is the 4th question and no blank line above
word/pages を使用して pdf を txt に変換し、テキストを 1 行ずつ読んでみましたが、質問と回答を特定できません。別の問題は、変換を行うと、pdf の自動折り返しが改行に変換されることです。
注:プロセスは
pdf -> use word/pages -> txt -> python program -> xml -> python program -> sqlite database
重要な部分は、pdf を正しい xml ファイルに変換する方法です。