私の目標は、さまざまな質問者のdocファイルからxmlファイルを作成することです。
例えば。
Interviewer Name: Mr. K </br>
Street: BD
Company: ABC
Mr. K: What is your Name? What is your father name?
Mr. R: My name is R.
My father name is Z.
Mr. K: What is your hobby?
Mr. R: I like to play football.
......................
等々。
今、docファイルから解析してxmlファイルに変換したいと思います。xmlファイルは以下のようになります
<interview>
<information>
<p>Interviewer Name: Mr. K</p>
<p>Street: BD </p>
<p>Company: ABC</p>
</information>
<question><p>What is your Name? What is your father name?</p></question>
<answer>
<p>My name is R.</p>
<p>My father name is Z. </p>
</answer>
<question><p>What is your hobby?</p></question>
<answer>
<p>I like to play football.</p>
<p>.......</p>
</answer>
</interview>
コードはこちら
POI APIを使用してdocファイルを読み取り、DOM APIを使用してXMLを作成しました。しかし、私の主な問題は、質問、回答、および情報ブロックを特定できるアルゴリズムです。それについて何か考えを教えていただけますか?