0

PDFからExcelへのコンバーターを作成しました。変換は Linux コマンド pdftohtml によって行われますが、次のように奇妙に見えることがあります。

<b>1 </b><br>
In<br>
I t<br>
n r<br>
t o<br>
r d<br>
o u<br>
d c<br>
u t<br>
c i<br>
t o<br>
i n<br>
o  <br>
<i>Headline1: </i>Text1 <br>
text<br>
<b>1.1 </b><br>
Pu<br>
P r<br>
u p<br>
r o<br>
p s<br>
o e<br>
s  <br>
<i>Headline2: </i>Text2 <br>
text<br>

明らかに、次のようになります。

<b>1 </b>Introduction<br>
<i>Headline1: </i>Text1 <br>
text<br>
<b>1.1 </b>Purpose<br>
<i>Headline2: </i>Text2 <br>
text<br>

たとえば、最後の文字を取得し、後で連結するなど、複数のアプローチを使用しました

<b>((?:[\d]+)(?:[.][\d]+)*)\s*</b><br>\s(\w{2})<br>\s(\w\s(\w)+<br>\s)*(\w)\s\s<br>\s<i>

しかし、これはすべての文字を返すわけではありません。では、何が問題なのですか?なぜこれがすべての一致ではなく返されないのですか? さらに、と<br>の間のすべての -Tagを置き換えようとしています</b><i>

(?=</b>.*)(<br>)(?=.*<i>)

しかし、それも機能しません。

これらのアプローチは正しいですか、それともより良いアプローチがありますか?

4

0 に答える 0