docxに似た形式のxmlファイルがあります。
<w:r>
<w:rPr>
<w:sz w:val="36"/>
<w:szCs w:val="36"/>
</w:rPr>
<w:t>BIG_TEXT</w:t>
</w:r>
BIG_TEXT
次のように、ソースxmlでのインデックスを取得する必要があります。
from lxml import etree
text = open('/devel/tmp/doc2/word/document.xml', 'r').read()
root = etree.XML(text)
start = 0
for e in root.iter("*"):
if e.text:
offset = text.index(e.text, start)
l = len(e.text)
print 'Text "%s" at offset %s and len=%s' % (e.text, offset, l)
start = offset + l
index
現在の+の位置から新しい検索を開始できますlen(text)
が、別の方法はありますか?w
たとえば、要素には1つの文字が含まれる場合があります。のインデックスは検索されますがw
、タグテキストのインデックスは検索されませんw
。