大きな話
EPUB ファイルを読み取る Python アプリケーションを改善したいと考えています。リーダーが最後に止まった場所を「記憶」するオプションを追加したいと思います。github のこのアプリケーションへのリンクは次のとおりです。
現時点では、ユーザーが停止した最後の単語を保存できます。これらの単語をテキスト内で見つけて、この場所から読者に示したいと思います。しかし、htmlファイルの本文から抽出したテキストを分割してフォーマッタに渡す方法がわかりません。
これがすべて発生する場所の抜粋を次に示します。
''' text dump of html '''
class Parser(htmllib.HTMLParser):
def anchor_end(self):
self.anchor = None
def handle_image(self, source, alt, ismap, alight, width, height):
global basedir
self.handle_data(
'[img="{0}{1}" "{2}"]'.format(basedir, source, alt)
)
class Formatter(formatter.AbstractFormatter):
pass
class Writer(formatter.DumbWriter):
def __init__(self, fl, maxcol=72):
formatter.DumbWriter.__init__(self, fl)
self.maxcol = maxcol
def send_label_data(self, data):
self.send_flowing_data(data)
self.send_flowing_data(' ')
o = StringIO.StringIO()
p = Parser(Formatter(Writer(o, maxcol)))
p.feed(html_snippet)
p.close()
return o.getvalue()
私はこの線に介入しなければならないと思う
p.feed(html_snippet)
皆さん、私が今できることについてアドバイスいただけますか?
よろしく