python - HTML ページと Python: 本文の抽出とその中のテキストの分割

Question

大きな話

EPUB ファイルを読み取る Python アプリケーションを改善したいと考えています。リーダーが最後に止まった場所を「記憶」するオプションを追加したいと思います。github のこのアプリケーションへのリンクは次のとおりです。

現時点では、ユーザーが停止した最後の単語を保存できます。これらの単語をテキスト内で見つけて、この場所から読者に示したいと思います。しかし、htmlファイルの本文から抽出したテキストを分割してフォーマッタに渡す方法がわかりません。

これがすべて発生する場所の抜粋を次に示します。

''' text dump of html '''
class Parser(htmllib.HTMLParser):
    def anchor_end(self):
        self.anchor = None
    def handle_image(self, source, alt, ismap, alight, width, height):
        global basedir
        self.handle_data(
            '[img="{0}{1}" "{2}"]'.format(basedir, source, alt)
        )

class Formatter(formatter.AbstractFormatter):
    pass

class Writer(formatter.DumbWriter):
    def __init__(self, fl, maxcol=72):
        formatter.DumbWriter.__init__(self, fl)
        self.maxcol = maxcol
    def send_label_data(self, data):
        self.send_flowing_data(data)
        self.send_flowing_data(' ')

o = StringIO.StringIO()
p = Parser(Formatter(Writer(o, maxcol)))
p.feed(html_snippet)
p.close()

return o.getvalue()

私はこの線に介入しなければならないと思う

p.feed(html_snippet)

皆さん、私が今できることについてアドバイスいただけますか？

よろしく

python - HTML ページと Python: 本文の抽出とその中のテキストの分割

0 に答える 0

Related

Reference