0

非常に単純かもしれないことは知っていますが、それを処理する適切な方法が見つかりませんでした。HTML ドキュメントがあり、その内容を抽出したいと考えています。このドキュメントの本文は次のとおりです。

<div class="articleContent">
        <div class="dateblock">
            <div class="textsize">
                <span class="textsize_label">
                    Font Size</span> <a href="javascript:decreaseFontSize();"
                        title="Increase font-size" class="txtsizeminus"><span>-</span></a> <a href="javascript:increaseFontSize();"
                            title="Increase font-size" class="txtsizeplus"><span>+</span></a>
            </div>

            <p class="article_date">
                Last Update: date
            </p>
        </div>
        <div id="ctl00_ctl00_cpAB_cp1_cbcContentBreak">
<div class="zoomMe">
        <P>The Content is here</p>
</div>

私が欲しいのは、「フォントサイズ」や「最終更新」などの他の情報ではなく、ドキュメントの内容です。しかし、これらの情報はすべて「articleContent」の子であるため、それらを取り除く方法がわかりません。これらの追加情報はドキュメントごとに変更される可能性があるため、単純な正規表現を使用して最終的な文字列からそれらを削除することはできないことに注意する必要があります。HTML ファイルの処理中にそれらを除外する必要があります。次のコマンドを使用して、ドキュメントのこの部分とそのコンテンツを抽出していることを付け加える必要があります。

body = soup.find("div", {"class":"articleContent"})
pars= [s for s in body.strings if s.strip() != '']

では、問題は、これらの追加情報が「pars」配列に含まれないようにする方法です。

何か案は?ありがとう

4

1 に答える 1