現在、HTML ドキュメントを解析して、その中のすべての脚注を取得しようとしています。ドキュメントには何十ものそれらが含まれています。必要なコンテンツをすべて抽出するために使用する式が本当にわかりません。問題は、クラス (例: "calibre34") がすべてのドキュメントでランダム化されていることです。脚注がどこにあるかを確認する唯一の方法は、"hide" を検索することです。その後は常にテキストであり、< /td> タグで閉じられます。以下は、HTML ドキュメントの脚注の 1 つの例です。必要なのはテキストだけです。何か案は?みんなありがとう!
<td class="calibre33">1.<span><a class="x-xref" href="javascript:void(0);">
[hide]</a></span></td>
<td class="calibre34">
Among the other factors on which the premium would be based are the
average size of the losses experienced, a margin for contingencies,
a loading to cover the insurer's expenses, a margin for profit or
addition to the insurer's surplus, and perhaps the investment
earnings the insurer could realize from the time the premiums are
collected until the losses must be paid.</td>