html-parsing - 複数のページにわたって特定の HTML の場所からテキストを抽出する

Question

複数のページにわたって HTML 内の特定の場所からテキストを抽出する目的で、Jericho HTML パーサーと Selenium IDE を試してきました。

これを行う方法の簡単な例が見つかりませんでしたし、Java も知りません。

1 番目のテーブル、4 番目の行、1 番目の div の任意のテキスト文字列のすべての HTML ページをフォルダで検索したいと思います。

</table>
 <tr class="abc"><td class="xyz"><div align="center">The Text I don't want</div></td></tr>
 <tr class="abc"><td class="xyz"><div align="center">The Text I don't want</div></td></tr>
 <tr class="abc"><td class="xyz"><div align="center">The Text I don't want</div></td></tr>    
 <tr class="abc"><td class="xyz"><div align="center">The Text I want</div></td></tr>
</table>

そして、選択したテキストを次のようなリストの txt ファイルに出力します。

    The Text I want
    Another Text I want

すべてのソースファイルはローカルに保存され、不適切な HTML が含まれている可能性があるため、この目的には Jericho が最適であると考えられます。ただし、望ましい結果を達成するための方法を喜んで学びます。

score 0 · Accepted Answer

結局、私はbeautifulsoupに行き、次のようなPythonスクリプトを使用しました：

# open source html file
with open(html_pathname, 'r') as html_file:
# using BeautifulSoup module search html tag's tree
soup = BeautifulSoup(html_file)
# find according your criteria "1st table, 6th tr, 1st td, 1st div"
trs = soup.html.body.table.tr.findNextSiblings('tr')[4].td.div
# write found text to result txt
print ' - writing to result txt'
result_file.write(''.join(trs.contents) + '\n')
print ' - ok!'

html-parsing - 複数のページにわたって特定の HTML の場所からテキストを抽出する

1 に答える 1

Related

Reference