複数のページにわたって HTML 内の特定の場所からテキストを抽出する目的で、Jericho HTML パーサーと Selenium IDE を試してきました。
これを行う方法の簡単な例が見つかりませんでしたし、Java も知りません。
1 番目のテーブル、4 番目の行、1 番目の div の任意のテキスト文字列のすべての HTML ページをフォルダで検索したいと思います。
</table>
<tr class="abc"><td class="xyz"><div align="center">The Text I don't want</div></td></tr>
<tr class="abc"><td class="xyz"><div align="center">The Text I don't want</div></td></tr>
<tr class="abc"><td class="xyz"><div align="center">The Text I don't want</div></td></tr>
<tr class="abc"><td class="xyz"><div align="center">The Text I want</div></td></tr>
</table>
そして、選択したテキストを次のようなリストの txt ファイルに出力します。
The Text I want
Another Text I want
すべてのソース ファイルはローカルに保存され、不適切な HTML が含まれている可能性があるため、この目的には Jericho が最適であると考えられます。ただし、望ましい結果を達成するための方法を喜んで学びます。