複数ページの記事のリンクを解析して、それらを自動的にクリックして記事のコンテンツ全体を抽出しようとしています。最後の質問と役立つ回答に関して、私は機械化を使用しています。
ページネーション リンクを検索するにはどうすればよいですか? 各記事には、次のような異なるリンク アーキテクチャが含まれる場合があります。
ゼイトンライン:
<a id="hp.article.bottom.paginierung.2" class="pn-forward pn-button" title="Vor" href="http://www.zeit.de/politik/ausland/2013-01/Syrien-Fotografie-Reportage/seite-2">Vorwärts</a>
アルテクニカ:
<a href="http://arstechnica.com/information-technology/2013/01/help-ive-got-windows-8-and-i-miss-my-start-menu/2"><span class="next">Next <span class="arrow">→</span></span></a>
IGN:
<a href="http://www.ign.com/articles/2013/01/03/the-ultimate-2013-movie-preview?page=2">Next »</a>
IGN リンクの場合、リンク テキストが含まれているため、リンクを解析するのは比較的簡単ですNext
。しかし、他のリンクはどうですか?ポケット、読みやすさ、インスタペーパーが複数ページのコンテンツを抽出しているため、実行可能であることはわかっています。
少しお役に立てば幸いです。