HTML ドキュメントおよび/または Web ページ上の一連の URL を指定して、そのページからの前/次のリンクである一連の URL を提供するヒューリスティックのリストを探しています。また、ベース URL が与えられていると仮定します。リンクが具体的に次の URL なのか前の URL なのかを知る必要はありません。その 2 つのうちの 1 つであるだけです。
私はすでに短いリストを持っています:
- URL と同じドメインとパスですが、クエリ パラメータが異なります。
- ベース:abc.com/story
- 次/前: abc.com/story?p=2
- また
- ベース: abc.com/story.html?p=5
- 次/前: abc.com/story.html?p=3
- URL は、数値パス要素を除いてベース URL と同じです。
- ベース:abc.com/story
- 次/前: abc.com/story/2
- DOM/HTML 内で相互に隣接する複数のリンク。
- これはヘッダー/フッターのようなものかもしれませんが、どうにかしてそれを説明する必要があります...何かアイデアはありますか?
- テキストが数字であるか、テストが「次へ」、「前へ」、「最初」、「最後」、「戻る」、「進む」などの単語であるリンク...
これを完璧にこなすことは決してできないことはわかっていますが、できるだけ多くのカバレッジとヒューリスティックを取得して、適切な組み合わせまたは量と質を期待したいと考えています. ありがとう。