ウィキペディアの俳優ページのリンクを解析して、出演した映画へのリンクを探しています。
リンクを検索し、リンク内の単語をチェックする基本的な方法がありますfilm
。ただし、映画へのリンクの多くには、実際にはこの単語が含まれていません。
ただし、リンクが含まれている段落内では、映画という単語が表示されます。次に例を示します。
<p>Dreyfuss's first film part was a small, uncredited role in
<i><a href="/wiki/The_Graduate" title="The Graduate">The Graduate
// Paragraph goes on for a long time.
以下は、すべてのリンクをチェックするメソッドのブロックです。
all_links = doca.search('//a[@href]')
all_links.each do |link|
link_info = link['href']
if link_info.include?("(film)") && !(link_info.include?("Category:") || link_info.include?("php"))
then out << link_info end
end
out.uniq.collect {|link| strip_out_name(link)}
<p>
リンクの前でタグの後にある前のテキストをチェックする方法はありますか? ただし、film
他のリンクをチェックしないように注意してください (また、リンクの前の検索を 50 文字に制限することもできます)。
助けや提案をありがとう。