私はこのURLのデータをスクレイピングするためにプロキシを使用しています:CNN記事
記事のテキスト全体を取得したい(見出しは必ずしも必要ではありません)。だから私はこれを試しました:
$(data).find("div:contains('Across the river from Cairo')");
これはテキストの一部を見つけますが、私がそれを使って自分のことをするとき、myThing = $(this).text();
それは単なる記事以上のものを手に入れているようです。これは、HTMLの構築方法と関係がある可能性があります。ソースを見ると、記事のテキストがに限定されていることがわかります。p
ただし、div:contains
inをに変更するp:contains
と、最初の数行しか表示されません(明らかに)
ですから、私の質問は、HTML構造に関係なく、記事のテキストを取得するにはどうすればよいかということです。私は言う何か(コード)を探しています:
find.('Across the river from Cairo') and get this text and all the text underneath this text();