regex - Yahoo パイプと Web サイト名

Question

Yahoo Pipes でページ名を取得するにはどうすればよいですか?

私はニュース/ブログのアグリゲーターを作成しており、情報が由来するサイトの名前 (bbc、cnn、fox など) を知る必要があります。

REGEXでこれを行う必要がありますか?

誰でも助けることができますか？

score 1 · Accepted Answer

[ソース] メニューのXPath Fetch PageまたはFetch Feedモジュールを使用して、ページをフェッチできます。たぶん他の人とも。

その後、使用しているソースページと取得したい出力に応じて、さまざまな演算子 (おそらくRegexなど) を使用してページ名自体を抽出できます。

一般的に、あなたの質問は広範すぎて、答えるのが難しいです。開始するために、この投稿から質問のタイトルを抽出するパイプの例を作成しました。これは基本的に現在のページの「ページ名」です。

http://pipes.yahoo.com/pipes/pipe.info?_id=668acf3f807c30d7b75f12459edd3252

パラメータを指定してXPath Fetch Pageを使用しました。

URL = このページ
XPath を使用して抽出 =//div[@id="question-header"]

divこのページのソースコードを調べてそのパスを取得しました。ここで、それdiv#question-headerが質問のコンテナーであることがわかりました。より深い内側のコンテナまたはより高いレベルのコンテナを選択できたはずです。それはすべて、必要な他の情報の量によって異なります。ページから得たい情報が多ければ多いほど、より高いレベルのコンテナを選択します。

次に、Create RSSオペレーターを使用して、パラメーターを使用して適切な RSS フィードを作成しました。

タイトル =h1.a
リンク =h1.a.href

これらの要素を選択したのは、xpath で抽出したコンテナーでは、ページ名がの中にあるためh1 aです。Yahoo Pipes では、パス区切りとしてドットを使用します。

regex - Yahoo パイプと Web サイト名

2 に答える 2

Related

Reference