2

Google グループから Atom フィードを取得する Yahoo パイプがあり、メッセージの全文を処理したいと考えています (さまざまな正規表現を実行してデータを抽出します)。次のような URL を使用して、Google からメッセージのテキストをプレーン テキストで取得できます。

http://groups.google.com/group/(group_name)/msg/(message_id)?dmode=source&output=gplain

ただし、Yahoo パイプ内で文字列値として取得するのに問題があります。Fetch Page は非 HTML ページを拒否します。html テーブルを使用した YQL は機能しているようで、プレーン テキストを ap 要素内にラップします。そのテキストは次のように抽出できます。

select * from html where url="..." and xpath="//p"

ただし、メッセージ テキストに html タグが含まれている場合、YQL は文字列ではなく HTML サブツリーを返します。HTMLソースに戻す方法はありますか?

4

1 に答える 1

1

トリックは、「output=gplain」を削除して、pre 要素からコンテンツを取得することです。

select content from html 
where url="http://groups.google.com/group/haml/msg/0f78eda2f5ef802d?dmode=source" 
and xpath='//div[contains(@class,"maincontbox")]/pre'

デモ用に、入力として Google グループとメッセージ ID を使用してパイプを作成しました。

http://pipes.yahoo.com/pipes/pipe.info?_id=3d345e162405e7dbd47d73b95c21f102

于 2011-05-30T19:28:10.637 に答える