Google グループから Atom フィードを取得する Yahoo パイプがあり、メッセージの全文を処理したいと考えています (さまざまな正規表現を実行してデータを抽出します)。次のような URL を使用して、Google からメッセージのテキストをプレーン テキストで取得できます。
http://groups.google.com/group/(group_name)/msg/(message_id)?dmode=source&output=gplain
ただし、Yahoo パイプ内で文字列値として取得するのに問題があります。Fetch Page は非 HTML ページを拒否します。html テーブルを使用した YQL は機能しているようで、プレーン テキストを ap 要素内にラップします。そのテキストは次のように抽出できます。
select * from html where url="..." and xpath="//p"
ただし、メッセージ テキストに html タグが含まれている場合、YQL は文字列ではなく HTML サブツリーを返します。HTMLソースに戻す方法はありますか?