問題タブ [feedparser]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Netflix.comのNewWatchInstantlyRSSフィードエントリに日付がないのはなぜですか(feedparserで解析した場合)?
以下からの出力:
は:
http://feedparser.org/docs/common-rss-elements.htmlによると、エントリには「date」要素が含まれている必要があります。
手がかりは、 FirefoxまたはSafari(Mac OS Xの場合)でhttp://www.netflix.com/NewWatchInstantlyRSSを開いたときに、日付が表示されないことです。(実際、Safariは、フィードを開いた日時を各要素の横に配置します。)しかし、どういうわけか、Googleリーダーは各要素に固有の日付を取得します。(これが、上記のエントリ177を選択した理由です。これが「Dare」のインデックスです。これは、Googleリーダーによると、その横に「午前8時32分」と表示されている今日の最初のエントリです。)
RSSについてわからないことがありますか?日付との相互参照フィードのようなものがありませんか?フィード内のすべてのエントリといくつかのエントリを調べましたが、別のURLまたは任意の種類の日付を指している可能性のあるものは何も表示されません。
php - ページがRSSフィードかATOMフィードかを検出する方法
私は現在、PHPで新しいオンラインフィードリーダーを構築しています。私が取り組んでいる機能の1つは、フィードの自動検出です。<link>
ユーザーがWebサイトのURLを入力すると、スクリプトはそれがフィードではないことを検出し、HTMLを解析して適切なタグを取得することにより、実際のフィードURLを探します。
問題は、URLがフィードなのかウェブサイトなのかを現在検出している方法が一部しか機能しないことであり、それが最善の解決策ではないことを私は知っています。現在、CURL応答を取得して実行していsimplexml_load_string
ます。解析できない場合は、Webサイトとして扱います。これがコードです。
明らかに、これは理想的ではありません。また、解析可能なHTML Webサイトに遭遇すると、フィードと見なされます。
PHPでフィードと非フィードの違いを検出するための良い方法に関する提案はありますか?
python - "を解析する方法" フィードパーサーを使用していますか?
RSS ファイルは次のように表示されます。セクションmedia:groupのコンテンツを取得したいと考えています。feedparser のドキュメントを確認しましたが、これについては言及されていないようです。どうやってするの?どんな助けでも大歓迎です。
ruby - Ruby-Feedzirraとアップデート
ここでFeedzirraの周りに頭を悩ませようとしています。
私はそれをすべてセットアップし、すべてを持っており、結果や更新を取得することさえできますが、何か奇妙なことが起こっています。
私は次のコードを思いついた:
そうです、私が上でやっていることは、大きなフィードから始めて、それからアップデートを取得することだけです。更新を取得して同じインスタンス変数に格納できたとしても、最初は二度と取得できないので、私は愚かなことをしているに違いないと確信しています。
明らかにこれは、インスタンス変数を更新のみで上書きし、完全なフィードオブジェクトを失ったために発生します。
次に、コードを次のように変更することを考えました。
まあ、私は何も上書きしていません、そしてそれは正しく行く方法であるはずですか?
間違っています。これは、常に同じ静的フィードオブジェクトの更新を取得しようとする運命にあることを意味します。変数の更新を取得しても、実際には「静的フィードオブジェクト」を更新することはなく、新しく追加されたアイテムは次のようになります。理論的には新しいので、私の「feed.new_entries」に追加しました。
私は確かにここで一歩を逃していますが、誰かが私に光を当てることができれば本当にありがたいです。私はこのコードを何時間も経験していて、それを理解することができません。
私が次のようなことをした場合、明らかにそれはうまくいくはずです:
これは、インスタンス変数を新しいフィードオブジェクトで再初期化し、更新が再度行われるためです。
しかし、それはまた、その瞬間に追加された新しい更新が失われることを意味し、また、物事を再度ロードする必要があるため、大規模な過剰殺害も失われます。
前もって感謝します!
python - 解析中、Python で feedparser を使用して値をタグ付けします!
XMLファイルからの解析にfeedparser を使用していますが、そのファイルから feedparser を使用して<geo:lat>
,タグを解析できませんでした。<geo:long>
Pythonでfeedparserを使用してこれらのタグを解析する方法を知っていますか?
前もって感謝します!
python - Thread オブジェクト内で feedparser を実行するときの Trace/BPT トラップ
スレッドを実行して、ユニバーサル フィード パーサーを使用してリンクのリストを解析しようとしていますが、スレッドを開始すると Trace/BPT トラップが発生します。
私が使用しているコードは次のとおりです。
これを行う他の方法はありますか?
Mac OS X 10.6.2 によって生成されたレポートへのリンク: http://simaom.com/trace.txt
ありがとう
xml - Twitter フィードは RSS 2.0 と Atom の両方のように見えますか?
私はさまざまなサイト フィードを解析しており、それを行うのに役立つ小さなライブラリをまとめています。
Atom RFCとRSS 2.0 の仕様を見ると、Twitterからのフィードは組み合わせのようです。Twitter は RSS 2.0 構造で Atom 名前空間を指定していますか?
GitHub は Atom を使用しますが、Flickr (ユーザー プロファイルから複数のフィードを提供しますが、デフォルトの「最新」フィードを提供します) はRSS 2.0のようです。
Twitter で Atom 名前空間を指定してから RSS を使用するにはどうすればよいですか?
これにより、指定された名前空間を無視してドキュメント構造を調べない限り、フィードの解析が少し曖昧になります。
python - ATOMフィードを正しく解析する
現在、 feedparserを使用してフィードを読み取って解析するPythonスクリプトを設定しています。しかし、最近、日付の解析で問題が発生しました。私が読んでいるフィードには<modified>2010-05-05T24:17:54Z</modified>
、Pythonで日時オブジェクトとして表示される2010-05-0600:17:54が含まれています。不一致に注意してください。フィードエントリは5月5日に変更されましたが、Pythonはそれを6日として読み取ります。
だから問題は、なぜこれが起こっているのかということです。時間を24:17:54とすると、ATOMフィード(つまり、フィードを作成したフィード)が間違っているのでしょうか、それともPythonスクリプトの処理方法が間違っているのでしょうか。
そして、私はこれを解決できますか?
python - feedparser モジュールを Python に追加する
最近、Python で feedparser をダウンロードしてインストールしました。実行しようとしましたが、インポート時に Netbeans が叫びます: ImportError: Feedparser という名前のモジュールはありません
Netbeans を再起動しましたが、まだうまくいきません。
python - スクリプトの実行中にfeedparserが失敗しますが、インタラクティブなPythonコンソールで再現できません
Eclipseを実行するとき、またはiPythonでスクリプトを実行するときに、これで失敗します。
理由はわかりませんが、同じURLを使用してfeedparse.parse(url)ステートメントを実行するだけでは、エラーはスローされません。これは私を大いに困惑させています。
コードは次のように単純です。
スタックトレースは次のとおりです。
部分的に解決:
これは、feedparser.parse()に渡されるURLがユニコードの場合に再現可能です。ASCII URLの場合、再現されません。そして、記録のために、いくつかの高文字のユニコード文字を含むフィードが必要です。なぜなのかわかりません。