問題タブ [feedparser]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
rss - RSS の日付セマンティクス
feedparserのドキュメントを読んでいます。
日付に関連する4つの属性について説明します
- 公開された
- 更新しました
- 作成した
- 期限切れ
これらの属性は、RSS 仕様に関して何を意味しますか? のみ記載していますpubDate
ありがとうございました
rss - 新しいRSSフィードエントリの検出
RSSの操作にfeedparserを使用しています。アイテムを含むRSSチャネルを定期的に(たとえば15分ごとに)取得して保存しています。チャンネルには、新しいアイテムはほとんどありません。ですから、それは非効率的です。
チャネルに新しいアイテムがあるかどうかをすばやく検出し、ない場合はこのチャネルで何もしない方法はありますか?
ありがとうございました
python - 動作中の Python 環境に UnicodeEncodeError 例外が忍び寄る原因は何ですか?
私のスクリプトには、Twitter RSS フィードを取得し、それを FeedPharser で解析し、twilio モジュールを使用して TwiML (Twilio フレーバーの XML) でラップし、結果の応答を str() を介して CherryPy メソッドで返すメソッドがあります。これは、開発環境(Kubuntu 10.10)で問題なく機能します。サーバー (Linode 上の Ubuntu Server 10.10) でさまざまな結果が得られました。
最初の数か月間は、すべて順調でした。その後、上記の方法は次のようなもので失敗し始めました。
UnicodeEncodeError: 'ascii' コーデックは位置 259 の文字 u'\u2019' をエンコードできません: 序数が範囲内にありません(128)
しかし、同じフィード、同じ Python バージョン、同じ OS、開発ボックスでまったく同じコードを実行すると、コードは正常に実行されます。ただし、正常に動作する場合でも、一部の文字が正しく出力されないことに注意してください。例えば:
’
それよりも
'
この異常を解決するために、VPS をゼロから再構築しただけで、さらに数か月は機能しましたが、エラーが再発しました。
サーバーは更新された Ubuntu パッケージを自動的にインストールしますが、私の開発ボックスも同様です。これを引き起こす可能性のあるものは何も考えられません。どんな助けでも大歓迎です。
python - feedparser を使用して Django DateTimeField を作成する
私は、フィードパーサーを使用して、iCal または RSS 形式で利用可能な学校の運動/活動カレンダーを Django Events モデルに読み込もうとしています。
日付を除いて、すべてが機能します。Feedparser は item.updated_parsed に「9 タプル」を入力しますが、これを Django が DateTimeField で受け入れるものにする方法がわかりません。(私は以前にそれらを使用しましたが、datetime.datetime.now() によってのみ入力されたことがあります)。
何か案は?
python - Twitter RSS フィードの二重エスケープ特殊文字?? また、Universal Feed Parser を使用してこれを処理するにはどうすればよいですか?
Universal Feed Parserを使用して一連のフィードを解析しています
Twitter が RSS フィードを生成するとき、フィールド内の特定の特殊文字を二重エスケープするように見え<description />
ます。たとえば、次のようにツイートするとします。
これは解析できません!
どれが実際に
HTML エンティティで。
Twitter の RSS または Atom フィードから生の XML を見ると、次のようにレンダリングされます。
Universal Feed Parser には、これに関して重大な問題があるようです。エントリの 1 つを解析し、これがどのように解析されるかを見ると、次のようになります。
画面に次のようにレンダリングされます
これを解析できます(&A)!
これを動作させる方法はありますか?Firefox でフィードを開くと、エンティティが正しく処理されるため、明らかに文字列を正しく解析できます。
Universal Feed Parser の動作が正しくないことは確かですが、コードのどの部分を修正する必要があるかを見つけるのに苦労しています。
Web サイトに「3000 ユニット テスト」と記載されているので、私も困惑しています。
これらのテストの 1 つは、エンティティを含むフィードを調べますか?
wordpress - FeedWordPress が画像を正しく解析しない
私は最近 WordPress をインストールし、ゆっくりとその使い方を学んでいます。この 1 つの問題を約 1 時間解決しようとしましたが、問題が見つからないようです。
どのフィードを に追加してFeedWordPress
も、画像が正しく解析されません。(ただし、ここを参照してください): http://ttgdark.com/
src タグの画像へのパスを完全に削除したようなものです。
誰が何が起こっているのか知っていますか?
python - フィードパーサーフィードのすべてのエントリを「クリーン」にする方法
ブログをGoogleのXML形式でバックアップしました。かなり長いです。これまでのところ、私はこれを行いました:
私が読んでいる本では、著者はこれを行っています:
そして、それはエントリーごとに私のために働きます。ご覧のとおり、NLTKを使用してHTMLをクリーンアップする方法はすでにあります。しかし、私が本当に望んでいるのは、すべてのエントリを取得し、HTMLを削除して(私はすでに方法を知っていて、方法を尋ねていません。質問をもう少し注意深く読んでください)、ファイルに次のように書き込むことです。プレーンテキスト文字列。これは、feedparserを正しく使用することと関係があります。それを行う簡単な方法はありますか?
アップデート:
結局のところ、私はそれを行う簡単な方法を見つけることにまだ近づいていません。Pythonに不慣れだったため、少し醜いことをしなければなりませんでした。
これは私がやろうと思ったことです:
それで、@ Rob Cowieさん、どうもありがとうございましたが、あなたのバージョン(見栄えが良い)は機能しませんでした。先に指摘しなかったり、答えを受け入れたりするのは気の毒ですが、このプロジェクトに取り組む時間があまりありません。私が下に置いたものは私が仕事に取り掛かることができるすべてです、しかし誰かがもっとエレガントな何かを持っている場合に備えて私はこの質問を開いたままにしておきます。
次に、Pythonのstdoutを閉じずに開いているファイルを閉じる方法がわからなかったため、インタープリターからCtrlキーを押しながらDキーを押しました。次に、インタプリタを再入力し、ファイルを開いてファイルを読み取り、そこからHTMLをクリーンアップしました。(nltk.html_cleanは、NLTKブック自体のオンラインバージョンのタイプミスです...ちなみに、実際にはnltk.clean_htmlです)。私が最終的に得たのは、ほとんど、しかし完全ではない平文でした。
python - feedparser を使用してフィードから複数のタグを取得できません
次の XML ドキュメントがあります。
feedparserを使用してこのドキュメントを解析しています。私は次のことを行います:
ラベルが 1 つしかないことがわかります。
複数の問題ラベルがあります:
しかし、最後のものだけを取得できます。それらをすべて取得したいと思います。
python - Feedparser 日付パラメーター/時間固有のクエリ
feedparser に、feed.updated よりも新しい新しいエントリのみを照会するオプションはありますか?
または、特定の日付/今日/週などのエントリのみを取得するようにパラメータを設定できますか? (Safari の RSS リーダーはこのオプションを提供します...)
android - RSSパーサーの解析フィードとサムネイルを高速化する方法
ポッドキャストアプリ用にRSSパーサーを作成しました。さまざまなポッドキャストでRSSフィードを解析し、その結果をで表示しているListView
場合、パーサーがフィード全体を解析するのに約1〜2秒かかります。
ただし、各ポッドキャストのサムネイルをに含めたい場合は、ListView
最初にサムネイルをダウンロードしてでビットマップを作成する必要があります。BitmapFactory
その後、ビットマップをに保存できImageView
ます。
残念ながら、これにより実行時間が1〜2秒から8〜10秒に延長されます。
これが私がサムネイルをつかむ方法です。私がやりたいことを達成するためのより良い(そしてより速い)方法はありますか?もしあれば、どうすればそれを達成できますか?
前もって感謝します。