問題タブ [feedparser]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python と FeedParser の質問
私はPythonが初めてです。私は Feedparser を使用してこのコードを持っています:
私の質問。
変数「updates」に 10 個のエントリを追加するにはどうすればよいですか?
よろしくお願いします、
python - Python CouchDBは、feedparserエントリから作成されたdictを保存できませんか?(属性なし'読み取り')
RSSフィードのエントリを読み取り、個々のエントリをJSON形式でCouchDBデータベースに保存するスクリプトがあります。
私のコードの興味深い部分は次のようになります。
そのコードを実行しようとすると、次のエラーが発生しますdb.save(item)
:
OK、それで私は少しデバッグをしました...
結果は<class 'feedparser.FeedParserDict'>
--ahhなので、feedparserは独自のdictタイプを使用しています...まあ、明示的にキャストしようとするとどうなりdict
ますか?
w-何?以下は問題なく機能し、タイプはまだであるため、これは意味がありませんdict
。
ここで何が欠けていますか?
xml - 巨大な XML フィードを解析する際の重複データの処理
株式相場で xml フィードを解析し、結果をデータベースに保存するコンポーネントを作成しています。フィードをインクリメンタルに読み取ることができないことを除けば、問題はかなり単純です。つまり、最後の X 回の見積もりの変更のみが必要なのか、X 分よりも新しい変更のみが必要なのかを指定する方法はありません。本当の問題は、フィードが愚かで、プロバイダーが修正する必要があることですが、それはオプションの atm ではありません。
フィードは、プロバイダーの最新の株価情報 100000 件を含む巨大な xml ファイルです。フィードは 1 分ごとに 1 回ポーリングされ、その間に約 50 ~ 100 件の変更された見積もりがあります。残りは、何度も何度も読まれる重複した引用です。
フィードの各ポーリング中に、すべての引用符を (lxml を使用して) オブジェクトに解析します。次に、引用オブジェクトごとに、引用がデータベースに既に存在するかどうかを確認します。ある場合は破棄し、ない場合は保存します。新しいデータは約 0.1% のみで、残りは重複しているため、この手順は非常に無駄です。少し最適化するために、過去 X 時間に更新された相場をデータベースに 1 回照会してルックアップ テーブルを作成します。引用符は (last_update, stock_id) キーのデータベース内で一意であるため、この最適化によりクエリの数が約 50% 削減されます。
しかし、まだ 50k db のクエリがあり、各引用符が存在するかどうかを個別にチェックする必要があり、データベースに非常に負担がかかります。
そこで私が探しているのは、フィード パーサーを高速化する方法についてのアイデアです。最後に取得したxmlファイルと新しいxmlファイルを比較する方法はあるのでしょうか?
javascript - 宣言されていない変数のテスト
JavaScript を使用して RSS フィードを解析しようとしています。フィードに複数のカテゴリがある場合があるため、アイテム 2 に何かあるかどうかを確認したい場合があります。確認しないとエラーが発生し、次のコードを使用して確認するとエラーが発生します。(変数が定義されているかどうかのテストとして、単純に var cat2 を設定しています)。
iphone - タグ内のMWFeedParserタグ(media:thumbnail)
私はここからYoutubeアトムフィードから読み取るためにMWFeedParserを使用しています:ここ
Xmlコード:
media:thumbnailのURLを取得するにはどうすればよいですか?私はこれからMWFeedParser.mを変更しようとしました:
これに:
しかし、それは機能しません:(
java - 正規表現を使用して解析し、内容を取得するのに役立ちますhtmlのタグ
データを取得しようとしているサイトがあり、コンテンツは次のようにレイアウトされています。
私はJavaを使用してWebページのコンテンツを取得しており、次のように解析しようとしています:
しかし、一致するものが見つからないという例外がスローされます...
私の正規表現は正しいですか?他に何が起こっている可能性がありますか?私はhtmlをうまく取得していますが、どうやら私の正規表現に一致するものはありません...
ありがとう
python - FeedBurnerも処理するPythonRSSパーサー
RSSフィード用のPythonパーサースクリプトを書いている最中です。私はfeedparserを使用していますが、FeedBurnerからのフィードの解析に固執しています。最近FeedBurnerが必要なのは誰ですか?いずれかの方法..
たとえば、解析する方法が見つかりませんでした
http://feeds.wired.com/wired/index
http://feeds2.feedburner.com/ziffdavis/pcmag
それらをfeedparserライブラリに入れると、機能しないようです。URLの最後に?fmt = xmlまたは?format = xmlを入れようとしましたが、それでもxml形式になりませんでした。
FeedBurnerフィードを解析するには、BeautifulSoupなどのHTMLパーサーを使用する必要がありますか?できれば、これをすでに処理しているpython public parserまたはaggregatorスクリプトはありますか?
ヒントやヘルプは大歓迎です。
python - FeedParser オブジェクトを Atom にシリアライズする
私は feedparser http://www.feedparser.org/を使用して Atom フィードを解析し、結果の Python objetcs に対して何らかの操作を行います。その後、オブジェクトをシリアライズして Atom に戻します。しかし、フィードパーサーはそうする方法を提供していないようですか?
gdata http://code.google.com/p/gdata-python-client/や demokritos http://jtauber.com/demokritos/のような他の Atom ライブラリに気付きましたが、実を言うと、それらは初心者。私が feedparser を使っているのは、まさにその単純さゆえです。
namsral の良い反応に続いて、お気に入りのテンプレート言語である SimpleTAL を使用してシリアライザーを作成しました。
python - PythonでAtom/RSSフィードを変更するにはどうすればよいですか?
これが私がPythonでやりたいことです:
- フィードを取る
- フィードにデータを追加する
- このように変更されたフィードを再公開します
Feedparserは解析に優れていますが、FeedParserDict
オブジェクトからXMLドキュメントを作成する方法を提供していないようです。
独自の作成関数を作成するより簡単な方法はありますか?
python - feedparser に基づくアプリケーション
feedparser
Ubuntu で動作し、フィードのスケジューリングとストレージを表示する Python ライブラリに基づくアプリケーションはありますか?
ありがとうございました