問題タブ [pyquery]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - pyquery mac のインストール
最初に pypm でインストールしてみましたが、基本的に pip で行ったのと同じ経験があります (以下の出力をコピー/貼り付けました)。インストールプロンプトには、インストールされていることが示され、pipとpypmの両方でpyqueryがインストールリストに表示されます。しかし、Pythonインタープリターに入ると、どうやらpyqueryがインストールされていないようです:o
私は何を間違っていますか?
python - PyQueryクエリで最初のアイテム(またはx番目のアイテム)にアクセスするにはどうすればよいですか?
2 つの結果を返すテストの 1 つに対するクエリがあります。具体的には、次を使用して見つかったアウトラインの第 3 レベル
最初または 2 番目の順序なしリストを選択するにはどうすればよいですか?
HTMLElement に減衰します
また
見えないようにする良い方法はありますか?
ノート:
最初のリストではなく、各リストの最初の要素を取得します。
lxml - lxml/pyquery: 厳密ではない方法で解析します
私は PyQuery を使用して Web から大量のドキュメントを処理しています。PyQuery は lxml を使用して HTML ドキュメントを解析します。
実際のところ、ドキュメントの多くは有効な HTML ではありません。結果として、これらの無効なドキュメントは lxml で正常に解析できず、それ以上情報を取得できません。また、次の例外が頻繁に発生します。
私が求めていること:
lxml
この無効性を無視できるように、厳密ではない方法で解析できるようにする方法が必要です。
web-crawler - 記事から著者を抽出する
タイトルの通り記事をクローリングして、あとは著者だけです。
以下は私のコードで、pyqueryを使用して段落と作成者をコンパイルし、作成者のみが空白を返します
対象サイト:http: //business.transworld.net/153984/news/surfrider-foundation-names-chad-nelsen-new-ceo/
python - PyQuery Pythonがforループで動作しない
.txt ファイルの各行から URL を取得し、PyQuery を実行して LyricsWiki から歌詞データを取得するプログラムを作成しようとしていますが、実際に PyQuery のものを入れるまではすべて正常に動作しているようです。そうです:
期待どおりにすべてが出力され、すべてのデータが含まれる 1 つの大きな文字列が出力されます。ただし、実際の html 解析を実装すると、最後の URL からのみ歌詞が取得され、それ以前のすべての歌詞がスキップされます。
Powershell でのエンコードの問題を回避するために、txt ファイルに書き込みます。とにかく、プログラムを実行して txt ファイルを開くと、links.txt ドキュメントの最後のリンクの歌詞しか表示されません。
参考までに、「links.txt」には、次のように、歌詞ウィキの曲ページへのリンクがいくつか含まれている必要があり ます 。
「web.txt」は空白の出力ファイルである必要があります。
pyquery が for ループを壊すのはなぜですか? ファイルの個々の行を連結するなど、より単純なことを行う場合は明らかに機能します。
python - Python Web クローラーを使用してニュース記事の公開日を取得する
ニュース記事を取り巻くさまざまなフィールドを抽出する必要があり、ニュース記事の公開日を除いて、それらのほとんどを自動化できました。現在、私は手動でそれぞれのWebサイトにアクセスし、公開された日付を囲むHTMLタグを確認し、日付を抽出して同じものをpyqueryに実装するためのjQueryを作成しています。ただし、この 1 つの手動ステップも削除して、NY Times などのニュース Web サイト用の汎用 Web スクレイパーを作成したいと考えています。考えられる最も近い方法は、記事の DOM で日時形式に一致する正規表現を多数作成することです。しかし、実際の公開日と実際の記事自体に存在する可能性のある他の日付をどのように区別するかを理解することはできません.
編集:私の質問の文言はあまり明確ではないと思うので、私の質問は、ニュース記事から公開日を自動的にスクレイピングする方法があるかどうかです。つまり、ブログ投稿またはニュース記事から公開日を抽出できる汎用クローラーです。