問題タブ [data-collection]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python を使用して Web サイトの複数のページからデータをスクレイピングする
アルジャジーラのウェブサイトから約 500 件の記事をクロールし、4 つのタグを収集したいと考えています。
- URL
- 題名
- タグ
- 著者
ホームページからデータを収集するスクリプトを作成しましたが、いくつかの記事しか収集しません。他の記事は別のカテゴリにあります。どうすれば 500 個の記事を繰り返すことができますか? それを行う効率的な方法はありますか。
contacts - さまざまな vCard (*.vcf) の無料コレクションを探しています
現在、vCard パーサーに取り組んでいます。vCard のさまざまなエッジ ケース (標準では大きな差異が許容されます) をテストするには、さまざまなソースからの vCard のコレクションが必要です。現在、自分で作成したいくつかの vCard を使用しており、テスト目的で使用できる vCard (*.vcf) の無料コレクションが Web にあるかどうか疑問に思っていました。
python - pushshift API を使用して才能に基づいて提出物または subreddit を取得する方法はありますか?
ドキュメントを調べましたが、BigQuery を使用せずに、特定の期間、特定のサブレディットから才能に基づいて提出物を取得する方法を見つけることができませんでした。APIを使用するだけです。
r - Rでネストされたリンクからリンクを見つける
R を使用してテキスト マイニングを学習しています。HTML ドキュメント内のすべてのリンクを見つけようとしています。
getHTMLLinks() を試しましたが、次のエラーが表示されます:
そのため、「rvest」パッケージでリンクを探すのに疲れました。コードは次のとおりです。
すべてのリンクをベクター形式で提供します。
これらのすべてのリンクは、hrefタグにリストされている名前にすぎません。しかし実際には、これらはすべてテーブルへのハイパーリンクです。
これらのハイパーリンクの名前の代わりに最終的なリンクを抽出するにはどうすればよいか、誰かが私を助けることができれば本当に素晴らしいでしょう?