問題タブ [scrape]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
8775 参照

python - ScrapyBodyテキストのみ

Python Scrapyを使用して本文からのみテキストをスクレイプしようとしていますが、まだ運がありません。

<body>何人かの学者がここでタグからすべてのテキストを削るのを手伝ってくれるかもしれないことを願っています。

0 投票する
1 に答える
4231 参照

csv - NodeJSでURLからcsvレスポンスを解析・保存・取得する

Yahoo ファイナンスの URL から結果を取得しようとしています。

http://finance.yahoo.com/d/quotes.csv?s=XOM=sn1yr を返す:

これらの結果を Mongoose を使用してデータベースに保存しようとしています。既存のCSVファイルから保存するコードがいくつかあります(ご覧のとおり、異なるが関連するコンテンツがあります):

私は次のようなことをしようとしています:

Scraper は、https://github.com/mape/node-scraperにあるモジュールです。

しかし、応答を別のCSVファイルに入れずにYahoo URLからのCSV結果を使用すると、何らかの方法でstream.writeを使用する必要があると言われました。私はNode.jsを初めて使用するので、これを理解するのに助けていただければ幸いです。助けてくれてありがとう!

0 投票する
1 に答える
522 参照

python - Python で Web サイトのエンコーディングを検出して変更する

Web サイトのエンコーディングに問題があります。Web サイトをスクレイピングするプログラムを作成しましたが、読み取ったコンテンツのエンコーディングを変更することに成功しませんでした。私のコードは次のとおりです。

私は外部ライブラリ(BSXPath BeautifulSoapの拡張)を使用し、document.originalEncodingは、変更しようとしたutf-8エンコーディングではなく、Webサイトのエンコーディングを出力します。誰か提案がありますか?

ありがとう

0 投票する
2 に答える
596 参照

java - Javaクエリとスクレイピングによる格安フライト

Southwest.com にアクセスして特定のフライトを 1 日に 4 回検索する Java アプリを作成しています。安いフライトが見つかった場合は、ユーザーに電子メールを送信します。

Southwest.com ホームページにデータを入力する方法を知る必要があります (つまり、2011 年 7 月 24 日に JFK から SFO へのフライトが必要です)。結果ページから HTML をスクレイピングして最低価格を表示できるようにします。 .

Java でサイトを照会する方法についてのヘルプをいただければ幸いです。

0 投票する
2 に答える
1529 参照

regex - テーブルからPerlスクリーンスクレイプデータ

Web ページの html コンテンツを取得し、テーブルのコンテンツをスクレイピングする Perl スクリプトを作成したいと思います。正確なページは次のとおりです。

http://djbpmstudio.com/Default.aspx?Page=album&id=1

これまでのところ、次のコードを使用して、アーティスト、アルバム、ジャンル、およびテーブルの最初のエントリを正規表現できます。

ネストされた IF では、クラスは「row-a」と「row-b」を交互に繰り返します。

リストを下に移動して、それぞれの曲名と BPM をすべて取得する方法がわかりません。また、曲名と BPM を後で処理するために配列に入れたいと思います。

ありがとうございました。

0 投票する
2 に答える
330 参照

python - sparke.pyライブラリのsubmitメソッドの使用に関する問題

私はscrap.pyライブラリを使用してWebサイトをスクレイプしています。(ライブラリとドキュメントはここhttp://zesty.ca/scrape/にあります)

セッションで押したいページにボタンがありますが、送信機能の使い方がよくわかりません。私が理解しているように、私はそれにフォームのリージョンオブジェクトを与えることになっています。ボタン自体は入力html要素です。フォームと入力の両方を指定しようとしましたが、毎回同じエラーが発生します。

私のコード(グーグルアプリエンジン上):

また

とエラー:

0 投票する
1 に答える
4924 参照

excel - VBA を使用して Web サイトのデータを Excel にストリーミングする

Web サイトは、HTTPS 接続を介してブラウザーを介してストリーミング株価を提供します。これは、サーバーが POST HTTP ヘッダーを送信し、その本体を新しい引用符で更新することによって行われます。その後、DOM が更新され、これが視覚的な更新に変換されます。これらの見積もりを、できればストリーミングも Excel に取り込みたいと考えています。VBA、.NET フレームワーク、および firefox アドオンのみを使用できます。

私はそれを行う方法に行き詰まっています。私は VBA と .NET と Firefox のアドオンに限定されています。どのライブラリ、オブジェクト、Firefox アドオンを使用するようにアドバイスしてもらえますか?

0 投票する
3 に答える
1993 参照

python - Pythonを使用してテキストテーブルからデータを取得するにはどうすればよいですか?

次のテキストがあります。データ項目をスクレイピングしてExcelに保存したいと思います。Pythonでこれを行う方法はありますか?

現在、「|」を使用してcsv形式で取得しようとしています。記号を使用してデータ項目を分離し、手動でデータを抽出してExcelを作成します。

問題は、これを何千回も実行する必要があり、各テーブルを調べて必要なアイテムを保存するのに永遠に時間がかかることです。左端の列にリストされている各個人の年、給与、ボーナス、その他の年次報酬などを追跡する辞書を作成する方法はありますか?

0 投票する
0 に答える
1835 参照

scrape - Google 翻訳 API のピンイン

他のウェブサイトからピンインをスクレイピングするのではなく、googletranslate API からピンインをスクレイピングしたいと考えています (時間が経つにつれて、さまざまなリクエストで 1 万通りの方法でフォーマットが変わる可能性があります)。返される JSON にはローマ字表記が含まれていないように見えますが、Web ページに表示されるため、ローマ字表記は確かにどこかに存在します。

私はpythonを使用していますが、これは言語に依存しない質問であるべきだと思います。

提案?