問題タブ [downloading-website-files]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
56 参照

downloading-website-files - autocomplete.doファイルの表示

ウェブサイト( " www.asklaila.com ")をリバースエンジニアリングして、 yahooUIオートコンプリートウィジェットがどのように機能しているかを調べようとしていました。ビューソースを見つけたところ、「/ autocomplete.do」というファイルを参照していることがわかりました。このautocomplete.doファイルの意味を知りたいのですが、ダウンロードして自分のマシンでローカルに開くことができますか?

私の必要条件が合法で倫理的であることを願っています。

0 投票する
1 に答える
273 参照

wget - 特定のフォルダーサイトなしでwgetでダウンロード

特定のフォルダーなしでオフラインで表示するためのサイトをダウンロードする方法 たとえば、http://site.com/forum/サブディレクトリなしでサイトをダウンロードしたい

0 投票する
3 に答える
1631 参照

php - max_execution_time 制限を回避するために PHP スクリプトを最適化する

映画タイトルの配列をループ処理し、 http://www.imdbapi.com/を使用して関連するメタデータを取得する PHP スクリプトをローカル サーバーに作成しました。

file_put_contents を開始する行で、php の max_execution_time をヒットしました。いくつかの画像がダウンロードされ、不完全な画像も取得されることに気付いたので、画像をダウンロードするときに制限時間に達したと推測しています。

これを防ぐためにスクリプトを改善するにはどうすればよいですか? スクリプトを最適化するためにできる基本的なことがある場合、制限時間を増やすという回避策はあまり好きではありません。

0 投票する
1 に答える
1745 参照

python - Python - 特定の div にアクセスできない [Urllib、BeautifulSoup、おそらく Mechanize?]

私はここ数日間、この壁に頭を悩ませてきたので、SO コミュニティに聞いてみようと思いました。ファイルをダウンロードするために、とりわけ、Web サイトのフォームの「同意」ボタンを押すことができる Python スクリプトが必要です。ただし、そのためには、フォームにアクセスする必要があります。

これは、ダウンロードしたいファイルの例です。その中に、条件に同意してファイルをダウンロードするアクションを含む名前のないフォームがあることを知っています。また、フォームを見つけることができる div がメイン コンテンツ div であることも知っています。

ただし、BeautifulSoup が Web ページを解析するたびに、メイン コンテンツの div を取得できません。私が取得できた最も近いものは、その直前の main_content リンクですが、これは BeautifulSoup のオブジェクトを通じて何の情報も提供しません。

ここに私のスクリプトからのコードの一部があります:

Url は、私が見ている URL の名前です (以前に投稿した URL です)。extr は、.extension の形式でダウンロードしたいファイルの種類ですが、それは私の質問にはあまり関係ありません。関連するコードは 2 番目の for ループで、div をループしようとしているコードです。コードの最初の部分 (最初の for ループ) は、別の場合にダウンロード リンクを取得するためのコードです (スクリプトに指定された URL が、コンテンツ タイプの .zip などのファイル拡張子でマークされた「ダウンロード リンク」である場合)。の text/html) であるため、無視してかまいません。コンテキストのためだけに追加しました。

十分な詳細を提供したことを願っていますが、そうではなかったと確信しています。私が行っていることについてさらに情報が必要な場合はお知らせください。喜んでお応えします。ありがとう、スタック。

0 投票する
4 に答える
13228 参照

java - HTTP リクエストを使用してファイルの一部をダウンロードする

PDF ファイルの一部をダウンロードしようとしています ("Range" ヘッダーをテストするためだけに)。サーバーに範囲内のバイト (0 ~ 24) を要求しましたが、コンテンツから最初の 25 バイト (一部) を取得する代わりに、完全な長さのコンテンツを取得しています。さらに、応答コードを 206 (部分的なコンテンツ) として取得する代わりに、応答コードを 200 として取得しています。

これが私のコードです:

出力は次のとおりです。
Respnse Code: 200
Content-Length: 94973848
Downloaded Size: 94973848

前もって感謝します。

0 投票する
0 に答える
496 参照

linux - 最初から開始せずにWebサイト全体の中断されたwgetを再開する

この wget コマンドを使用して Web サイトをダウンロードしています。

--wait オプションと --limit-rate オプションを使用して、Web サイトの過負荷を回避したいと考えていました。ダウンロードは順調に進んでいましたが、24 時間後に中断されました。--no-clobber オプションを使えば再開できると思っていたのですが、wget はすでにダウンロードしたファイルを上書きしていないのに、1 つずつ確認してから 10 秒も待機しています。

実際にファイルをダウンロードする必要がある場合にのみ wget を待機させる方法はありますか? これを行う最良の方法は何ですか?

ありがとう。

0 投票する
1 に答える
1037 参照

c# - リダイレクトページからファイルのコンテンツタイプを取得する方法は?

Web サイトにログオンし、その Web サイトからいくつかのファイルをダウンロードするアプリケーションがあります。

ただし、リンクが別のページにリダイレクトされるものを除いて、すべての種類のファイルをダウンロードして適切に保存することができました.

たとえば、Web ページのソース コードで、リンク アドレスが次のように記述されている場合:-

" http://someurl.com/view.php " の場合、このリンクはリダイレクトされ、ダウンロードがすぐに開始されます (Web ブラウザーでリンクをクリックすると)。

を使用してプログラムでこのファイルをダウンロードしHttpWebRequest
AllowAutoRedirect = true.

保存中に問題が発生しました。ダウンロードしたファイルの拡張子が必要です(Word文書、PDFファイル、またはその他のファイルのいずれか)

どのように確認すればよいですか?

私が使用しているコードの一部は次のとおりです:-