“wget”の関連問題_Stack Overflow日本語サイト

0 投票する

4 に答える

9367 参照

open-source - Web スパイダーは Wget のスパイダーとどう違うのですか?

Wgetのマニュアルで次の一文が目に留まりました

wget のスパイダーオプションに関連する次のコード行が見つかりました。

抽象的にではなく、コードの違いを確認したいと思います。コード例が大好きです。

Web スパイダーと Wget のスパイダーのコードの違いは?

2009-04-17T21:14:49.490

0 投票する

2 に答える

1615 参照

linux - 自動ダウンロードシェルスクリプトを改善する

だから私はrapidshareから複数のファイルをダウンロードしたい. これは私が現在持っているものです。実行してCookieを作成しました-

そして今、私は次のようなシェルスクリプトを実行しています-

欲しいものは2つ-

シェルスクリプトは、ファイルからダウンロードするファイルを読み取る必要があります。
シェルスクリプトは、一度に 2 ～ 8 個のファイルをダウンロードする必要があります。

ありがとう！

linux shell debian wget

bobcom

2009-04-24T11:37:37.297

0 投票する

2 に答える

9852 参照

python - Python で Web ページとそのすべてのリソースファイルをダウンロードする

Python を使用して、ページとそれに関連するすべてのリソース (画像、スタイルシート、スクリプトファイルなど) をダウンロードできるようにしたいと考えています。私は urllib2 に (ある程度) 精通しており、個々の URL をダウンロードする方法を知っていますが、BeautifulSoup + urllib2 でハッキングを開始する前に、"wget --page-requisites http ://www.google.com ".

具体的には、すべてのリソースを含む Web ページ全体をダウンロードするのにかかる時間に関する統計情報を収集することに関心があります。

ありがとうマーク

python urllib2 wget

2009-05-09T21:28:26.740

0 投票する

4 に答える

596 参照

php - PHPスクリプトはブラウザ上で実行されますが、wgetでは実行されません

私はwgetを介して5つのphpスクリプトを実行しているbash-sctiptを持っています。すべてのphpファイルが呼び出されますが、最後のスクリプトで、次の警告が表示されます。

mysql_query（）：指定された引数はxyz.phpのABC行の有効なMySQL-Linkリソースではありません

本当に奇妙なのは、ブラウザを介して同じスクリプトを実行すると、警告なしにスクリプトが正常に実行されることです。

これはABC行の近くの私のコードです：

私のSQLは完全に有効です（「die」ステートメントで出力されたクエリを実行すると、完全に実行されます）、DBConnはデータベースに接続され、これを除く他のすべてのスクリプトは正常に実行されます。

この警告の原因は本当にわかりません。どんな助けでも大歓迎です。

ありがとう

php browser wget debian-based

2009-05-13T14:17:45.830

0 投票する

6 に答える

2347 参照

php - wget がファイルのダウンロードを完了した後に MySQL クエリを実行する

バックグラウンドで実行されている wget がファイルのダウンロードを完了すると、特定の mysql クエリを実行する必要があります。例えば...

wget http://domain/file.zip

次に実行します：

更新tableセットstatus= 'ライブ' WHERE id= '1234'

どうすればこれを行うことができますか？

php mysql bash download wget

2009-05-20T03:54:31.633

0 投票する

1 に答える

3739 参照

php - PHPは、execがwget+mysqlコマンドから結果を返すのを待ってハングします

command-line - wget WIKI、差分ページを取得しない (正規表現で除外?)

wget を使用して wiki の静的ミラーをダウンロードしようとしています。各記事の最新バージョンのみが必要です (完全な履歴やバージョン間の差分ではありません)。全体をダウンロードして不要なページを後で削除するのは簡単ですが、そうすると時間がかかりすぎて、サーバーに不要な負担がかかります。

次のように、明らかに必要のないページがいくつかあります。

WhoIsDoingWhat?action=diff&date=1184177979

'action=diff' を含む URL をダウンロードして再帰しないように wget に指示する方法はありますか? または、正規表現に一致する URL を除外しますか?

command-line wiki wget

2009-06-01T17:48:37.350

0 投票する

10 に答える

37025 参照

python - Pythonのwget対urlretrieve

Web サイトから Gbs のデータをダウンロードするタスクがあります。データは .gz ファイルの形式で、各ファイルのサイズは 45 MB です。

ファイルを取得する簡単な方法は、「wget -r -np -A files url」を使用することです。これにより、再帰的な形式でデータがダウンロードされ、Web サイトがミラーリングされます。ダウンロード速度は非常に高く、4 mb/秒です。

しかし、ただ遊んでみるために、python を使用して urlparser を構築していました。

Python の urlretrieve によるダウンロードは非常に遅く、wget の 4 倍遅くなる可能性があります。ダウンロード速度は 500kb/秒です。href タグの解析には HTMLParser を使用します。

なぜこれが起こっているのかわかりません。このための設定はありますか。

ありがとう

python urllib2 wget

2009-06-10T10:18:59.930

問題タブ [wget]

Reference