linux - Linux で lynx/w3m を使用して複数の URL のテキストを抽出するにはどうすればよいですか

Question

1 つのテキストファイルに 50 の奇妙な URL のリストを作成しました (各行に 1 つの URL)。ここで、各 URL について、Web サイトのテキストを抽出して保存します。これは、Linux のシェルスクリプトの仕事のように思えます。

現時点では、私は物事をまとめています：

sed -n 1p listofurls.txtURLファイルの最初の行を読み取ることができたとします。listofurls.txt
出力をlynx -dump www.firsturl...使用して、さまざまなコマンドをパイプ処理して整理およびクリーンアップできます。やった、それはうまくいく。

自動化する前に、URL を lynx にパイプするのに苦労しています:

sed -n 1p listofurls.txt | lynx -dump -stdin

動作しません。

1 つの URL に対して、さらに重要なことに、私が持っている各 URL に対してどのように言うことができますlistofurls.txtか?

score 0 · Accepted Answer

1 つの URL を lynx にパイプするには、次を使用できますxargs。

sed -n 1p listofurls.txt | xargs lynx -dump

ファイルからすべての URL をダウンロードするには (lynx で解析して出力するだけです)、次のようにします。

while read url; do lynx - -dump $url; done < listofurls.txt

score 0 · Accepted Answer

このようなスクリプトを書くことができます

vi script.sh

#content of script.sh#
while read line
do
    name=$line
    wget $name
    echo "Downloaded content from - $name"
done < $1
#end#

chmod 777 script.sh

./script.sh listofurls.txt

linux - Linux で lynx/w3m を使用して複数の URL のテキストを抽出するにはどうすればよいですか

2 に答える 2

Related

Reference