0

html2text を使用していくつかの html ファイルをテキストに変換していますが、ファイル名 charliesheenwhich.html の名前を charliesheenwithout.txt または charliesheenwithout.html.txt として保持したい考えます。

find ./ -not -regex ".*\(png\|jpg\|gif\)$" -print0 | xargs -0 -L10 {} max-process=0 html2text {} -o ../potistotallywinning/{}.txt

もちろん、最後の部分 -o はとても間違っています。html2text の最初の引数を超えてファイル名を再利用するにはどうすればよいですか? -exec で for を使用できますが、xargs を使用するにはどうすればよいですか?

アップデート

やってしまった

find path/to/dir -type f -not -regex ".*\(gif\|png\|jpg\|jpeg\|mov\|pdf\|txt\)$" -print0 | xargs -0 -L10 --max-procs=0 -I {} html2text -o {}.txt {}
mkdir dir/w/textfiles
cp -r path/to/dir dir/w/textfiles
find dir/w/textfiles -type f -not -regex ".*txt$" -print0 | xargs -0 -L10 --max-procs=0 -I {} rm {}

最高ではありません..しかし、何でも.. [find引数の単純な-name '*html'ではない理由を疑問に思っている場合に備えて、これはmediawikiのwgetでした..]

4

2 に答える 2

0

basenameを使用してみてください。

$ man basename
于 2011-03-05T12:53:52.417 に答える