Web での単語の分布を計算するスクリプトを作成しています。私がしなければならないことは、できるだけ多くのランダムな Web サイトをチェックし、それらのサイト内の単語の数を数えてリストし、ほとんどの場合に出現する単語がリストの一番上になるように並べることです。私がやっていることは、ランダムなIP番号を生成することです:
a=`expr $RANDOM % 255`
let "a+=1"
b=`expr $RANDOM % 256`
c=`expr $RANDOM % 256`
d=`expr $RANDOM % 256`
ip=$a.$b.$c.$d
その後、nmap を使用して、これらのサイトでポート 80 または 8080 が開いているかどうかを確認して、それが Web サイトである可能性を確認します。
IP が Web サイトに属していないことが確実な場合は、そのアドレスをブラック リスト ファイルに追加して、再度チェックされないようにします。
ポート 80 またはポート 8080 が開いている場合は、逆ルックアップで IP を解決し、その IP に属するすべてのドメイン名を取得する必要があります。
問題は、これらのコマンドのいずれかを実行すると、出力は単一の PTR レコードのみであり、複数存在する可能性があることです。
dig -x ipaddres +short
nslookup ipaddress
host ipaddress
これはbashで解決することを好みますが、Cに解決策がある場合はそれも役立ちます
その後、w3m を使用して Web サイトのページをファイルにコピーし、単語の出現回数をカウントします。
また、ここで別の問題があります。インデックスページだけでなく、サイトに属する利用可能な公開ページをすべてチェックする方法はありますか?
どんな助けでも大歓迎です