0

Web ページ上の単語の出現回数をカウントするスクリプトを作成する必要があります

私がやっていることは、ランダムなIPを計算し(同じIPを複数回チェックすることを避けます)、nmapを使用してポート80が開いているかどうかを確認し、それがWebサーバーであるかどうかを確認し、w3mを使用してhttpページをファイルとして作成します. 単語の出現回数を簡単に数えられるようになったら

いくつかの質問と問題がありました

  • このプロセスには多くの時間がかかりますが、より速くする方法は考えられません
  • ポート 80 が開いている IP の多くは Web サイトではありません。それらは稼働しておらず、問題がある可能性があります。稼働しているサイトのみを確認する方法はありますか?
  • このメソッドは、Web サイトのインデックス ページに出現する単語のみをチェックします。他の公開ページもチェックする方法はありますか?

どうもありがとう

4

1 に答える 1

-1

私はawkで同様のことをします。Awk はテキストの解析に優れています。私が行っているのは、Apache ログで各 IP アドレスが実行した HTTP GET の数を分析することです。したがって、あなたのようなボットは私の統計に簡単に表示されます:P awk を使用すると、PHP、Ruby、および bash スクリプトで、すべての同僚が作成したすべてのソリューションよりも優れています。

問題は、ファイル (またはページ) ごとに統計を生成していないことです。あなたはすべての結果を合計していますよね?そのため、SQLite を使用して、スキャンしたすべてのテキストに単語が何回出現したかを追跡します。シェル スクリプトを使用して SQLite にデータを追加するのは簡単 (かつ高速) です。

また、インデックス ページだけでなく、最初のページにリンク (HREF) があるすべてのページからコンテンツをダウンロードするため、wget --spider または他のスパイダー HTTP クライアントを使用する必要があります。したがって、Web サイトを再帰的にスキャンできます。

于 2012-08-12T06:03:26.030 に答える