4

URL を指定すると、テキストを取得し、ユーザーにコンテンツに関する統計情報を提供する Web ツールをいじっています。

私のボックスからネット上の任意の URL への GET 要求を開始する方法をユーザーに提供すると、攻撃のベクトルとして機能する可能性があるのではないかと心配しています (例: へhttp://undefended.box/broken-sw/admin?do_something_bad)。

このリスクを最小限に抑える方法はありますか? パブリック URL 取得機能を提供する際のベスト プラクティスはありますか?

私が考えたいくつかのアイデア:

  • 敬うrobots.txt
  • 特定の URL パターンのみを許可または拒否する
  • 適切なサイトのブラックリスト/ホワイトリストを確認する (そのようなものが存在する場合)
  • これらのセーフガードがすでに組み込まれていることを前提として、よく知られたサードパーティのパブリック Web プロキシを介して動作します。

ご協力いただきありがとうございます。

編集: リンクされたスクリプトや画像などをダウンロードまたは評価せずに、HTML またはテキスト コンテンツのみを評価します。HTML の場合は、HTML パーサーを使用します。

4

1 に答える 1

2

統計はドキュメント内のテキストのみになりますか?HTMLパーサーを使用して評価しますか?

分析しようとしているのがテキストだけの場合、つまり、追加のリンクをダウンロードしたり、スクリプトを評価したりすることなく、リスクはそれほど深刻ではありません。

ダウンロードした各ファイルをアンチウイルスプログラムに通しても問題はないでしょう。また、GETを特定のコンテンツタイプに制限する必要があります(つまり、バイナリをダウンロードしないでください。何らかのテキストエンコーディングであることを確認してください)。

于 2009-03-01T19:57:48.963 に答える