security - URL 検索サービスのベストプラクティスは? 攻撃ベクトルにならないようにするには?

Question

URL を指定すると、テキストを取得し、ユーザーにコンテンツに関する統計情報を提供する Web ツールをいじっています。

私のボックスからネット上の任意の URL への GET 要求を開始する方法をユーザーに提供すると、攻撃のベクトルとして機能する可能性があるのではないかと心配しています (例: へhttp://undefended.box/broken-sw/admin?do_something_bad)。

このリスクを最小限に抑える方法はありますか? パブリック URL 取得機能を提供する際のベストプラクティスはありますか?

私が考えたいくつかのアイデア：

ご協力いただきありがとうございます。

編集: リンクされたスクリプトや画像などをダウンロードまたは評価せずに、HTML またはテキストコンテンツのみを評価します。HTML の場合は、HTML パーサーを使用します。

score 2 · Accepted Answer

統計はドキュメント内のテキストのみになりますか？HTMLパーサーを使用して評価しますか？

分析しようとしているのがテキストだけの場合、つまり、追加のリンクをダウンロードしたり、スクリプトを評価したりすることなく、リスクはそれほど深刻ではありません。

ダウンロードした各ファイルをアンチウイルスプログラムに通しても問題はないでしょう。また、GETを特定のコンテンツタイプに制限する必要があります（つまり、バイナリをダウンロードしないでください。何らかのテキストエンコーディングであることを確認してください）。

security - URL 検索サービスのベスト プラクティスは? 攻撃ベクトルにならないようにするには?