URL を指定すると、テキストを取得し、ユーザーにコンテンツに関する統計情報を提供する Web ツールをいじっています。
私のボックスからネット上の任意の URL への GET 要求を開始する方法をユーザーに提供すると、攻撃のベクトルとして機能する可能性があるのではないかと心配しています (例: へhttp://undefended.box/broken-sw/admin?do_something_bad
)。
このリスクを最小限に抑える方法はありますか? パブリック URL 取得機能を提供する際のベスト プラクティスはありますか?
私が考えたいくつかのアイデア:
- 敬う
robots.txt
- 特定の URL パターンのみを許可または拒否する
- 適切なサイトのブラックリスト/ホワイトリストを確認する (そのようなものが存在する場合)
- これらのセーフガードがすでに組み込まれていることを前提として、よく知られたサードパーティのパブリック Web プロキシを介して動作します。
ご協力いただきありがとうございます。
編集: リンクされたスクリプトや画像などをダウンロードまたは評価せずに、HTML またはテキスト コンテンツのみを評価します。HTML の場合は、HTML パーサーを使用します。