URL から PII 情報を識別して削除する規則はありますか? これを一般的なものにして、インターネット上で遭遇する可能性のあるあらゆる種類の URL を処理できるようにしたいと考えています。
明確化: 私はインターネットを閲覧している人々の URL のリストを持っており、それらから PII を削除したいと考えています。
URL から PII 情報を識別して削除する規則はありますか? これを一般的なものにして、インターネット上で遭遇する可能性のあるあらゆる種類の URL を処理できるようにしたいと考えています。
明確化: 私はインターネットを閲覧している人々の URL のリストを持っており、それらから PII を削除したいと考えています。
snemarch への返信で再度述べた質問に答えるには、次のようにします。
はい、わかりました。URL 内の PII を特定するために留意する必要がある考慮事項は何ですか? URls で PII が発生する可能性のあるさまざまな方法は何ですか?
HTTP GET 情報は、さまざまな方法で送信できます。一部の、そしておそらくほとんどの場合、次のようになります。
example.com/form.php?key=value.
stackoverflow を含む他の Web サイトでは、URL 書き換えを使用して、リンク「example.com/form/value」を「example.com/form.php?key=value」に変換する場合があります。この URL の書き換えは、サーバーの構成に完全に依存しており、このように提示された PII を検出して削除する簡単な方法はありません。
これを念頭に置いて、さまざまな URL のリストからすべての PII を 100% 削除する方法は実際にはありません。そのような情報は、PII のない URL からは識別できない可能性があるためです。少なくとも、「example.com/form.php?key=value」という形式の URL など、確実に PII である情報を取り除くことができます。「=」を含む URL にはなんらかの変数が含まれているので、フィルタリングする必要があります。それを超えると、リストの大部分を手動で解析する必要があります。
リストがどれだけ大きく、どれだけ真剣にフィルタリングしているかにもよりますが、人気のある製品で人気のある mod_rewrite メソッドを調査してリスト内で一致させようとしたり、URL をスクレイピングして URL に関する追加情報を特定したり、複雑で可能性が高いいくつかのことを行ったりすることができます。 URL の変数である可能性があるものを推測しようとする醜いアルゴリズム - おそらく、ユーザーがアクセスした類似の URL を考慮し、URL のトークンを比較します。特定のトークンのテキストがわずかに異なる類似の URL は、おそらく変数であり、フィルタリングする必要があります。
幸運を!
GET を介して URL からユーザーの機密情報を渡してはいけません。代わりに POST を使用する場合は、接続が HTTPS であることを確認してください。