テキスト調査の回答から Web サイトを抽出する必要があります。アルゴリズムは大まかに一致する必要があります。たとえば、「patients like me」または「patientslikeme」は「patientslikeme.org」として認識されます。
以下のデータセットからの回答を含めました。これを行うためにいくつかのスクリプトを書き始めましたが、追加のフィルターと辞書を受け入れる堅牢な設計パターンを使用していないことに気付きました。一致が正確すぎるか、または一般的すぎるため、十分な数の一致を検出できないため、単純な正規表現は機能しませんでした。完璧な世界では、スペルミスを修正するためにaspellのようなものを使用したり、単語を一致させるためにレーベンシュタインアルゴリズムを使用したりすることもできます。
データクレンジングアルゴリズム、フレームワーク、またはリソースの方向性を教えてくれてありがとう.
「オンライン コミュニティ」の全体的な美しさは、その大部分が匿名であることです。ただし、アクセス可能なガーデニング フォーラム、Davesgarden.com。Patientslikeme.com; もちろんフェイスブックも。
$sites = array("davesgarden.com","patientslikeme.com","facebook.com");
ペイシェント ライク ミー ミズ ソサエティ フェイスブック ディスイズム
$sites = array("patientslikeme.com","mssociety.org","facebook.com","thisisms.com");
yaoo webmd.co
$sites = array("yahoo.com","webmd.com");
MS治療オプション.com
$sites = array("mstreatmentoptions.com");