2

テキスト調査の回答から Web サイトを抽出する必要があります。アルゴリズムは大まかに一致する必要があります。たとえば、「patients like me」または「patientslikeme」は「patientslikeme.org」として認識されます。

以下のデータセットからの回答を含めました。これを行うためにいくつかのスクリプトを書き始めましたが、追加のフィルターと辞書を受け入れる堅牢な設計パターンを使用していないことに気付きました。一致が正確すぎるか、または一般的すぎるため、十分な数の一致を検出できないため、単純な正規表現は機能しませんでした。完璧な世界では、スペルミスを修正するためにaspellのようなものを使用したり、単語を一致させるためにレーベンシュタインアルゴリズムを使用したりすることもできます。

データクレンジングアルゴリズム、フレームワーク、またはリソースの方向性を教えてくれてありがとう.

「オンライン コミュニティ」の全体的な美しさは、その大部分が匿名であることです。ただし、アクセス可能なガーデニング フォーラム、Davesgarden.com。Patientslikeme.com; もちろんフェイスブックも。

$sites = array("davesgarden.com","patientslikeme.com","facebook.com");

ペイシェント ライク ミー ミズ ソサエティ フェイスブック ディスイズム

$sites = array("patientslikeme.com","mssociety.org","facebook.com","thisisms.com");

yaoo webmd.co

$sites = array("yahoo.com","webmd.com");

MS治療オプション.com

$sites = array("mstreatmentoptions.com");
4

1 に答える 1

0

これが ruby​​ スクリプトです。

inputfile.txt という名前のこの形式のドメインのリストをフィードします。

myurl.com
otherurl.com

これを convert.rb というファイルに保存します。

while line = gets
        line =~ /(.+)\.\w+$/
        print "/"
        $1.each_char{|c|
                print "#{c}\\W*"
        }
        print "/i"
        puts
end

次に、次のコマンドを実行します: cat inputfile.txt | ruby convert.rb > 出力ファイル.txt

それは正規表現のリストです。それらを取り、入力テキストでそれぞれを一致させてみてください。

于 2012-01-18T14:17:21.553 に答える